Documentthumb|right|Exemple de document papier. Un document renvoie à un ensemble formé par un support et une information (le contenu), celle-ci enregistrée de manière persistante. Il a une valeur explicative, descriptive ou de preuve. Vecteur matériel de la pensée humaine, il joue un rôle essentiel dans la plupart des sociétés contemporaines, tant pour le fonctionnement de leurs administrations que dans l'élaboration de leurs savoirs.
Allocation de Dirichlet latenteDans le domaine du traitement automatique des langues, l’allocation de Dirichlet latente (de l’anglais Latent Dirichlet Allocation) ou LDA est un modèle génératif probabiliste permettant d’expliquer des ensembles d’observations, par le moyen de groupes non observés, eux-mêmes définis par des similarités de données. Par exemple, si les observations () sont les mots collectés dans un ensemble de documents textuels (), le modèle LDA suppose que chaque document () est un mélange () d’un petit nombre de sujets ou thèmes ( topics), et que la génération de chaque occurrence d’un mot () est attribuable (probabilité) à l’un des thèmes () du document.
Amas stellaireUn amas stellaire est une concentration locale d'étoiles d'origine commune et liées entre elles par la gravitation, dans un espace dont les dimensions peuvent atteindre 200 pc. Ces objets sont classés en plusieurs familles selon leur aspect ; ce sont, par compacité croissante : les associations stellaires, les amas ouverts et les amas globulaires. Les amas stellaires se maintiennent par l'attraction gravitationnelle mutuelle de leurs membres.
Topic modelvignette|Visualisation du résumé d'un article scientifique traité par topic model. L'intensité de la couleur varie selon la probabilité d'appartenir au topic en question. En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. Analyse sémantique latente (LSA) Allocation de Dirichlet latente (LDA) Analyse sémantique latente probab
Elastic mapElastic maps provide a tool for nonlinear dimensionality reduction. By their construction, they are a system of elastic springs embedded in the data space. This system approximates a low-dimensional manifold. The elastic coefficients of this system allow the switch from completely unstructured k-means clustering (zero elasticity) to the estimators located closely to linear PCA manifolds (for high bending and low stretching modules). With some intermediate values of the elasticity coefficients, this system effectively approximates non-linear principal manifolds.
Web sémantiquevignette|300px|droite|Logo du W3C pour le Web sémantique Le Web sémantique, ou toile sémantique, est une extension du Web standardisée par le World Wide Web Consortium (W3C). Ces standards encouragent l'utilisation de formats de données et de protocoles d'échange normés sur le Web, en s'appuyant sur le modèle Resource Description Framework (RDF). Le Web sémantique est par certains qualifié de Web 3.0. Selon le W3C, . L'expression a été inventée par Tim Berners-Lee (inventeur du Web et directeur du W3C), qui supervise le développement des technologies communes du Web sémantique.
Stratégie d'évaluation (informatique)Un langage de programmation utilise une stratégie d'évaluation pour déterminer « quand » évaluer les arguments à l'appel d'une fonction (ou encore, opération, méthode) et « comment » passer les arguments à la fonction. Par exemple, dans l'appel par valeur, les arguments doivent être évalués avant d'être passés à la fonction. La stratégie d'évaluation d'un langage de programmation est spécifiée par la définition du langage même. En pratique, la plupart des langages de programmation (Java, C...
Processeur vectorielvignette|Processeur vectoriel d'un supercalculateur Cray-1. Un processeur vectoriel est un processeur possédant diverses fonctionnalités architecturales lui permettant d'améliorer l’exécution de programmes utilisant massivement des tableaux, des matrices, et qui permet de profiter du parallélisme inhérent à l'usage de ces derniers. Développé pour des applications scientifiques et exploité par les machines Cray et les supercalculateurs qui lui feront suite, ce type d'architecture a rapidement montré ses avantages pour des applications grand public (on peut citer la manipulation d'images).
Amas ouvertEn astronomie, un amas ouvert est un amas stellaire groupant environ de 100 à étoiles de même âge liées entre elles par la gravitation, et dont le diamètre varie de 1,5 à 15 pc, avec une moyenne de 4 à 5 pc. Les amas ouverts sont peu lumineux et s’observent essentiellement dans notre Galaxie, où ils se situent dans le plan galactique, et dans les galaxies proches : les deux Nuages de Magellan et la galaxie d’Andromède. On pense qu'ils se forment au sein des nuages moléculaires, les grands nuages de gaz et de poussières qui constituent les nébuleuses diffuses.
Recherche d'image par le contenuLa recherche d'image par le contenu (en anglais : content-based image retrieval ou CBIR) est une technique permettant de rechercher des images à partir de ses caractéristiques visuelles, c'est-à-dire induite de leurs pixels. Les images sont classiquement décrites comme rendant compte de leur texture, couleur, forme. Un cas typique d'utilisation est la recherche par l'exemple où l'on souhaite retrouver des images visuellement similaires à un exemple donné en requête.