Reconnaissance d'entités nomméesLa reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. À titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC: Henri a acheté 300 actions de la société AMD en 2006 Henri a acheté 300 actions de la société AMD en 2006.
Anaphore (grammaire)En grammaire, une anaphore (du grec ἀναφορά, reprise, rapport) est un mot ou un syntagme qui, dans un énoncé, assure une reprise sémantique d'un précédent segment appelé antécédent. Sans cet antécédent, l'anaphore perd son sens. C’est pourquoi elle doit toujours être liée avec un autre élément dans la phrase. Les anaphores permettent des interprétations principalement locales. On retrouve cependant des preuves d'anaphore ayant un référent plus éloigné dans l'ouvrage de Koster et Reuland (1991).
Pro-formIn linguistics, a pro-form is a type of function word or expression that stands in for (expresses the same content as) another word, phrase, clause or sentence where the meaning is recoverable from the context. They are used either to avoid repetitive expressions or in quantification (limiting the variables of a proposition). Pro-forms are divided into several categories, according to which part of speech they substitute: A pronoun substitutes a noun or a noun phrase, with or without a determiner: it, this.
Réseau de neurones récurrentsUn réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.
Classification et catégorisation de documentsLa classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information.
Classement automatiquevignette|La fonction 1-x^2-2exp(-100x^2) (rouge) et les valeurs déplacées par un bruit de 0,1*N(0,1). Le classement automatique ou classification supervisée est la catégorisation algorithmique d'objets. Elle consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se fondant sur des données statistiques. Elle fait couramment appel à l'apprentissage automatique et est largement utilisée en reconnaissance de formes. En français, le classement fait référence à l'action de classer donc de « ranger dans une classe ».
Théorie du liageEn linguistique, la théorie du liage peut désigner toute théorie ayant pour objet la distribution des éléments pronominaux et anaphoriques. Cette théorie offre des restrictions syntaxiques selon la position du syntagme déterminant (ou nominal). L'idée selon laquelle il devrait y avoir une théorie spécialisée et cohérente s'occupant de ces phénomènes particuliers est apparue dans les travaux autour des grammaires transformationnelles dans les années 1970.
PlurielDans de nombreuses langues, le pluriel est la représentation de l’une des valeurs de la catégorie grammaticale d’un nombre. La forme plurielle des substantifs désigne, de manière générale, une quantité supérieure à la quantité par défaut représentée par un substantif et qui est généralement égale à un (la forme qui représente la quantité par défaut s’appelle le singulier). Par conséquent, on utilise le plus souvent le pluriel pour désigner une quantité égale ou supérieure à deux.
Apprentissage auto-superviséL'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d'apprentissage automatique. Il apprend à partir d'échantillons de données non étiquetés. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. Il est basé sur un réseau de neurones artificiels. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau.
Nombre grammaticalLe nombre est, en grammaire et linguistique, un trait grammatical indiquant la quantité et caractérisant certains lemmes comme les noms et adjectifs, les pronoms ainsi que les verbes. Dans le système nominal et pronominal, le nombre représente, de manière plus ou moins précise, la quantité d’unités du lemme (une unité : chat, plusieurs unités : chats). Dans le système verbal, il n’est souvent que la représentation du nombre d’un nom ou d’un pronom liés à ce verbe (jouant le plus souvent le rôle de sujet).