Désambiguïsation lexicaleLa désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
TreebankIn linguistics, a treebank is a parsed text corpus that annotates syntactic or semantic sentence structure. The construction of parsed corpora in the early 1990s revolutionized computational linguistics, which benefitted from large-scale empirical data. The term treebank was coined by linguist Geoffrey Leech in the 1980s, by analogy to other repositories such as a seedbank or bloodbank. This is because both syntactic and semantic structure are commonly represented compositionally as a tree structure.
Annotation (informatique)En programmation, une annotation est un élément permettant d'ajouter des méta-données à un code source. Selon le langage de programmation et ce qu'a choisi le programmeur, elles peuvent être accessibles uniquement lors de la compilation, présentes uniquement dans le fichier compilé, voire accessibles à l'exécution. Cette technique est une alternative aux fichiers de configuration, souvent écrits dans des formats tels que le XML ou le YAML.
Word-sense inductionIn computational linguistics, word-sense induction (WSI) or discrimination is an open problem of natural language processing, which concerns the automatic identification of the senses of a word (i.e. meanings). Given that the output of word-sense induction is a set of senses for the target word (sense inventory), this task is strictly related to that of word-sense disambiguation (WSD), which relies on a predefined sense inventory and aims to solve the ambiguity of words in context.
Paire minimaleEn phonologie, le terme paire minimale désigne deux éléments en opposition du point de vue phonologique. Selon l’une des définitions, les éléments en opposition sont des mots dont le sens est différencié par un seul phone ou par des éléments prosodiques portés par un phone. Dans une autre vision, les deux éléments en opposition sont des phones différenciés par un seul de leurs traits, par exemple sourde ↔ voisée, et ces éléments produisent des paires minimales de mots.
Plongement lexicalLe plongement lexical (« word embedding » en anglais) est une méthode d'apprentissage d'une représentation de mots utilisée notamment en traitement automatique des langues. Le terme devrait plutôt être rendu par vectorisation de mots pour correspondre plus proprement à cette méthode. Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. Cette nouvelle représentation a ceci de particulier que les mots apparaissant dans des contextes similaires possèdent des vecteurs correspondants qui sont relativement proches.
Linguistique de corpusLa linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires. La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés.
Langue mixteUne langue mixte est une langue née de la fusion de deux langues sources en général, habituellement dans des situations de bilinguisme poussé. De sorte qu'il ne soit pas possible de classer la langue en résultant comme appartenant à l'une des familles de langues qui étaient ses sources. Bien que le concept soit fréquemment rencontré dans la linguistique historique depuis le début du , les cas attestés d'hybridation des langues sont assez rares, à la différence des alternances codiques, de l'influence des substrats et des superstrats, ou des emprunts lexicaux.
CorpusUn corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.
Langues slavesLes langues slaves sont des langues indo-européennes, du groupe balto-slave. Les langues slaves forment un groupe de langues important dont les locuteurs se situent majoritairement en Europe centrale, Balkans, Europe de l'Est, Sibérie, Extrême-Orient russe, Asie centrale. Le groupe des langues slaves se décompose en trois familles de langues : orientale, occidentale et méridionale. Pour cette dernière, il existe pour le diasystème slave du centre-sud des dénominations politiques conformes aux recensements des pays slaves méridionaux, et des dénominations linguistiques conformes aux classifications des linguistes.