Annotation sémantiqueL'annotation sémantique est l'opération consistant à relier le contenu d'un texte à des entités dans une ontologie. Par exemple, pour la phrase «Paris est la capitale de la France.», l'annotation correcte de Paris serait Paris et non Paris Hilton. L'annotation sémantique est une variante plus détaillée mais moins exacte de la méthode des entitiés nommées, car ces dernières décrivent seulement la catégorie de l'entité (Paris est une ville, sans la relier à la bonne page Wikipédia).
Web des donnéesLe Web des données (linked data, en anglais) est une initiative du W3C visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d'informations. Il s'appuie sur les standards du Web tels que HTTP et URI. Plutôt qu'utiliser ces standards uniquement pour faciliter la navigation par les êtres humains, le Web des données les étend pour partager l'information également entre machines.
Reconnaissance d'entités nomméesLa reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. À titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC: Henri a acheté 300 actions de la société AMD en 2006 Henri a acheté 300 actions de la société AMD en 2006.
Désambiguïsation lexicaleLa désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles. Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
Linguistique de corpusLa linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires. La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés.
BabelNetBabelNet est un réseau sémantique multilingue et une ontologie lexicalisée. BabelNet a été créé en intégrant automatiquement la plus grande encyclopédie multilingue – c’est-à-dire Wikipédia – avec le lexique de la langue anglaise le plus connu – WordNet. L’intégration a été réalisée par correspondance automatique. Les entrées manquantes dans d'autres langues ont été obtenues par des techniques de traduction automatique.
Différences d'orthographe entre l'anglais américain et l'anglais britanniqueMalgré les différents dialectes anglais parlés d'un pays à l'autre et dans les différentes régions d'un même pays, il n'existe que de légères variations régionales dans l'orthographe anglaise, les deux variations les plus notables étant l'orthographe britannique et américaine. De nombreuses différences entre l'anglais américain et l'anglais britannique remontent à une époque où les normes orthographiques n'étaient pas encore développées.
Traitement automatique du langage naturelLe traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.
Similarité sémantiqueLa similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances). D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes.
Union européenneLUnion européenne (UE) est une union politico-économique sui generis de vingt-sept États européens qui délèguent ou transmettent par traité l’exercice de certaines compétences à des organes communautaires. Elle s'étend sur un territoire de de kilomètres carrés, est peuplée de plus de d'habitants et est la troisième puissance économique mondiale par son PIB nominal derrière les États-Unis et la Chine. L’Union européenne est régie par le traité de Maastricht (TUE) et le traité de Rome (TFUE), dans leur version actuelle, depuis le et l'entrée en vigueur du traité de Lisbonne.