PhraseEn grammaire, une phrase peut être considérée comme un ensemble autonome, réunissant des unités syntaxiques organisées selon différents réseaux de relations plus ou moins complexes appelés subordination, coordination ou juxtaposition. D'un point de vue acoustique ou visuel, cependant (c'est-à-dire, aussi bien à l'oral qu'à l'écrit), la phrase apparaît comme une succession de mots (de même qu'un train apparaît comme une succession de wagons).
Plongement lexicalLe plongement lexical (« word embedding » en anglais) est une méthode d'apprentissage d'une représentation de mots utilisée notamment en traitement automatique des langues. Le terme devrait plutôt être rendu par vectorisation de mots pour correspondre plus proprement à cette méthode. Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. Cette nouvelle représentation a ceci de particulier que les mots apparaissant dans des contextes similaires possèdent des vecteurs correspondants qui sont relativement proches.
Word2vecEn intelligence artificielle et en apprentissage machine, Word2vec est un groupe de modèles utilisé pour le plongement lexical (word embedding). Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de . Ce sont des réseaux de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. La méthode est implémentée dans la bibliothèque Python Gensim. Deux architectures ont été initialement proposées pour apprendre les Word2vec, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram.
Réseau sémantiqueUn réseau sémantique est un graphe marqué destiné à la représentation des connaissances, qui représente des relations sémantiques entre concepts. Le graphe est orienté ou non orienté. Ses sommets représentent les concepts, et les liens entre les sommets (nœuds) représentent les relations sémantiques, reliant les champs lexicaux. Un réseau sémantique peut être instancié, par exemple,dans une base de données orientée graphes ou un schéma conceptuel. Les réseaux sémantiques normalisés sont exprimés sous forme de triplets RDF.
Ontology componentsContemporary ontologies share many structural similarities, regardless of the ontology language in which they are expressed. Most ontologies describe individuals (instances), classes (concepts), attributes, and relations. Common components of ontologies include: Individuals instances or objects (the basic or "ground level" objects; the tokens). Classes sets, collections, concepts, types of objects, or kinds of things. Attributes aspects, properties, features, characteristics, or parameters that objects (and classes) can have.
Similarité sémantiqueLa similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances). D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes.
Sentence clause structureIn grammar, sentence and clause structure, commonly known as sentence composition, is the classification of sentences based on the number and kind of clauses in their syntactic structure. Such division is an element of traditional grammar. In standard English, sentences are composed of five clause patterns: Subject + Verb (intransitive)Example: She runs. Subject + Verb (transitive) + ObjectExample: She runs the meeting. Subject + Verb (linking) + Subject Complement (adjective, noun, pronoun)Example: Abdul is happy.
Extraction de connaissancesL'extraction de connaissances est le processus de création de connaissances à partir d'informations structurées (bases de données relationnelles, XML) ou non structurées (textes, documents, images). Le résultat doit être dans un format lisible par les ordinateurs. Le groupe RDB2RDF W3C est en cours de standardisation d'un langage d'extraction de connaissances au format RDF à partir de bases de données. En français on parle d'« extraction de connaissances à partir des données » (ECD).
Annotation sémantiqueL'annotation sémantique est l'opération consistant à relier le contenu d'un texte à des entités dans une ontologie. Par exemple, pour la phrase «Paris est la capitale de la France.», l'annotation correcte de Paris serait Paris et non Paris Hilton. L'annotation sémantique est une variante plus détaillée mais moins exacte de la méthode des entitiés nommées, car ces dernières décrivent seulement la catégorie de l'entité (Paris est une ville, sans la relier à la bonne page Wikipédia).
Équivalence élémentaireEn mathématiques, et plus spécifiquement en théorie des modèles, on dit que deux structures pour un même langage formel sont élémentairement équivalentes quand elles satisfont les mêmes énoncés (formules closes) de la logique du premier ordre, dit autrement leurs théories (du premier ordre) sont les mêmes. L'équivalence élémentaire est une notion typiquement logique en ce qu'elle fait intervenir le langage pour définir une relation entre structures. Elle diffère de la notion algébrique d'isomorphisme.