Plongement lexicalLe plongement lexical (« word embedding » en anglais) est une méthode d'apprentissage d'une représentation de mots utilisée notamment en traitement automatique des langues. Le terme devrait plutôt être rendu par vectorisation de mots pour correspondre plus proprement à cette méthode. Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. Cette nouvelle représentation a ceci de particulier que les mots apparaissant dans des contextes similaires possèdent des vecteurs correspondants qui sont relativement proches.
Distributional semanticsDistributional semantics is a research area that develops and studies theories and methods for quantifying and categorizing semantic similarities between linguistic items based on their distributional properties in large samples of language data. The basic idea of distributional semantics can be summed up in the so-called distributional hypothesis: linguistic items with similar distributions have similar meanings. The distributional hypothesis in linguistics is derived from the semantic theory of language usage, i.
Topic modelvignette|Visualisation du résumé d'un article scientifique traité par topic model. L'intensité de la couleur varie selon la probabilité d'appartenir au topic en question. En apprentissage automatique et en traitement automatique du langage naturel, un topic model (modèle thématique ou « modèle de sujet ») est un modèle probabiliste permettant de déterminer des sujets ou thèmes abstraits dans un document. Analyse sémantique latente (LSA) Allocation de Dirichlet latente (LDA) Analyse sémantique latente probab
Compréhension du langage naturelvignette|L'apprentissage de la lecture par Sigurður málari, siècle. La compréhension du langage naturel (NLU en anglais) ou linterprétation en langage naturel (NLI) est une sous-rubrique du traitement de la langue naturelle en intelligence artificielle qui traite de la compréhension en lecture automatique. La compréhension du langage naturel est considérée comme un problème difficile en IA. Il existe un intérêt commercial considérable dans ce domaine en raison de son application à la collecte de nouvelles, à la catégorisation des textes, à l'activation vocale, à l'archivage et à l'analyse de contenu à grande échelle.
GensimGensim is an open-source library for unsupervised topic modeling, document indexing, retrieval by similarity, and other natural language processing functionalities, using modern statistical machine learning. Gensim is implemented in Python and Cython for performance. Gensim is designed to handle large text collections using data streaming and incremental online algorithms, which differentiates it from most other machine learning software packages that target only in-memory processing.
Pertinence d'un documentUne recherche scientifique ne peut avoir cette qualité de « scientifique » qu’après avoir répondu à un ensemble de critères. Parmi ces critères, la pertinence occupe une place primordiale, elle constitue la moelle épinière de toute recherche académique. En effet, c’est le degré de la pertinence qui donne beaucoup de crédibilité à un tel document. Par elle ce dernier aura beaucoup de chance d’être publiée et d’être tenue comme référence scientifique de recherche.
Web queryA web query or web search query is a query that a user enters into a web search engine to satisfy their information needs. Web search queries are distinctive in that they are often plain text and boolean search directives are rarely used. They vary greatly from standard query languages, which are governed by strict syntax rules as command languages with keyword or positional parameters. There are three broad categories that cover most web search queries: informational, navigational, and transactional.
Non-negative matrix factorizationNon-negative matrix factorization (NMF or NNMF), also non-negative matrix approximation is a group of algorithms in multivariate analysis and linear algebra where a matrix V is factorized into (usually) two matrices W and H, with the property that all three matrices have no negative elements. This non-negativity makes the resulting matrices easier to inspect. Also, in applications such as processing of audio spectrograms or muscular activity, non-negativity is inherent to the data being considered.
Semantic parsingSemantic parsing is the task of converting a natural language utterance to a logical form: a machine-understandable representation of its meaning. Semantic parsing can thus be understood as extracting the precise meaning of an utterance. Applications of semantic parsing include machine translation, question answering, ontology induction, automated reasoning, and code generation. The phrase was first used in the 1970s by Yorick Wilks as the basis for machine translation programs working with only semantic representations.
Langage naturelUn langage naturel, ou langage ordinaire, est une langue « normale » parlée par un être humain. Il s'oppose au langage formel, tel que le langage informatique, ainsi qu'aux langues construites. histoire des langues On désigne par langage naturel le langage parlé par les humains, apparu entre et avant notre ère.