Word2vecEn intelligence artificielle et en apprentissage machine, Word2vec est un groupe de modèles utilisé pour le plongement lexical (word embedding). Ces modèles ont été développés par une équipe de recherche chez Google sous la direction de . Ce sont des réseaux de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. La méthode est implémentée dans la bibliothèque Python Gensim. Deux architectures ont été initialement proposées pour apprendre les Word2vec, le modèle de sacs de mots continus (CBOW: continuous bag of words) et le modèle skip-gram.
Neural machine translationNeural machine translation (NMT) is an approach to machine translation that uses an artificial neural network to predict the likelihood of a sequence of words, typically modeling entire sentences in a single integrated model. They require only a fraction of the memory needed by traditional statistical machine translation (SMT) models. Furthermore, unlike conventional translation systems, all parts of the neural translation model are trained jointly (end-to-end) to maximize the translation performance.
Emotion recognitionEmotion recognition is the process of identifying human emotion. People vary widely in their accuracy at recognizing the emotions of others. Use of technology to help people with emotion recognition is a relatively nascent research area. Generally, the technology works best if it uses multiple modalities in context. To date, the most work has been conducted on automating the recognition of facial expressions from video, spoken expressions from audio, written expressions from text, and physiology as measured by wearables.
CooccurrenceLa cooccurrence est la présence simultanée de plusieurs mots ou autres unités linguistiques dans le même énoncé, par exemple la phrase, le paragraphe, l'extrait. Des disciplines comme l'histoire ou la géographie s'intéressent aussi à la cooccurrence de mots ou noms de lieu dans le temps et l'espace. Un concept proche est la collocation, qui est une forme d'expression idiomatique causée par une cooccurrence systématique. Le mot « cooccurrence » peut avoir plusieurs sens.
GloVeGloVe, coined from Global Vectors, is a model for distributed word representation. The model is an unsupervised learning algorithm for obtaining vector representations for words. This is achieved by mapping words into a meaningful space where the distance between words is related to semantic similarity. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.
LemmatisationLa lemmatisation désigne un traitement lexical apporté à un texte en vue de son classement dans un index ou de son analyse. Ce traitement consiste à appliquer aux occurrences des lexèmes sujets à flexion (en français, verbes, substantifs, adjectifs) un codage renvoyant à leur entrée lexicale commune (« forme canonique » enregistrée dans les dictionnaires de la langue, le plus couramment), que l'on désigne sous le terme de lemme.
Intension et extensionEn logique, l’intension (ou « compréhension ») et l’extension sont deux façons de définir un concept. L'intension d'un concept est sa définition. Par exemple, l'intension de « chat » est : « animal à quatre pattes de la famille des félins ». L'extension est l'ensemble des choses auxquelles l'intension (la définition) s'applique. Par exemple : mon chat, le chat de mon voisin, les chats siamois, etc.
Evaluation measures (information retrieval)Evaluation measures for an information retrieval (IR) system assess how well an index, search engine or database returns results from a collection of resources that satisfy a user's query. They are therefore fundamental to the success of information systems and digital platforms. The success of an IR system may be judged by a range of criteria including relevance, speed, user satisfaction, usability, efficiency and reliability. However, the most important factor in determining a system's effectiveness for users is the overall relevance of results retrieved in response to a query.
Mémoire de traductionUne mémoire de traduction est une base de données contenant des segments de texte ainsi que l'équivalent de ces segments dans une autre langue. Elle permet de stocker des segments de phrase et de les réutiliser. On parle dans ce cas de traduction assistée par ordinateur (ou TAO) plutôt que de traduction automatique, expression généralement utilisée pour définir les logiciels qui ne nécessitent pas l'intervention de traducteurs pour traduire le texte, mais qui sont toutefois beaucoup plus approximatifs.
Taux d'erreur de motsLe taux d'erreur de mots, ou word error rate (WER) en anglais, est une unité de mesure classique pour mesurer les performances d'un système de reconnaissance de la parole. Le WER est dérivé de la distance de Levenshtein, en travaillant au niveau des mots au lieu des caractères. Il indique le taux de mots incorrectement reconnus par rapport à un texte de référence. Plus le taux est faible (minimum 0.0) plus la reconnaissance est bonne. Le taux maximum n'est pas borné et peut dépasser 1.