TF-IDFLe TF-IDF (de l'anglais term frequency-inverse document frequency) est une méthode de pondération souvent utilisée en recherche d'information et en particulier dans la fouille de textes. Cette mesure statistique permet d'évaluer l'importance d'un terme contenu dans un document, relativement à une collection ou un corpus. Le poids augmente proportionnellement au nombre d'occurrences du mot dans le document. Il varie également en fonction de la fréquence du mot dans le corpus.
Analyse sémantique latente probabilisteL’analyse sémantique latente probabiliste (de l'anglais, Probabilistic latent semantic analysis : PLSA), aussi appelée indexation sémantique latente probabiliste (PLSI), est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente. Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.
Semantic role labelingIn natural language processing, semantic role labeling (also called shallow semantic parsing or slot-filling) is the process that assigns labels to words or phrases in a sentence that indicates their semantic role in the sentence, such as that of an agent, goal, or result. It serves to find the meaning of the sentence. To do this, it detects the arguments associated with the predicate or verb of a sentence and how they are classified into their specific roles. A common example is the sentence "Mary sold the book to John.
Traduction littéraleLa traduction littérale, la traduction directe ou la traduction mot à mot est la traduction d'un texte d'une langue à une autre, un mot à la fois . Dans le cas des textes sacrés, il y a eu des tentatives de traductions littérales par souci d'authenticité et de fidélité aux textes originaux. C'est par exemple le cas de la traduction littérale de la Bible vers l'anglais à partir des textes originaux hébreux et grecs publiée en 1862 par le bibliste autodidacte écossais (1822–1888).
Oxford English DictionaryL’Oxford English Dictionary (OED) est un dictionnaire de référence pour la langue anglaise. Il est publié par l'Oxford University Press et contient des mots venant du Royaume-Uni et des diverses régions du monde anglophone : Amérique du Nord, Afrique du Sud, Australie, Nouvelle-Zélande, Caraïbes. Il indique l'histoire, la prononciation et la définition des mots. Comme pour d'autres grands dictionnaires, le travail de rédaction s'est étalé sur plusieurs décennies. La première édition complète, comprenant vingt tomes, est publiée en 1928.
Informatique affectiveL’informatique affective ou informatique émotionnelle (en anglais, affective computing) est l'étude et le développement de systèmes et d'appareils ayant les capacités de reconnaître, d’exprimer, de synthétiser et modéliser les émotions humaines. C'est un domaine de recherche interdisciplinaire couvrant les domaines de l'informatique, de la psychologie et des sciences cognitives qui consiste à étudier l’interaction entre technologie et sentiments.
Expression facialeL'expression faciale est un aspect important du comportement et de la communication non verbale. Déjà étudiée par Darwin et Duchenne de Boulogne au , l'expression faciale a joué un rôle majeur dans la recherche sur les émotions depuis les travaux de dans les années 1960. Ses élèves Paul Ekman et ont défendu l'idée d'un nombre limité d'émotions de base auxquelles sont associées des expressions faciales automatiques, universelles et innées. L'expression faciale joue aussi un rôle important dans la langue des signes.
Rocchio algorithmThe Rocchio algorithm is based on a method of relevance feedback found in information retrieval systems which stemmed from the SMART Information Retrieval System developed between 1960 and 1964. Like many other retrieval systems, the Rocchio algorithm was developed using the vector space model. Its underlying assumption is that most users have a general conception of which documents should be denoted as relevant or irrelevant.
Language technologyLanguage technology, often called human language technology (HLT), studies methods of how computer programs or electronic devices can analyze, produce, modify or respond to human texts and speech. Working with language technology often requires broad knowledge not only about linguistics but also about computer science. It consists of natural language processing (NLP) and computational linguistics (CL) on the one hand, many application oriented aspects of these, and more low-level aspects such as encoding and speech technology on the other hand.
Web scrapingLe web scraping, parfois appelé harvesting ou en français moissonnage, est une technique d'extraction des données de sites Web par l'utilisation d'un script ou d'un programme dans le but de les transformer et les réutiliser dans un autre contexte comme l'enrichissement de bases de données, le référencement ou l'exploration de données. Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement.