Text segmentationText segmentation is the process of dividing written text into meaningful units, such as words, sentences, or topics. The term applies both to mental processes used by humans when reading text, and to artificial processes implemented in computers, which are the subject of natural language processing. The problem is non-trivial, because while some written languages have explicit word boundary markers, such as the word spaces of written English and the distinctive initial, medial and final letter shapes of Arabic, such signals are sometimes ambiguous and not present in all written languages.
TerminologieLa terminologie est une discipline qui a pour objet l'étude théorique des dénominations des objets ou des concepts utilisés par tel ou tel domaine du savoir, le fonctionnement dans la langue des unités terminologiques, ainsi que les problèmes de traduction, de classement et de documentation qui se posent à leur sujet. On appelle également terminologie l'ensemble des termes, rigoureusement définis, qui sont spécifiques d'une science, d'une technique, d'un domaine particulier de l'activité humaine.
Pertinence d'un documentUne recherche scientifique ne peut avoir cette qualité de « scientifique » qu’après avoir répondu à un ensemble de critères. Parmi ces critères, la pertinence occupe une place primordiale, elle constitue la moelle épinière de toute recherche académique. En effet, c’est le degré de la pertinence qui donne beaucoup de crédibilité à un tel document. Par elle ce dernier aura beaucoup de chance d’être publiée et d’être tenue comme référence scientifique de recherche.
Capture de données d'écranLa capture de données d’écran (screen scraping en anglais) est une technique par laquelle un programme récupère des données normalement destinées à être affichées par un dispositif de sortie vidéo (généralement un moniteur) afin d’en extraire des informations. Il s’agit souvent de pages web dans lesquelles on souhaite récupérer des informations, mais il peut également s’agir de toute autre forme d’informations qui est formatée avant tout en vue d’être affichée sur un écran.
CooccurrenceLa cooccurrence est la présence simultanée de plusieurs mots ou autres unités linguistiques dans le même énoncé, par exemple la phrase, le paragraphe, l'extrait. Des disciplines comme l'histoire ou la géographie s'intéressent aussi à la cooccurrence de mots ou noms de lieu dans le temps et l'espace. Un concept proche est la collocation, qui est une forme d'expression idiomatique causée par une cooccurrence systématique. Le mot « cooccurrence » peut avoir plusieurs sens.
GloVeGloVe, coined from Global Vectors, is a model for distributed word representation. The model is an unsupervised learning algorithm for obtaining vector representations for words. This is achieved by mapping words into a meaningful space where the distance between words is related to semantic similarity. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.
LemmatisationLa lemmatisation désigne un traitement lexical apporté à un texte en vue de son classement dans un index ou de son analyse. Ce traitement consiste à appliquer aux occurrences des lexèmes sujets à flexion (en français, verbes, substantifs, adjectifs) un codage renvoyant à leur entrée lexicale commune (« forme canonique » enregistrée dans les dictionnaires de la langue, le plus couramment), que l'on désigne sous le terme de lemme.
Intension et extensionEn logique, l’intension (ou « compréhension ») et l’extension sont deux façons de définir un concept. L'intension d'un concept est sa définition. Par exemple, l'intension de « chat » est : « animal à quatre pattes de la famille des félins ». L'extension est l'ensemble des choses auxquelles l'intension (la définition) s'applique. Par exemple : mon chat, le chat de mon voisin, les chats siamois, etc.
Evaluation measures (information retrieval)Evaluation measures for an information retrieval (IR) system assess how well an index, search engine or database returns results from a collection of resources that satisfy a user's query. They are therefore fundamental to the success of information systems and digital platforms. The success of an IR system may be judged by a range of criteria including relevance, speed, user satisfaction, usability, efficiency and reliability. However, the most important factor in determining a system's effectiveness for users is the overall relevance of results retrieved in response to a query.
Taux d'erreur de motsLe taux d'erreur de mots, ou word error rate (WER) en anglais, est une unité de mesure classique pour mesurer les performances d'un système de reconnaissance de la parole. Le WER est dérivé de la distance de Levenshtein, en travaillant au niveau des mots au lieu des caractères. Il indique le taux de mots incorrectement reconnus par rapport à un texte de référence. Plus le taux est faible (minimum 0.0) plus la reconnaissance est bonne. Le taux maximum n'est pas borné et peut dépasser 1.