Language identificationIn natural language processing, language identification or language guessing is the problem of determining which natural language given content is in. Computational approaches to this problem view it as a special case of text categorization, solved with various statistical methods. There are several statistical approaches to language identification using different techniques to classify the data. One technique is to compare the compressibility of the text to the compressibility of texts in a set of known languages.
TraductologieLa traductologie, en tant que science, étudie le processus cognitif et les processus linguistiques inhérents à toute reproduction (traduction) orale, écrite ou gestuelle, vers un langage, de l'expression d'une idée provenant d'un autre langage (signes vocaux (parole), graphiques (écriture) ou gestuels). Quand ce travail ne porte pas sur des textes, on parle aussi de « transposition intersémiotique » ou « transmutation » (Jakobson).
Sac de motsLa représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d'information. On considère que le monde peut être décrit au moyen d'un dictionnaire (de « mots »). Dans sa version la plus simple, un document particulier est représenté par l'histogramme des occurrences des mots le composant : pour un document donné, chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document (voir la notion de multi-ensemble, bag en anglais).
Linguistique informatiqueLa linguistique informatique est un champ interdisciplinaire basé sur une modélisation symbolique (à base de règles) ou statistique du langage naturel établie dans une perspective informatique. Les langues humaines sont des systèmes sémiotiques où tout se tient et dont le sens est négociable, ce qui permet leur évolution. Le langage est véhiculé par plusieurs modalités sensorielles : le son (la parole), les traces graphiques (l’écriture), les gestes (langue des signes, gestuelle co-verbale).
Cache language modelA cache language model is a type of statistical language model. These occur in the natural language processing subfield of computer science and assign probabilities to given sequences of words by means of a probability distribution. Statistical language models are key components of speech recognition systems and of many machine translation systems: they tell such systems which possible output word sequences are probable and which are improbable.
TreebankIn linguistics, a treebank is a parsed text corpus that annotates syntactic or semantic sentence structure. The construction of parsed corpora in the early 1990s revolutionized computational linguistics, which benefitted from large-scale empirical data. The term treebank was coined by linguist Geoffrey Leech in the 1980s, by analogy to other repositories such as a seedbank or bloodbank. This is because both syntactic and semantic structure are commonly represented compositionally as a tree structure.
Annotation (informatique)En programmation, une annotation est un élément permettant d'ajouter des méta-données à un code source. Selon le langage de programmation et ce qu'a choisi le programmeur, elles peuvent être accessibles uniquement lors de la compilation, présentes uniquement dans le fichier compilé, voire accessibles à l'exécution. Cette technique est une alternative aux fichiers de configuration, souvent écrits dans des formats tels que le XML ou le YAML.
Enterprise searchEnterprise search is the practice of making content from multiple enterprise-type sources, such as databases and intranets, searchable to a defined audience. "Enterprise search" is used to describe the software of search information within an enterprise (though the search function and its results may still be public). Enterprise search can be contrasted with web search, which applies search technology to documents on the open web, and desktop search, which applies search technology to the content on a single computer.
Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Réseau sémantiqueUn réseau sémantique est un graphe marqué destiné à la représentation des connaissances, qui représente des relations sémantiques entre concepts. Le graphe est orienté ou non orienté. Ses sommets représentent les concepts, et les liens entre les sommets (nœuds) représentent les relations sémantiques, reliant les champs lexicaux. Un réseau sémantique peut être instancié, par exemple,dans une base de données orientée graphes ou un schéma conceptuel. Les réseaux sémantiques normalisés sont exprimés sous forme de triplets RDF.