Language technologyLanguage technology, often called human language technology (HLT), studies methods of how computer programs or electronic devices can analyze, produce, modify or respond to human texts and speech. Working with language technology often requires broad knowledge not only about linguistics but also about computer science. It consists of natural language processing (NLP) and computational linguistics (CL) on the one hand, many application oriented aspects of these, and more low-level aspects such as encoding and speech technology on the other hand.
Structured predictionStructured prediction or structured (output) learning is an umbrella term for supervised machine learning techniques that involves predicting structured objects, rather than scalar discrete or real values. Similar to commonly used supervised learning techniques, structured prediction models are typically trained by means of observed data in which the true prediction value is used to adjust model parameters.
Moteur de recherchealt=Capture d'écran d'une page de résultat de recherche|vignette|340x340px|Capture d'écran d'une page de résultat de recherche Un moteur de recherche est une application permettant à un utilisateur d'effectuer une recherche locale ou en ligne, c'est-à-dire de trouver des ressources à partir d'une requête composée de termes. Les ressources peuvent notamment être des pages web, des articles de forums Usenet, des , des vidéos, des fichiers, des ouvrages, des sites pédagogiques, des applications, des logiciels open source.
History of natural language processingThe history of natural language processing describes the advances of natural language processing (Outline of natural language processing). There is some overlap with the history of machine translation, the history of speech recognition, and the history of artificial intelligence. The history of machine translation dates back to the seventeenth century, when philosophers such as Leibniz and Descartes put forward proposals for codes which would relate words between languages.
Word-sense inductionIn computational linguistics, word-sense induction (WSI) or discrimination is an open problem of natural language processing, which concerns the automatic identification of the senses of a word (i.e. meanings). Given that the output of word-sense induction is a set of senses for the target word (sense inventory), this task is strictly related to that of word-sense disambiguation (WSD), which relies on a predefined sense inventory and aims to solve the ambiguity of words in context.
RacinisationEn linguistique, la racinisation ou désuffixation est un procédé de transformation des flexions en leur radical ou racine. La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son (ses) préfixe(s) et suffixe(s), à savoir son radical. Contrairement au lemme qui correspond à un terme issu de l’usage ordinaire des locuteurs de la langue, la racine ne correspond généralement qu’à un terme résultant de ce type d’analyse.
Dictionnaire bilingueUn dictionnaire bilingue ou dictionnaire de traduction est un dictionnaire indiquant les équivalences des mots et/ou expressions entre deux langues différentes. Dans la pratique, certains dictionnaires sont plus répandus, et certaines langues servent d'intermédiaire entre deux autres. Par exemple, de nombreux anime en japonais en version originale sont d'abord traduits en anglais avant d'être traduits en français.
Index inverséEn informatique, un index inversé est une correspondance entre du contenu, comme des mots ou des nombres, et sa position dans un ensemble de données comme un enregistrement en base de données, un document ou un ensemble de documents ; sur le même principe qu'un index terminologique. Le but de l'index inversé est de permettre une recherche plein texte plus rapide, contre un temps d'insertion de nouvelles données augmenté. Pour comprendre le principe un exemple pourrait être le lien entre des recettes de cuisine et leurs ingrédients.
Speech translationSpeech translation is the process by which conversational spoken phrases are instantly translated and spoken aloud in a second language. This differs from phrase translation, which is where the system only translates a fixed and finite set of phrases that have been manually entered into the system. Speech translation technology enables speakers of different languages to communicate. It thus is of tremendous value for humankind in terms of science, cross-cultural exchange and global business.
ElasticsearchElasticsearch est un logiciel utilisant Lucene pour l'indexation et la recherche de données. Il fournit un moteur de recherche distribué et multientité à travers une interface REST. C'est un logiciel écrit en Java distribué sous licence Elastic (Open core). L'éditeur propose aussi une version sous Server Side Public License ainsi que la possibilité de souscrire à une offre Saas. Elasticsearch est le serveur de recherche le plus populaire chez les professionnels, suivi par Apache Solr qui utilise aussi Lucene.