Thésaurus lexicographiqueUn thésaurus ou dictionnaire analogique est un ouvrage de référence dans lequel les mots sont organisés par champ lexical, où l’on peut trouver des synonymes et antonymes de mots. Il est destiné notamment aux personnes qui écrivent, pour aider à trouver le meilleur mot pour exprimer une idée. Les dictionnaires de synonymes ont une longue histoire. Le mot thésaurus a été utilisé en 1852 par Peter Mark Roget pour son Roget's Thesaurus, qui regroupe les mots dans une taxonomie hiérarchique de concepts, mais d’autres sont organisés par ordre alphabétique ou d’une autre manière.
Cache language modelA cache language model is a type of statistical language model. These occur in the natural language processing subfield of computer science and assign probabilities to given sequences of words by means of a probability distribution. Statistical language models are key components of speech recognition systems and of many machine translation systems: they tell such systems which possible output word sequences are probable and which are improbable.
Speech translationSpeech translation is the process by which conversational spoken phrases are instantly translated and spoken aloud in a second language. This differs from phrase translation, which is where the system only translates a fixed and finite set of phrases that have been manually entered into the system. Speech translation technology enables speakers of different languages to communicate. It thus is of tremendous value for humankind in terms of science, cross-cultural exchange and global business.
Linguistique de corpusLa linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires. La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés.
Interlingual machine translationInterlingual machine translation is one of the classic approaches to machine translation. In this approach, the source language, i.e. the text to be translated is transformed into an interlingua, i.e., an abstract language-independent representation. The target language is then generated from the interlingua. Within the rule-based machine translation paradigm, the interlingual approach is an alternative to the direct approach and the transfer approach. In the direct approach, words are translated directly without passing through an additional representation.
Dictionary-based machine translationMachine translation can use a method based on dictionary entries, which means that the words will be translated as a dictionary does – word by word, usually without much correlation of meaning between them. Dictionary lookups may be done with or without morphological analysis or lemmatisation. While this approach to machine translation is probably the least sophisticated, dictionary-based machine translation is ideally suitable for the translation of long lists of phrases on the subsentential (i.e.
Foreign-language writing aidA foreign language writing aid is a computer program or any other instrument that assists a non-native language user (also referred to as a foreign language learner) in writing decently in their target language. Assistive operations can be classified into two categories: on-the-fly prompts and post-writing checks. Assisted aspects of writing include: lexical, syntactic (syntactic and semantic roles of a word's frame), lexical semantic (context/collocation-influenced word choice and user-intention-driven synonym choice) and idiomatic expression transfer, etc.
Industrie langagièreL’industrie langagière est le secteur d’activité destiné à faciliter la communication multilingue, à l’oral comme à l’écrit. Selon la Direction générale de la traduction de la Commission européenne, l’industrie langagière englobe les activités de traduction, d’interprétariat, de sous-titrage ainsi que le doublage, l’internationalisation de logiciels et de sites web, le développement d’outils technologiques linguistiques, l’organisation de conférences internationales, l’enseignement des langues et l'expertise linguistique.
Traducteur universelLe traducteur universel est un appareil que l’on trouve fréquemment dans les œuvres de science-fiction. Décrit pour la première fois dans la nouvelle Premier contact (First Contact, 1945) de Murray Leinster, le but d’un tel objet est d’offrir une traduction immédiate de toute langue dans la langue de son choix. Les sociétés de technologie cherchent à mettre au point un tel traducteur universel pour un usage courant (voir Traducteurs non-fictifs ci-dessous).
Europarl CorpusThe Europarl Corpus is a corpus (set of documents) that consists of the proceedings of the European Parliament from 1996 to 2012. In its first release in 2001, it covered eleven official languages of the European Union (Danish, Dutch, English, Finnish, French, German, Greek, Italian, Portuguese, Spanish, and Swedish). With the political expansion of the EU the official languages of the ten new member states have been added to the corpus data.