Résumé automatique de texteUn résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.
Transformeurvignette|Schéma représentant l'architecture générale d'un transformeur. Un transformeur (ou modèle auto-attentif) est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement automatique des langues (TAL). Dès 2020, les transformeurs commencent aussi à trouver une application en matière de vision par ordinateur par la création des vision transformers (ViT).
Mémoire de traductionUne mémoire de traduction est une base de données contenant des segments de texte ainsi que l'équivalent de ces segments dans une autre langue. Elle permet de stocker des segments de phrase et de les réutiliser. On parle dans ce cas de traduction assistée par ordinateur (ou TAO) plutôt que de traduction automatique, expression généralement utilisée pour définir les logiciels qui ne nécessitent pas l'intervention de traducteurs pour traduire le texte, mais qui sont toutefois beaucoup plus approximatifs.
Google TraductionGoogle Traduction (Google Translate) est un service de traduction automatique gratuit fourni par Google. Contrairement à d'autres services de traduction comme Babel Fish (supprimé en 2012), AOL et Yahoo! qui utilisent SYSTRAN, Google utilise son propre logiciel de traduction. Le service permet également la traduction de pages Web, même longues. Depuis , une limitation de caractères traduits est posée, mais elle n'affecte pas la traduction d'une page web via son URL.
Dictionnairethumb|upright=1.2|Dictionnaire en latin constitué de plusieurs volumes, œuvre d'Egidio Forcellini (1771). Un dictionnaire est un ouvrage de référence contenant un ensemble de mots d’une langue ou d’un domaine d’activité généralement présentés par ordre alphabétique et fournissant pour chacun une définition, une explication ou une correspondance (synonyme, antonyme, cooccurrence, traduction, étymologie). Le présent article concerne les dictionnaires unilingues qui décrivent ou normalisent une langue.
Recherche plein texteLa recherche (en) plein texte (appelée aussi recherche en texte intégral ou recherche de texte libre) est une technique de recherche dans un document électronique ou une base de données textuelles, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l'utilisateur. Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970.
Ontologie (informatique)En informatique et en science de l'information, une ontologie est un modèle de données contenant des concepts et relations permettant de modéliser un ensemble de connaissances dans un domaine donné. Les concepts sont organisés dans un graphe dont les relations peuvent être : des relations sémantiques ; des relations de subsomption. Les ontologies sont employées dans l’intelligence artificielle, le web sémantique, le génie logiciel, l'informatique biomédicale ou encore l'architecture de l'information comme une forme de représentation de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde.
Thésaurus lexicographiqueUn thésaurus ou dictionnaire analogique est un ouvrage de référence dans lequel les mots sont organisés par champ lexical, où l’on peut trouver des synonymes et antonymes de mots. Il est destiné notamment aux personnes qui écrivent, pour aider à trouver le meilleur mot pour exprimer une idée. Les dictionnaires de synonymes ont une longue histoire. Le mot thésaurus a été utilisé en 1852 par Peter Mark Roget pour son Roget's Thesaurus, qui regroupe les mots dans une taxonomie hiérarchique de concepts, mais d’autres sont organisés par ordre alphabétique ou d’une autre manière.
Distributional semanticsDistributional semantics is a research area that develops and studies theories and methods for quantifying and categorizing semantic similarities between linguistic items based on their distributional properties in large samples of language data. The basic idea of distributional semantics can be summed up in the so-called distributional hypothesis: linguistic items with similar distributions have similar meanings. The distributional hypothesis in linguistics is derived from the semantic theory of language usage, i.
Étiquetage morpho-syntaxiquevignette|C’est une image en language italien En linguistique, l'étiquetage morpho-syntaxique (aussi appelé étiquetage grammatical, POS tagging (part-of-speech tagging) en anglais) est le processus qui consiste à associer aux mots d'un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l'aide d'un outil informatique. Texte original : Nous sommes allées en Bretagne contempler de magnifiques allées couvertes du Néolithique.