Traitement automatique du langage naturelLe traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.
Chatbotvignette|Dialogueur sur une page de Wikipédia en anglais en 2011. Un chatbot aussi nommé dialogueur ou agent conversationnel, est un agent logiciel qui dialogue avec un utilisateur. La recherche sur cette interface personne-machine est influencée par la compétition sur le test de Turing (1950) : donner l'illusion qu'un programme pense par un dialogue sensé. Un utilisateur est invité à formuler sa demande en langage naturel, elle est affinée par un échange convivial, dont le logiciel interprète une requête opérationnelle pour son système d'information.
IBM, connue sous le sigle IBM, est une entreprise multinationale américaine présente dans les domaines du matériel informatique, du logiciel et des services informatiques. La société est née le de la fusion de la Computing Scale Company et de la Tabulating Machine Company sous le nom de Computing Tabulating Recording Company (CTR). Celle-ci a changé de nom pour devenir International Business Machines Corporation le . On lui prête le surnom de Big Blue en référence au bleu sombre, couleur longtemps associée à l’entreprise.
WordNetWordNet est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton depuis une vingtaine d'années. Son but est de répertorier, classifier et mettre en relation de diverses manières le contenu sémantique et lexical de la langue anglaise. Des versions de WordNet pour d'autres langues existent, mais la version anglaise est cependant la plus complète à ce jour. La base de données ainsi que des outils sont disponibles gratuitement.
CorpusUn corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.
Recherche d'informationLa recherche d'information (RI) est le domaine qui étudie la manière de retrouver des informations dans un corpus. Celui-ci est composé de documents d'une ou plusieurs bases de données, qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées, telles celles mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet et les intranets. Le contenu des documents peut être du texte, des sons, des images ou des données.
Linguistique informatiqueLa linguistique informatique est un champ interdisciplinaire basé sur une modélisation symbolique (à base de règles) ou statistique du langage naturel établie dans une perspective informatique. Les langues humaines sont des systèmes sémiotiques où tout se tient et dont le sens est négociable, ce qui permet leur évolution. Le langage est véhiculé par plusieurs modalités sensorielles : le son (la parole), les traces graphiques (l’écriture), les gestes (langue des signes, gestuelle co-verbale).