LinguistiqueLa linguistique est une discipline scientifique s’intéressant à l’étude du langage. Elle n'est pas prescriptive mais descriptive. La prescription correspond à la norme, c'est-à-dire ce qui est jugé correct linguistiquement par les grammairiens. À l'inverse, la linguistique se contente de décrire la langue telle qu'elle est et non telle qu'elle devrait être. On trouve des témoignages de réflexions sur le langage dès l'Antiquité avec des philosophes comme Platon.
Linguistique de corpusLa linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires. La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés.
TreebankIn linguistics, a treebank is a parsed text corpus that annotates syntactic or semantic sentence structure. The construction of parsed corpora in the early 1990s revolutionized computational linguistics, which benefitted from large-scale empirical data. The term treebank was coined by linguist Geoffrey Leech in the 1980s, by analogy to other repositories such as a seedbank or bloodbank. This is because both syntactic and semantic structure are commonly represented compositionally as a tree structure.
Étiquetage morpho-syntaxiquevignette|C’est une image en language italien En linguistique, l'étiquetage morpho-syntaxique (aussi appelé étiquetage grammatical, POS tagging (part-of-speech tagging) en anglais) est le processus qui consiste à associer aux mots d'un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l'aide d'un outil informatique. Texte original : Nous sommes allées en Bretagne contempler de magnifiques allées couvertes du Néolithique.
Analyse syntaxiqueL' consiste à mettre en évidence la structure d'un texte, généralement une phrase écrite dans une langue naturelle, mais on utilise également cette terminologie pour l'analyse d'un programme informatique. L' (parser, en anglais) est le programme informatique qui réalise cette tâche. Cette opération suppose une formalisation du texte, qui est vue le plus souvent comme un élément d'un langage formel, défini par un ensemble de règles de syntaxe formant une grammaire formelle.
Mémoire de traductionUne mémoire de traduction est une base de données contenant des segments de texte ainsi que l'équivalent de ces segments dans une autre langue. Elle permet de stocker des segments de phrase et de les réutiliser. On parle dans ce cas de traduction assistée par ordinateur (ou TAO) plutôt que de traduction automatique, expression généralement utilisée pour définir les logiciels qui ne nécessitent pas l'intervention de traducteurs pour traduire le texte, mais qui sont toutefois beaucoup plus approximatifs.
Enseignement des langues étrangèresL’enseignement des langues étrangères est abordé de façons diverses selon les époques, les pays, les enseignants et les méthodes mobilisées. Il peut être individuel, collectif ou se pratiquer en immersion. Aux États-Unis, l'apprentissage d'une langue étrangère est de mise dans la plupart des établissements, tout particulièrement au lycée. Cependant, l'étude d'une deuxième langue étrangère n'est pas obligatoire. Certaines universités exigent la connaissance d'une langue étrangère pour obtenir un B.A. ou un B.
Apprentissage automatiqueL'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.
CunéiformeLécriture cunéiforme est un système d'écriture mis au point en Basse Mésopotamie autour de 3200 , qui s'est par la suite répandu dans tout le Proche-Orient ancien, avant de disparaître dans les premiers siècles de l'ère chrétienne. Au départ pictographique et linéaire, la graphie de cette écriture a progressivement évolué vers des signes constitués de traits terminés en forme de « coins » ou « clous » (latin cuneus), auxquels elle doit son nom, « cunéiforme », qui lui a été donné aux .
Concordancier multilingueUn concordancier multilingue est un outil informatique permettant de gérer des corpus parallèles. Par métonymie, le concordancier multilingue désigne aussi ces corpus. Un corpus parallèle est un ensemble de groupes de textes qui, deux à deux, dans chaque groupe, sont des traductions mutuelles. L'Acquis communautaire européen est un exemple où chaque groupe comporte un texte pour chacune des langues officielles de l'Union européenne. L'ensemble des groupes désignent les lois régissant la communauté européenne.