Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Transformeur génératif pré-entraînédroite|vignette| Architecture du modèle GPT Le transformeur génératif pré-entraîné (ou GPT, de l’anglais generative pre-trained transformer) est une famille de modèles de langage généralement formée sur un grand corpus de données textuelles pour générer un texte de type humain. Il est construit en utilisant plusieurs blocs de l'architecture du transformeur. Ils peuvent être affinés pour diverses tâches de traitement du langage naturel telles que la génération de texte, la traduction de langue et la classification de texte.
Grand modèle de langageUn grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus). Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé.
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
Alphabet phonétique internationalL'alphabet phonétique international (API) est un alphabet utilisé pour la transcription phonétique des sons du langage parlé. Contrairement aux nombreuses autres méthodes de transcription qui se limitent à des familles de langues, l'API est conçu pour couvrir l'ensemble des langues du monde. Développé par des phonéticiens français et britanniques sous les auspices de l'Association phonétique internationale, il a été publié pour la première fois en 1888.
Modèle de fondationUn modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé ). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT et GPT-3.
Segment (linguistics)In linguistics, a segment is "any discrete unit that can be identified, either physically or auditorily, in the stream of speech". The term is most used in phonetics and phonology to refer to the smallest elements in a language, and this usage can be synonymous with the term phone. In spoken languages, segments will typically be grouped into consonants and vowels, but the term can be applied to any minimal unit of a linear sequence meaningful to the given field of analysis, such as a mora or a syllable in prosodic phonology, a morpheme in morphology, or a chereme in sign language analysis.
Dialect levellingDialect levelling or leveling (in American English) is the process of an overall reduction in the variation or diversity of features between two or more dialects. Typically, this comes about through assimilation, mixture, and merging of certain dialects, often by language standardization. It has been observed in most languages with large numbers of speakers after industrialisation and modernisation of the areas in which they are spoken.
PhonèmeEn phonologie, domaine de la linguistique, un phonème est la plus petite unité discrète (ou distinctive, c'est-à-dire permettant de distinguer des mots les uns des autres) que l'on puisse isoler par segmentation dans la chaîne parlée. Un phonème est en réalité une entité abstraite, qui peut correspondre à plusieurs sons. Il est en effet susceptible d'être prononcé de façon différente selon les locuteurs ou selon sa position et son environnement au sein du mot (voir allophone) : les phones sont les différentes réalisations d'un phonème.
Arabe dialectalL'arabe dialectal (ٱلْعَرَبِيَّة ٱلدَّارِجَة, al-ʿarabiyyah ad-dārijah) est un terme qui recouvre les dialectes arabes, résultant d'une interférence linguistique entre la langue arabe et les langues locales ou voisines, à l'issue d'un processus d'arabisation ou d'une influence culturelle quelconque due principalement à la colonisation, aux mouvements migratoires, au commerce, et plus récemment aux médias. Ils sont en perpétuelle évolution, incluant constamment de nouveaux mots et tournures de phrases, tirés la plupart du temps de langues occidentales comme le français, l'espagnol ou l'anglais.