Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Perception de la paroleLa perception de la parole est le processus par lequel les humains sont capables d'interpréter et de comprendre les sons utilisés dans le langage. L'étude de la perception de la parole est reliée aux champs de la phonétique, de phonologie en linguistique, de psychologie cognitive et de perception en psychologie. Les recherches dans ce domaine essaient de comprendre comment les auditeurs humains reconnaissent les phonèmes (sons de la paroles) ou autres sons tels que la syllabe ou les rimes, et utilisent cette information pour comprendre le langage parlé.
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
Production de la paroleLa production de la parole est un processus qui transforme les pensées en parole. Cette activité comprend la sélection des mots, l'organisation des formes grammaticales pertinentes et l'articulation des sons par le système moteur via l'appareil vocal. Cette production peut être spontanée (par exemple, quand une personne prononce des mots lors d'une conversation), réactive (par exemple, quand elle identifie une illustration ou qu'elle fait une lecture à voix haute) ou imitative (quand elle répète les mots qu'une autre personne a dits).
Language processing in the brainIn psycholinguistics, language processing refers to the way humans use words to communicate ideas and feelings, and how such communications are processed and understood. Language processing is considered to be a uniquely human ability that is not produced with the same grammatical understanding or systematicity in even human's closest primate relatives. Throughout the 20th century the dominant model for language processing in the brain was the Geschwind-Lichteim-Wernicke model, which is based primarily on the analysis of brain-damaged patients.
Speech codingSpeech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).
Modulation de fréquenceright|Illustration de modulation en amplitude et en fréquence. La modulation de fréquence ou MF (FM en anglais) est un mode de modulation consistant à transmettre un signal par la modulation de la fréquence d'un signal porteur (porteuse). On parle de modulation de fréquence par opposition à la modulation d'amplitude. En modulation de fréquence, l'information est portée par une modification de la fréquence de la porteuse, et non par une variation d'amplitude.
Speeded Up Robust FeaturesSpeeded Up Robust Features (SURF), que l'on peut traduire par caractéristiques robustes accélérées, est un algorithme de détection de caractéristique et un descripteur, présenté par des chercheurs de l'ETH Zurich et de la Katholieke Universiteit Leuven pour la première fois en 2006 puis dans une version révisée en 2008. Il est utilisé dans le domaine de vision par ordinateur, pour des tâches de détection d'objet ou de reconstruction 3D.
Lobe temporalvignette|droite|Animation tridimensionnelle du cerveau humain montrant le lobe temporal gauche en rouge à l'intérieur d'un crâne rendu transparent. L'hémisphère cérébral droit n'est pas montré afin de mieux mettre en valeur le gauche. Le lobe temporal est une région du cerveau des vertébrés située derrière l'os temporal (l'os situé derrière les tempes), dans la partie latérale et inférieure du cerveau. Chez l'Homme, c'est une zone importante pour de nombreuses fonctions cognitives, dont l'audition, le langage, la mémoire et la vision des formes complexes.
Effet McGurkL’effet McGurk est un phénomène illusoire perceptif qui montre une interférence entre l'audition et la vision lors de la perception de la parole. Cet effet suggère une multimodalité de la perception de la parole. L'effet McGurk (également appelé effet McGurk-MacDonald) se produit lorsque la vision et l’audition fournissent des signaux de parole incongrus. Deux types de phénomènes découlent de cette perception erronée : la fusion et la combinaison.