Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Perception de la paroleLa perception de la parole est le processus par lequel les humains sont capables d'interpréter et de comprendre les sons utilisés dans le langage. L'étude de la perception de la parole est reliée aux champs de la phonétique, de phonologie en linguistique, de psychologie cognitive et de perception en psychologie. Les recherches dans ce domaine essaient de comprendre comment les auditeurs humains reconnaissent les phonèmes (sons de la paroles) ou autres sons tels que la syllabe ou les rimes, et utilisent cette information pour comprendre le langage parlé.
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
ParoleLa parole est le langage articulé humain (même si des études ethologiques et philosophiques sont en cours pour déterminer si d’autres animaux pourraient être considérés comme dotés de parole, notamment les perroquets) destiné à communiquer la pensée, et est à distinguer des communications orales diverses, comme les cris, les alertes ou les gémissements. « Articuler la parole » consiste à former des signes audibles, les syllabes, formant les mots qui constituent des symboles.
Speech codingSpeech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).
Voix humaineLa voix humaine est l'ensemble des sons produits par le frottement de l'air des poumons sur les replis du larynx de l'être humain. La voix inclut la parole et le chuchotement, le cri, le rire et le chant. L'étude des sons produits par la voix humaine s'appelle la phonétique. C'est une des branches de la linguistique. Dans le domaine de la médecine, l'étude de la physiologie et de la pathologie de la voix et les soins de santé qui lui sont apportés sont du ressort de la phoniatrie.
Filtre de Kalmanvignette| Concept de base du filtre de Kalman. En statistique et en théorie du contrôle, le filtre de Kalman est un filtre à réponse impulsionnelle infinie qui estime les états d'un système dynamique à partir d'une série de mesures incomplètes ou bruitées. Le filtre a été nommé d'après le mathématicien et informaticien américain d'origine hongroise Rudolf Kálmán. Le filtre de Kalman est utilisé dans une large gamme de domaines technologiques (radar, vision électronique, communication...).
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
DysphonieLa dysphonie (ou enrouement) est une altération objective ou subjective du support sonore de la parole se traduisant par l'atteinte isolée ou combinée des trois paramètres acoustiques de la voix qui sont la hauteur, l'intensité et le timbre. Les causes principales d'une dysphonie sont constitués par des troubles fonctionnels, des altérations organiques ou des atteintes neurologiques. Forçage vocal Nodule Polype Enrouement psychosomatique La dysphonie spasmodique est un trouble de la voix qui apparaît vers 40-50 ans.
Interface utilisateur vocaleUne interface utilisateur vocale ou IUV (ou VUI pour Vocal User Interface en anglais) rend possible l'interaction orale entre les humains et les ordinateurs. Un dispositif de commande vocale (ou VCD pour Voice Command Device) est un appareil doté d'une interface utilisateur vocale. Les ordinateurs équipés d'un tel dispositif utilisent généralement la reconnaissance vocale pour comprendre les mots énoncés par les humains et la synthèse vocale pour en produire.