Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
Speaker recognitionSpeaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).
Modulation du signalEn télécommunications, le signal transportant une information doit passer par un moyen de transmission entre un émetteur et un récepteur. Le signal est rarement adapté à la transmission directe par le canal de communication choisi, hertzien, filaire, ou optique. La modulation peut être définie comme le processus par lequel le signal est transformé de sa forme originale en une forme adaptée au canal de transmission, par exemple en faisant varier les paramètres d'amplitude et d'argument (phase/fréquence) d'une onde sinusoïdale appelée porteuse.
Modulation de fréquenceright|Illustration de modulation en amplitude et en fréquence. La modulation de fréquence ou MF (FM en anglais) est un mode de modulation consistant à transmettre un signal par la modulation de la fréquence d'un signal porteur (porteuse). On parle de modulation de fréquence par opposition à la modulation d'amplitude. En modulation de fréquence, l'information est portée par une modification de la fréquence de la porteuse, et non par une variation d'amplitude.
Modulation d'amplitudeLa modulation d'amplitude ou MA (AM en anglais) est une technique utilisée pour moduler un signal. Elle consiste en la multiplication du signal à moduler par un signal de fréquence moins élevée. La modulation d'amplitude consiste à faire varier l'amplitude d'un signal de fréquence élevée, le signal porteur, en fonction d'un signal de plus basse fréquence, le signal modulant. Ce dernier est celui qui contient l'information à transmettre (voix, par exemple, recueillie par un microphone).
Bande latérale uniqueLa bande latérale unique ou BLU (en anglais : SSB, single-sideband modulation) est un mode de modulation pour la radio qui consiste en une modulation d'amplitude dans laquelle on a supprimé la porteuse et l'une des bandes latérales. Il ne subsiste donc qu'une seule bande latérale, d'où le nom de la technique. Grâce à son efficacité en occupation de spectre radioélectrique et en énergie émise, la BLU est surtout utilisée pour les liaisons de Radiotéléphonie HF, MF, dans le domaine maritime, militaire, aviation ou radioamateur.
ParoleLa parole est le langage articulé humain (même si des études ethologiques et philosophiques sont en cours pour déterminer si d’autres animaux pourraient être considérés comme dotés de parole, notamment les perroquets) destiné à communiquer la pensée, et est à distinguer des communications orales diverses, comme les cris, les alertes ou les gémissements. « Articuler la parole » consiste à former des signes audibles, les syllabes, formant les mots qui constituent des symboles.
Speech codingSpeech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.