Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Loi log-normaleEn théorie des probabilités et statistique, une variable aléatoire X est dite suivre une loi log-normale de paramètres et si la variable suit une loi normale d'espérance et de variance . Cette loi est parfois appelée loi de Galton. Elle est habituellement notée dans le cas d'une seule variable ou dans un contexte multidimensionnel. Une variable peut être modélisée par une loi log-normale si elle est le résultat de la multiplication d'un grand nombre de petits facteurs indépendants.
Bruit de fondEn traitement du signal, on appelle bruit de fond toute composante non désirée affectant la sortie d'un dispositif indépendamment du signal présent à son entrée. Le bruit de fond se décompose en bruit propre, que cause le dispositif lui-même, et en perturbations originaires de l'extérieur qu'il capte malencontreusement. Au fur et à mesure que le signal se rapproche, puis s'enfonce en dessous du niveau du bruit de fond, la quantité d'informations qu'il peut transporter décroît , il devient plus difficile à détecter, et il finit par se dissoudre dans l'incertitude.
Pollution sonorethumb|Selon G. Dutilleux (2012), (ici, à titre d'exemple : vue de la circulation automobile urbaine à Bangkok, source majeure de nuisances sonores. thumb|L'échangeur de Daussoulx en Belgique ; autre exemple de source de nuisances sonores. La notion de pollution sonore regroupe généralement des nuisances sonores, et des pollutions induites par le son devenu dans certaines circonstances un « altéragène physique » pour l'être humain ou les écosystèmes.
Rapport signal sur bruitEn électronique, le rapport signal sur bruit (SNR, ) est le rapport des puissances entre la partie du signal qui représente une information et le reste, qui constitue un bruit de fond. Il est un indicateur de la qualité de la transmission d'une information. L'expression d'un rapport signal sur bruit se fonde implicitement sur le principe de superposition, qui pose que le signal total est la somme de ces composantes. Cette condition n'est vraie que si le phénomène concerné est linéaire.
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
Mel-frequency cepstrumIn sound processing, the mel-frequency cepstrum (MFC) is a representation of the short-term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel-frequency cepstral coefficients (MFCCs) are coefficients that collectively make up an MFC. They are derived from a type of cepstral representation of the audio clip (a nonlinear "spectrum-of-a-spectrum").
Logarithmevignette|Tracés des fonctions logarithmes en base 2, e et 10. En mathématiques, le logarithme (de logos : rapport et arithmos : nombre) de base d'un nombre réel strictement positif est la puissance à laquelle il faut élever la base pour obtenir ce nombre. Dans le cas le plus simple, le logarithme compte le nombre d'occurrences du même facteur dans une multiplication répétée : comme 1000 = 10×10×10 = 10, le logarithme en base 10 de 1000 est 3. Le logarithme de en base est noté : . John Napier a développé les logarithmes au début du .
Interface utilisateur vocaleUne interface utilisateur vocale ou IUV (ou VUI pour Vocal User Interface en anglais) rend possible l'interaction orale entre les humains et les ordinateurs. Un dispositif de commande vocale (ou VCD pour Voice Command Device) est un appareil doté d'une interface utilisateur vocale. Les ordinateurs équipés d'un tel dispositif utilisent généralement la reconnaissance vocale pour comprendre les mots énoncés par les humains et la synthèse vocale pour en produire.
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.