Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Perception de la paroleLa perception de la parole est le processus par lequel les humains sont capables d'interpréter et de comprendre les sons utilisés dans le langage. L'étude de la perception de la parole est reliée aux champs de la phonétique, de phonologie en linguistique, de psychologie cognitive et de perception en psychologie. Les recherches dans ce domaine essaient de comprendre comment les auditeurs humains reconnaissent les phonèmes (sons de la paroles) ou autres sons tels que la syllabe ou les rimes, et utilisent cette information pour comprendre le langage parlé.
Phonemic orthographyA phonemic orthography is an orthography (system for writing a language) in which the graphemes (written symbols) correspond to the phonemes (significant spoken sounds) of the language. Natural languages rarely have perfectly phonemic orthographies; a high degree of grapheme–phoneme correspondence can be expected in orthographies based on alphabetic writing systems, but they differ in how complete this correspondence is.
Apprentissage de représentationsEn apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.
Phonétique articulatoireLa phonétique articulatoire est une branche de la phonétique qui s'intéresse à la production des sons de la parole. Du point de vue articulatoire, les phonèmes sont classés selon leurs modes et points d'articulation. labiale bilabiale labio-vélaire apicale dentale alvéolaire laminale rétroflexe dorsale palatale vélaire uvulaire pharyngale glottale occlusive fricative affriquée latérale nasale clic antérieure / postérieure arrondie / non-arrondie ouverte / fermée nasale / orale Loi du moindre effort articula
VoisementLe voisement est une qualité (ou propriété) de certains sons de la parole. Un son est voisé si sa production s’accompagne d'une vibration des cordes vocales et sinon, il est non voisé. Tout locuteur peut facilement faire l’expérience de ce phénomène en plaçant sa main sur sa gorge (au niveau de la pomme d'Adam) puis en prononçant successivement « ssssss » (non voisé) et « zzzzzz » (voisé). Dans la tradition francophone, on utilise le terme sonorisation (opposition sourd / sonore), voisement étant un anglicisme.
Perceptron multicoucheEn intelligence artificielle, plus précisément en apprentissage automatique, le perceptron multicouche (multilayer perceptron MLP en anglais) est un type de réseau neuronal artificiel organisé en plusieurs couches. Un perceptron multicouche possède au moins trois couches : une couche d'entrée, au moins une couche cachée, et une couche de sortie. Chaque couche est constituée d'un nombre (potentiellement différent) de neurones. L'information circule de la couche d'entrée vers la couche de sortie uniquement : il s'agit donc d'un réseau à propagation directe (feedforward).
Fortis and lenisIn linguistics, fortis and lenis (ˈfɔːrtᵻs and ˈliːnᵻs,_ˈlɛnᵻs; Latin for "strong" and "weak"), sometimes identified with 'tense' and 'lax', are pronunciations of consonants with relatively greater and lesser energy, respectively. English has fortis consonants, such as the p in pat, with a corresponding lenis consonant, such as the b in bat. Fortis and lenis consonants may be distinguished by tenseness or other characteristics, such as voicing, aspiration, glottalization, velarization, length, and length of nearby vowels.
Time delay neural networkTime delay neural network (TDNN) is a multilayer artificial neural network architecture whose purpose is to 1) classify patterns with shift-invariance, and 2) model context at each layer of the network. Shift-invariant classification means that the classifier does not require explicit segmentation prior to classification. For the classification of a temporal pattern (such as speech), the TDNN thus avoids having to determine the beginning and end points of sounds before classifying them.
Réseau de neurones récurrentsUn réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.