Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole.
Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse
à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ;
à l'amélioration de l'intelligibilité quand le signal est dégradé ;
à l'identification de la personne qui parle ;
à l'établissement automatique d'un texte écrit à partir de la parole ;
à la synthèse de la parole à partir d'un texte écrit.
Les caractères expressifs (au sens de l'art dramatique) et musicaux de la voix humaine font partie du domaine plus vaste du traitement du signal.
Les principales disciplines qui contribuent aux technologies du traitement de la parole sont
la psychoacoustique
la phonétique
la phonologie
les méthodes générales du traitement du signal
L'émergence à la fin du d'une puissante industrie du téléphone, marque le début de l'effort de recherche en traitement de la parole. Passé les premières expérimentations, et les premiers appareils offrant peu de confort d'écoute, l'industrie téléphonique naissante lance des études pour déterminer les caractéristiques de base d'un signal décrivant la parole, à acheminer sur ses lignes. Dans les années 1920, l'invention de l'électronique multiplie les possibilités de traitement du signal; on détermine la bande passante et la dynamique sonore nécessaires à l'intelligibilité de la parole.
La bande passante nécessaire, normalisée, est de à (soit trois octaves et demie à peu près du ré3 au la7).
La dynamique sonore dans la transmission est d'environ .
Ces études sont nécessaires pour permettre l'acheminement de plusieurs signaux sur la même paire de conducteurs (multiplexage).
Une vingtaine d'années plus tard, les bases théoriques du traitement du signal (théorème d'échantillonnage, théorie de l'information) sont établis, à partir de l'expérience des télécommunications et de la radiodiffusion.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
The objective of this course is to present the main models, formalisms and algorithms necessary for the development of applications in the field of natural language information processing. The concept
The goal of this course is to provide the students with the main formalisms, models and algorithms required for the implementation of advanced speech processing applications (involving, among others,
vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).
Explore les systèmes LID réalisables, les fonctions de transfert rationnelles, la stabilité, la causalité et les paramètres de mise en œuvre dans le calcul.
To fully comprehend visual perception, we need to necessarily understand its temporal dimension. Our visual environment is highly dynamic, requiring the processing and integration of temporal signals in order to make sense of it. Many processes, such as th ...
Auditory research aims in general to lead to understanding of physiological processes. By contrast, the state of the art in automatic speech processing (notably recognition) is dominated by large pre-trained models that are meant to be used as black-boxes. ...
Deep learning has revolutionized the field of computer vision, a success largely attributable to the growing size of models, datasets, and computational power.Simultaneously, a critical pain point arises as several computer vision applications are deployed ...