Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).
Linear predictive coding (LPC) is a method used mostly in audio signal processing and speech processing for representing the spectral envelope of a digital signal of speech in compressed form, using the information of a linear predictive model. LPC is the most widely used method in speech coding and speech synthesis. It is a powerful speech analysis technique, and a useful method for encoding good quality speech at a low bit rate.
Advanced Audio Coding (AAC, « encodage audio avancé ») est un algorithme de compression audio avec perte de données ayant pour but d’offrir un meilleur rapport qualité sur débit binaire que le format plus ancien MPEG-1/2 Audio Layer 3, plus connu sous le nom de MP3. Pour ces qualités, il est choisi par différentes entreprises dont Apple ou RealNetworks. La RNT (Radio numérique terrestre utilise le système de radio diffusion DAB+ (version améliorée du DAB, Digital Audio Broadcasting) qui intègre une version avancée du codec AAC : HE-AAC version 2, aussi appelé eAAC+, et défini dans la norme MPEG-4 Part 3.
vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
La modulation par impulsions et codage ou MIC (en anglais : pulse-code modulation), généralement abrégé en PCM est une représentation numérique d'un signal électrique résultant d'un processus de numérisation. Le signal est d'abord échantillonné, puis chaque échantillon est quantifié indépendamment des autres échantillons, et chacune des valeurs quantifiées est convertie en un code numérique. Le traitement indépendant de chaque échantillon implique qu'il n'y a ni chiffrement, ni compression de données.
In audio signal processing, auditory masking occurs when the perception of one sound is affected by the presence of another sound. Auditory masking in the frequency domain is known as simultaneous masking, frequency masking or spectral masking. Auditory masking in the time domain is known as temporal masking or non-simultaneous masking. The unmasked threshold is the quietest level of the signal which can be perceived without a masking signal present. The masked threshold is the quietest level of the signal perceived when combined with a specific masking noise.
La téléphonie large-bande se distingue de la téléphonie classique par une bande passante plus importante (50-7000 Hz) permettant d'améliorer sensiblement la qualité d'écoute. Les réseaux de téléphonie fixe et de téléphonie mobile standards permettent de transmettre la voix d'un correspondant entre 300 et 3400 Hz. La téléphonie large-bande utilise des codecs spécifiques comme le G.722, le G.722.2, le G.729.1 ou Opus Interactive Audio Codec Les services de téléphonie par internet (VoIP), par exemple Skype, utilisent la téléphonie large-bande.
Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
NOTOC Dans le domaine des télécommunications une onde porteuse, ou, plus simplement, porteuse, est une forme d'onde (généralement sinusoïdale) qui est modulée par un signal d'entrée dans le but de transporter des informations. La porteuse a généralement une fréquence beaucoup plus élevée que le signal d'entrée. L'intérêt de la porteuse est le plus souvent soit de transmettre une information à travers l'espace sous forme d'onde électromagnétique (comme pour la radio), soit de permettre à plusieurs porteuses de fréquences différentes de partager un même support physique par multiplexage fréquentiel (comme dans le cas de la télévision par câble).