Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Modulation par impulsions et codageLa modulation par impulsions et codage ou MIC (en anglais : pulse-code modulation), généralement abrégé en PCM est une représentation numérique d'un signal électrique résultant d'un processus de numérisation. Le signal est d'abord échantillonné, puis chaque échantillon est quantifié indépendamment des autres échantillons, et chacune des valeurs quantifiées est convertie en un code numérique. Le traitement indépendant de chaque échantillon implique qu'il n'y a ni chiffrement, ni compression de données.
Téléphonie large-bandeLa téléphonie large-bande se distingue de la téléphonie classique par une bande passante plus importante (50-7000 Hz) permettant d'améliorer sensiblement la qualité d'écoute. Les réseaux de téléphonie fixe et de téléphonie mobile standards permettent de transmettre la voix d'un correspondant entre 300 et 3400 Hz. La téléphonie large-bande utilise des codecs spécifiques comme le G.722, le G.722.2, le G.729.1 ou Opus Interactive Audio Codec Les services de téléphonie par internet (VoIP), par exemple Skype, utilisent la téléphonie large-bande.
Entropie (thermodynamique)L'entropie est une grandeur physique qui caractérise le degré de désorganisation d'un système. Introduite en 1865 par Rudolf Clausius, elle est nommée à partir du grec , littéralement « action de se retourner » pris au sens de « action de se transformer ». En thermodynamique, l'entropie est une fonction d'état extensive (c'est-à-dire, proportionnelle à la quantité de matière dans le système considéré). Elle est généralement notée , et dans le Système international d'unités elle s'exprime en joules par kelvin ().
OggOgg est le nom du principal projet de la fondation Xiph.org dont le but est de proposer des formats et codecs multimédias ouverts, libres et dégagés de tout brevet. C’est aussi le nom du format de fichier conteneur proposé par ce même projet. L’extension .ogg est une des extensions possibles pour les fichiers au format Ogg. Par abus de langage, on appelle couramment « fichier Ogg » un fichier audio au format Ogg contenant des données audio compressées en Vorbis, l’un des codecs du projet Ogg. La fondation Xiph.
VLC media playerVLC media player (VLC) est un lecteur multimédia, libre et gratuit issu du projet VideoLAN. Ce logiciel multiplateforme, créé et maintenu en France, fonctionne entre autres sous Windows, GNU/Linux, BSD, macOS, iOS, Android, soit en tout près de . Il est distribué sous GPL et disponible dans . Un des grands atouts de VLC est qu'il intègre les codecs nécessaires à la lecture de la plupart des formats audio et vidéo. Cela lui permet de lire, mais aussi de convertir, un format dans un autre ; il peut par exemple extraire le son d'une vidéo.
Code préfixeUn code préfixe (ou code instantané) est un code ayant la particularité de ne posséder aucun mot du code ayant pour préfixe un autre mot du code. Autrement dit, aucun mot du code (ou symbole) d'un code préfixe ne peut se prolonger pour donner un autre mot du code (ou symbole). C'est une propriété souvent recherchée pour les codes à longueur variable, afin de pouvoir les décoder lorsque plusieurs symboles sont concaténés les uns aux autres sans qu'il soit nécessaire d'utiliser des séparateurs (les séparateurs rendent préfixes des codes non préfixes).
Théorie des codesEn théorie de l'information, la théorie des codes traite des codes et de leurs propriétés et de leurs aptitudes à servir sur différents canaux de communication. On distingue deux modèles de communication : avec et sans bruit. Sans bruit, le codage de source suffit à la communication. Avec bruit, la communication est possible avec les codes correcteurs. En définissant l'information de façon mathématique, l'étape fondatrice de la théorie des codes a été franchie par Claude Shannon.
Ingénieur du sonLe terme ingénieur du son est un terme générique qui peut s'appliquer à des métiers différents, avec des qualifications spécifiques. L'ingénieur du son a pour fonction d'assurer la gestion du son dans différents secteurs d'activité : cinéma (nommé généralement chef-opérateur du son) ; musique ; radio ; télévision ; sonorisation (concerts) ; spectacle vivant ; jeu vidéo. Un ingénieur du son conçoit, fabrique et opère les outils de captation et d'enregistrement pour enregistrer et mixer des programmes sonores aux moyens de machines réelles et virtuelles.
Auditory maskingIn audio signal processing, auditory masking occurs when the perception of one sound is affected by the presence of another sound. Auditory masking in the frequency domain is known as simultaneous masking, frequency masking or spectral masking. Auditory masking in the time domain is known as temporal masking or non-simultaneous masking. The unmasked threshold is the quietest level of the signal which can be perceived without a masking signal present. The masked threshold is the quietest level of the signal perceived when combined with a specific masking noise.