Segmentation d'imageLa segmentation d'image est une opération de s consistant à détecter et rassembler les pixels suivant des critères, notamment d'intensité ou spatiaux, l'image apparaissant ainsi formée de régions uniformes. La segmentation peut par exemple montrer les objets en les distinguant du fond avec netteté. Dans les cas où les critères divisent les pixels en deux ensembles, le traitement est une binarisation. Des algorithmes sont écrits comme substitut aux connaissances de haut niveau que l'homme mobilise dans son identification des objets et structures.
Speech codingSpeech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).
Modulation par impulsions et codageLa modulation par impulsions et codage ou MIC (en anglais : pulse-code modulation), généralement abrégé en PCM est une représentation numérique d'un signal électrique résultant d'un processus de numérisation. Le signal est d'abord échantillonné, puis chaque échantillon est quantifié indépendamment des autres échantillons, et chacune des valeurs quantifiées est convertie en un code numérique. Le traitement indépendant de chaque échantillon implique qu'il n'y a ni chiffrement, ni compression de données.
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
Modulation de largeur d'impulsionLa modulation de largeur d'impulsions (MLI ; en anglais : Pulse Width Modulation, soit PWM), est une technique couramment utilisée pour synthétiser des signaux pseudo analogiques à l'aide de circuits numériques (tout ou rien, 1 ou 0), ou plus généralement à états discrets. Elle sert à générer un signal pseudo analogique à partir d'un environnement numérique ou analogique pour permettre un traitement de ce signal par des composants en commutation (se comportant comme des interrupteurs ouverts ou fermés).
Ring Modulatorvignette|Schéma d'un ring modulator Le ring modulator (modulateur en anneau) est un effet audio de modulation utilisant un oscillateur pour créer une onde sinusoïdale, qui est ensuite multipliée avec le signal de départ (celui d'une guitare par exemple) pour produire de nouvelles harmoniques. C'est aussi un effet que l'on retrouve sur de nombreux synthétiseurs où un oscillateur est utilisé pour en moduler un autre, ce qui produit des sons de cloche caractéristiques. Pédale d'effet Technologies des musiques
Cortex auditifalt=Cortex auditifs primaire et secondaire|vignette|Cortex auditif. Le cortex auditif est la partie du cerveau qui analyse les informations auditives, c'est-à-dire les informations extraites des sons par l'ouïe. Il occupe la partie supérieure du lobe temporal. Comme d'autres aires sensorielles, le cortex auditif est organisé hiérarchiquement en aires primaires, secondaires et tertiaires qui sont anatomiquement organisées de façons concentriques dans les parties supérieures et moyennes du lobe temporal : le cortex primaire, localisé au niveau du gyrus de Heschl est entouré des aires secondaires, elles-mêmes encerclées d'aires tertiaires et associatives.
Audio frequencyAn audio frequency or audible frequency (AF) is a periodic vibration whose frequency is audible to the average human. The SI unit of frequency is the hertz (Hz). It is the property of sound that most determines pitch. The generally accepted standard hearing range for humans is 20 to 20,000 Hz. In air at atmospheric pressure, these represent sound waves with wavelengths of to . Frequencies below 20 Hz are generally felt rather than heard, assuming the amplitude of the vibration is great enough.
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
Object co-segmentationIn computer vision, object co-segmentation is a special case of , which is defined as jointly segmenting semantically similar objects in multiple images or video frames. It is often challenging to extract segmentation masks of a target/object from a noisy collection of images or video frames, which involves object discovery coupled with . A noisy collection implies that the object/target is present sporadically in a set of images or the object/target disappears intermittently throughout the video of interest.