Publication

On dynamic stream weighting for Audio-Visual Speech Recognition

Concepts associés (33)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Speech repetition

Speech repetition occurs when individuals speak the sounds that they have heard another person pronounce or say. In other words, it is the saying by one individual of the spoken vocalizations made by another individual. Speech repetition requires the person repeating the utterance to have the ability to map the sounds that they hear from the other person's oral pronunciation to similar places and manners of articulation in their own vocal tract.

Weighting filter

A weighting filter is used to emphasize or suppress some aspects of a phenomenon compared to others, for measurement or other purposes. In each field of audio measurement, special units are used to indicate a weighted measurement as opposed to a basic physical measurement of energy level. For sound, the unit is the phon (1 kHz equivalent level). Sound has three basic components, the wavelength, frequency, and speed. In sound measurement, we measure the loudness of the sound in decibels (dB).

Reconnaissance de l'écriture manuscrite

La reconnaissance de l’écriture manuscrite (en anglais, handwritten text recognition ou HTR) est un traitement informatique qui a pour but de traduire un texte écrit en un texte codé numériquement. Il faut distinguer deux reconnaissances distinctes, avec des problématiques et des solutions différentes : la reconnaissance en-ligne ; la reconnaissance hors-ligne. La reconnaissance de l’écriture manuscrite fait appel à la reconnaissance de forme, mais également au traitement automatique du langage naturel.

Mixage audio

Le mixage audio est l’opération technique et artistique par laquelle, dans les domaines de la musique, du cinéma, du jeu vidéo, de la télévision, des matchs de sports et de la radio, un certain nombre de sources audio sont mélangées afin de parvenir à un équilibre cohérent, en intervenant sur le niveau, l'égalisation, la dynamique et la spatialisation. Le mixage est réalisé en studio (ou home studio) pour les films et la musique enregistrée, et en régie pour les événements en direct comme les concerts.

Traitement du son

Le traitement du son est la branche du traitement du signal qui s'applique aux signaux audio, dans le but notamment d'en améliorer la qualité, de les compresser, ou d'en extraire de l'information. Le terme analogique désigne quelque chose qui est mathématiquement représenté par une fonction continue. Donc un signal analogique est un signal représenté par un flux continu de donnée, ici dans un circuit électrique sous la forme de tension ou de courant.

Reconnaissance de formes

thumb|Reconnaissance de forme à partir de modélisation en 3D La reconnaissance de formes (ou parfois reconnaissance de motifs) est un ensemble de techniques et méthodes visant à identifier des régularités informatiques à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à ce motif. On considère que c'est une branche de l'intelligence artificielle qui fait largement appel aux techniques d'apprentissage automatique et aux statistiques.

Décibel A

Une valeur exprimée en dB (A) est l'évaluation en décibels d'un niveau sonore avec la pondération A de la norme CEI 61672-1 « Électroacoustique – Sonomètres », établie pour tenir compte de la sensibilité moyenne, à un faible volume sonore, des personnes ayant une audition considérée comme normale, pour chaque bande de fréquences. La pondération A sert fréquemment pour l'évaluation de la sonie des bruits environnementaux. vignette|100px|Sonomètre intégrateur en dB(A) Le décibel SPL repère le niveau sonore par rapport à une valeur de référence, donnant le niveau .

Emotion recognition

Emotion recognition is the process of identifying human emotion. People vary widely in their accuracy at recognizing the emotions of others. Use of technology to help people with emotion recognition is a relatively nascent research area. Generally, the technology works best if it uses multiple modalities in context. To date, the most work has been conducted on automating the recognition of facial expressions from video, spoken expressions from audio, written expressions from text, and physiology as measured by wearables.

Classement automatique

vignette|La fonction 1-x^2-2exp(-100x^2) (rouge) et les valeurs déplacées par un bruit de 0,1*N(0,1). Le classement automatique ou classification supervisée est la catégorisation algorithmique d'objets. Elle consiste à attribuer une classe ou catégorie à chaque objet (ou individu) à classer, en se fondant sur des données statistiques. Elle fait couramment appel à l'apprentissage automatique et est largement utilisée en reconnaissance de formes. En français, le classement fait référence à l'action de classer donc de « ranger dans une classe ».

Interface utilisateur vocale

Une interface utilisateur vocale ou IUV (ou VUI pour Vocal User Interface en anglais) rend possible l'interaction orale entre les humains et les ordinateurs. Un dispositif de commande vocale (ou VCD pour Voice Command Device) est un appareil doté d'une interface utilisateur vocale. Les ordinateurs équipés d'un tel dispositif utilisent généralement la reconnaissance vocale pour comprendre les mots énoncés par les humains et la synthèse vocale pour en produire.