Publication

Multimodal feature extraction and fusion for audio-visual speech recognition

Related publications (58)

About
Privacy
Disclaimer

Graph Chatbot

Chat with Graph Search

Ask any question about EPFL courses, lectures, exercises, research, news, etc. or try the example questions below.

DISCLAIMER: The Graph Chatbot is not programmed to provide explicit or categorical answers to your questions. Rather, it transforms your questions into API requests that are distributed across the various IT services officially administered by EPFL. Its purpose is solely to collect and recommend relevant references to content that you can explore to help you answer your questions.

Multimodal feature extraction and fusion for audio-visual speech recognition

Graph Chatbot

Chat with Graph Search

Crossmodal Matching of Speakers using Lip and Voice Features in Temporally Non-overlapping Audio and Video Streams

Class-specific classifiers in audio-visual speech recognition

Audio-visual reliability estimates using stream entropy for speech recognition

Information theoretic feature extraction for audio-visual speech recognition

Multimodal Speaker Localization from Omnidirectional Videos

A comparative study of two state-of-the-art sequence processing techniques for hand gesture recognition

MULTI-MODAL SPEAKER DIARIZATION OF REAL-WORLD MEETINGS USING COMPRESSED-DOMAIN VIDEO FEATURES

Using entropy as a stream reliability estimate for audio-visual speech recognition

Acoustic models for posterior features in speech recognition

Acoustic Models for Posterior Features in Speech Recognition