Publication

Speech/Music Discrimination using Entropy and Dynamism Features in a HMM Classification Framework

Résumé

In this paper, we present a new approach towards high performance speech/music discrimination on realistic tasks related to the automatic transcription of broadcast news. In the approach presented here, the (local) Probability Density Function (PDF) estimators trained on clean, microphone, speech (as used in a standard large vocabulary speech recognition system) are used as a channel model at the output of which the entropy and dynamism'' will be measured and integrated over time through a 2-state (speech and and non-speech) hidden Markov model (HMM) with minimum duration constraints. Indeed, in the case of entropy, it is clear that, on average, the entropy at the output of the local PDF estimators will be larger for speech signals than non-speech signals presented at their input. In our case, local probabilities will be estimated from an multilayer perceptron (MLP) as used in hybrid HMM/MLP systems, thus guaranteeing the use of real'' probabilities in the estimation of the entropy. The 2-state speech/non-speech HMM will thus take these two dimensional features (entropy and ``dynamism'') whose distributions will be modeled through (two-dimensional) multi-Gaussian densities or an MLP, whose parameters are trained through a Viterbi algorithm.\ Different experiments, including different speech and music styles, as well as different (a priori) distributions of the speech and music signals (real data distribution, mostly speech, or mostly music), will illustrate the robustness of the approach, always resulting in a correct segmentation performance higher than 90%. Finally, we will show how a confidence measure can be used to further improve the segmentation results, and also discuss how this may be used to extend the technique to the case of speech/music mixtures.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Concepts associés (36)
Genre musical
thumb|Tango. D'après l'encyclopédie Larousse, le genre musical est un . Le genre musical est un concept sans limites précises, il est compliqué d'établir une liste exhaustive des genres. La dénomination d’un genre peut venir d’une expression qui a marqué une scène musicale (Krautrock), de techniques ou sources sonores utilisées par le genre musical populaire (techno, synthpop), de son origine géographique (Miami bass, UK garage), ou de l’intention que porte le style (rock psychédélique).
Reconnaissance automatique de la parole
vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Éducation musicale
vignette|Leçon de musique. L’éducation musicale est une discipline qui s'occupe, d'une part, de l'enseignement et de l'apprentissage de la musique (académique, populaire et du monde) et, d'autre part, de l'éducation aux aspects sociaux et culturels du code sonore et des bruits dans notre monde actuel. La musique a été toujours liée à des fonctions de grande importance dans les cérémonies sociales, culturelles et religieuses dans les civilisations les plus anciennes.
Afficher plus
Publications associées (76)

Computational modeling of interval distributions in tonal space reveals paradigmatic stylistic changes in Western music history

Martin Alois Rohrmeier, Fabian Claude Moss, Robert Lieck

Diachronic stylistic changes in music are to a large extent affected by composers' different choices, for example regarding the usage of tones, intervals, and harmonies. Analyzing the tonal content of pieces of music and observing them over time is thus in ...
Springernature2024

The Structure of Free Polyphony

Christoph Finkensiep

The human ability to perceive and understand music is remarkable. From an unstructured stream of acoustic input it creates a wide range of experiences, from psycho-acoustic effects to emotional and aesthetic responses. One such set of phenomena is the expe ...
EPFL2023

Automated music composition and generation system and method

Florian François Colombo

An automated music composition and generation system for automatically harmonizing digital pieces of music using an automated music composition and generation engine for multi-voice music harmonization, including a system-user interface configured to input ...
2023
Afficher plus
MOOCs associés (17)
Advanced statistical physics
We explore statistical physics in both classical and open quantum systems. Additionally, we will cover probabilistic data analysis that is extremely useful in many applications.
Advanced statistical physics
We explore statistical physics in both classical and open quantum systems. Additionally, we will cover probabilistic data analysis that is extremely useful in many applications.
Digital Signal Processing I
Basic signal processing concepts, Fourier analysis and filters. This module can be used as a starting point or a basic refresher in elementary DSP
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.