Publication

Joint Localization and Classification of Multiple Sound Sources Using a Multi-task Neural Network

Concepts associés (27)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Likelihood principle

In statistics, the likelihood principle is the proposition that, given a statistical model, all the evidence in a sample relevant to model parameters is contained in the likelihood function. A likelihood function arises from a probability density function considered as a function of its distributional parameterization argument.

Classification en classes multiples

In machine learning and statistical classification, multiclass classification or multinomial classification is the problem of classifying instances into one of three or more classes (classifying instances into one of two classes is called binary classification). While many classification algorithms (notably multinomial logistic regression) naturally permit the use of more than two classes, some are by nature binary algorithms; these can, however, be turned into multinomial classifiers by a variety of strategies.

Son stéréophonique

Le terme stéréophonie vient du grec stereo « spatial, solide » et phono « ton, le son ». Le son stéréophonique, plus communément appelé stéréo, est une méthode d'enregistrement et de reproduction sonore visant à reconstituer la répartition dans l'espace des sources d'origine. Ce relief sonore est habituellement obtenu à l'aide de deux canaux diffusés par au moins deux transducteurs (haut-parleurs ou écouteurs), eux-mêmes reliés à deux amplificateurs distincts. Dans des conditions idéales, l'auditeur perçoit les sons situés dans l'espace.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Maximum de vraisemblance

En statistique, l'estimateur du maximum de vraisemblance est un estimateur statistique utilisé pour inférer les paramètres de la loi de probabilité d'un échantillon donné en recherchant les valeurs des paramètres maximisant la fonction de vraisemblance. Cette méthode a été développée par le statisticien Ronald Aylmer Fisher en 1922. Soient neuf tirages aléatoires x1, ..., x9 suivant une même loi ; les valeurs tirées sont représentées sur les diagrammes ci-dessous par des traits verticaux pointillés.

Parole

La parole est le langage articulé humain (même si des études ethologiques et philosophiques sont en cours pour déterminer si d’autres animaux pourraient être considérés comme dotés de parole, notamment les perroquets) destiné à communiquer la pensée, et est à distinguer des communications orales diverses, comme les cris, les alertes ou les gémissements. « Articuler la parole » consiste à former des signes audibles, les syllabes, formant les mots qui constituent des symboles.

Test du rapport de vraisemblance

En statistiques, le test du rapport de vraisemblance est un test statistique qui permet de tester un modèle paramétrique contraint contre un non contraint. Si on appelle le vecteur des paramètres estimés par la méthode du maximum de vraisemblance, on considère un test du type : contre On définit alors l'estimateur du maximum de vraisemblance et l'estimateur du maximum de vraisemblance sous .

Live sound mixing

Live sound mixing is the blending of multiple sound sources by an audio engineer using a mixing console or software. Sounds that are mixed include those from instruments and voices which are picked up by microphones (for drum kit, lead vocals and acoustic instruments like piano or saxophone and pickups for instruments such as electric bass) and pre-recorded material, such as songs on CD or a digital audio player. Individual sources are typically equalised to adjust the bass and treble response and routed to effect processors to ultimately be amplified and reproduced via a loudspeaker system.

Ambisonie

Lambisonie (ambisonics) est une technique de capture, synthèse et reproduction d'environnement sonore. L'immersion de l'auditeur dans cet environnement virtuel se fait grâce à un nombre de haut-parleurs variant de trois à quelques dizaines. La méthode ambisonique existe en version 2D (les haut-parleurs sont tous situés dans le plan horizontal contenant la tête de l'utilisateur) et 3D (les haut-parleurs sont alors souvent disposés sur une sphère centrée sur la tête de l'utilisateur).