Publication

Speaker-Dependent Speech Recognition Based on Phone-Like Units Models --- Application to Voice Dialing

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Reconnaissance automatique de la parole

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Speaker recognition

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Sélection directe à l'arrivée

La sélection directe à l'arrivée ou SDA (en anglais, direct inward dialing [DID] ou direct dial-in [DDI]) est une technique en télécommunications qui permet d'atteindre directement un interlocuteur depuis l'extérieur (par exemple, depuis le réseau téléphonique commuté) sans passer par un standard. Elle est mise en œuvre dans un PABX où chaque poste interne peut recevoir un numéro direct. Par abus de langage, on parle de SDA pour nommer les numéros directs externes.

Voix sur IP

La voix sur IP, ou « VoIP » pour « Voice over IP », est une technologie informatique qui permet de transmettre la voix sur des réseaux compatibles IP, via Internet ou des réseaux privés (intranets) ou publics, qu'ils soient filaires (câble/ADSL/fibre optique) ou non (satellite, Wi-Fi et réseaux mobiles). Des logiciels de VoIP tels que Skype, Signal, Discord, WhatsApp gèrent aujourd'hui tous les flux multimédia (téléphonie, appels vidéo, messagerie instantanée et transferts de fichiers).

Algorithme de Viterbi

L'algorithme de Viterbi, d'Andrew Viterbi, permet de corriger, dans une certaine mesure, les erreurs survenues lors d'une transmission à travers un canal bruité. Son utilisation s'appuie sur la connaissance du canal bruité, c'est-à-dire la probabilité qu'une information ait été modifiée en une autre, et permet de simplifier radicalement la complexité de la recherche du message d'origine le plus probable. D'exponentielle, cette complexité devient linéaire.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Modèle OSI

Le modèle OSI (de l'anglais Open Systems Interconnection) est une norme de communication, en réseau, de tous les systèmes informatiques. C'est un modèle de communications entre ordinateurs proposé par l'ISO (Organisation internationale de normalisation) qui décrit les fonctionnalités nécessaires à la communication et l'organisation de ces fonctions.

Error correction code

In computing, telecommunication, information theory, and coding theory, forward error correction (FEC) or channel coding is a technique used for controlling errors in data transmission over unreliable or noisy communication channels. The central idea is that the sender encodes the message in a redundant way, most often by using an error correction code or error correcting code (ECC). The redundancy allows the receiver not only to detect errors that may occur anywhere in the message, but often to correct a limited number of errors.

Serveur vocal interactif

thumb|upright=1.5|Schéma de principe d'un système de serveur vocal interactif Un serveur vocal interactif ou SVI (en anglais, interactive voice response ou IVR) est un système informatique capable de dialoguer avec un utilisateur par téléphone. Il est capable de recevoir et d'émettre des appels téléphoniques, de réagir aux actions de l'utilisateur (appui sur des touches du téléphone, reconnaissance vocale ou reconnaissance de son numéro téléphonique d'appel) selon une logique préprogrammée, de diffuser des messages préenregistrés ou en synthèse vocale, et d'accéder à des bases de données d'autre part.