Publication

Convolutional Pitch Target Approximation Model for Speech Synthesis

Concepts associés (34)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Synthèse vocale

La synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.

Réseau neuronal convolutif

En apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.

Intonation prosodique

En prosodie, le terme « intonation » a plusieurs acceptions. Certaines diffèrent par la nature du segment de la chaîne parlée auquel elles se réfèrent. Dans un sens large, l’intonation concerne le niveau de hauteur du phone (c’est-à-dire du son au sens phonétique) ou la variation de cette hauteur dans le noyau de la syllabe, ayant une fonction sémantique au niveau du mot, ainsi que la variation de la hauteur des phones au niveau de segments plus grands que le mot, c’est-à-dire le syntagme, la phrase simple, la proposition et la phrase complexe.

Multidimensional discrete convolution

In signal processing, multidimensional discrete convolution refers to the mathematical operation between two functions f and g on an n-dimensional lattice that produces a third function, also of n-dimensions. Multidimensional discrete convolution is the discrete analog of the multidimensional convolution of functions on Euclidean space. It is also a special case of convolution on groups when the group is the group of n-tuples of integers. Similar to the one-dimensional case, an asterisk is used to represent the convolution operation.

Matrice de Toeplitz

En algèbre linéaire, une matrice de Toeplitz (d'après Otto Toeplitz) ou matrice à diagonales constantes est une matrice dont les coefficients sur une diagonale descendant de gauche à droite sont les mêmes. Par exemple, la matrice suivante est une matrice de Toeplitz : Toute matrice A à n lignes et n colonnes de la forme est une matrice de Toeplitz. Si l'élément situé à l’intersection des ligne i et colonne j de A est noté Ai,j, alors on a : En général, une équation matricielle correspond à un système de n équations linéaires à résoudre.

Produit de convolution

En mathématiques, le produit de convolution est un opérateur bilinéaire et un produit commutatif, généralement noté « ∗ », qui, à deux fonctions f et g sur un même domaine infini, fait correspondre une autre fonction « f ∗ g » sur ce domaine, qui en tout point de celui-ci est égale à l'intégrale sur l'entièreté du domaine (ou la somme si celui-ci est discret) d'une des deux fonctions autour de ce point, pondérée par l'autre fonction autour de l'origine — les deux fonctions étant parcourues en sens contraire

Prosodic unit

In linguistics, a prosodic unit is a segment of speech that occurs with specific prosodic properties. These properties can be those of stress, intonation (a single pitch and rhythm contour), or tonal patterns. Prosodic units occur at a hierarchy of levels, from the syllable, the metrical foot and phonological word to the intonational unit (IU) and to a complete utterance. However, the term is often restricted to intermediate levels which do not have a dedicated terminology.

Transformation de Fourier discrète

En mathématiques, la transformation de Fourier discrète (TFD) sert à traiter un signal numérique. Elle constitue un équivalent discret (c'est-à-dire pour un signal défini à partir d'un nombre fini d'échantillons) de la transformation de Fourier (continue) utilisée pour traiter un signal analogique. Plus précisément, la TFD est la représentation spectrale discrète dans le domaine des fréquences d'un signal échantillonné. La transformation de Fourier rapide est un algorithme particulier de calcul de la transformation de Fourier discrète.

Segment (linguistics)

In linguistics, a segment is "any discrete unit that can be identified, either physically or auditorily, in the stream of speech". The term is most used in phonetics and phonology to refer to the smallest elements in a language, and this usage can be synonymous with the term phone. In spoken languages, segments will typically be grouped into consonants and vowels, but the term can be applied to any minimal unit of a linear sequence meaningful to the given field of analysis, such as a mora or a syllable in prosodic phonology, a morpheme in morphology, or a chereme in sign language analysis.

Réseau de neurones récurrents

Un réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.