Perception de la paroleLa perception de la parole est le processus par lequel les humains sont capables d'interpréter et de comprendre les sons utilisés dans le langage. L'étude de la perception de la parole est reliée aux champs de la phonétique, de phonologie en linguistique, de psychologie cognitive et de perception en psychologie. Les recherches dans ce domaine essaient de comprendre comment les auditeurs humains reconnaissent les phonèmes (sons de la paroles) ou autres sons tels que la syllabe ou les rimes, et utilisent cette information pour comprendre le langage parlé.
Regroupement hiérarchiqueDans le domaine de l'analyse et de la classification automatique de données, le regroupement hiérarchique est un partitionnement de données ou clustering, au moyen de diverses méthodes, dites « ascendantes » et « descendantes ». Les méthodes dites « descendantes » partent d’une solution générale vers une autre plus spécifique. Les méthodes de cette catégorie démarrent avec une seule classe contenant la totalité puis se divisent à chaque étape selon un critère jusqu’à l’obtention d’un ensemble de classes différentes.
Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
Apprentissage profondL'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.
Segment (linguistics)In linguistics, a segment is "any discrete unit that can be identified, either physically or auditorily, in the stream of speech". The term is most used in phonetics and phonology to refer to the smallest elements in a language, and this usage can be synonymous with the term phone. In spoken languages, segments will typically be grouped into consonants and vowels, but the term can be applied to any minimal unit of a linear sequence meaningful to the given field of analysis, such as a mora or a syllable in prosodic phonology, a morpheme in morphology, or a chereme in sign language analysis.
Genre musicalthumb|Tango. D'après l'encyclopédie Larousse, le genre musical est un . Le genre musical est un concept sans limites précises, il est compliqué d'établir une liste exhaustive des genres. La dénomination d’un genre peut venir d’une expression qui a marqué une scène musicale (Krautrock), de techniques ou sources sonores utilisées par le genre musical populaire (techno, synthpop), de son origine géographique (Miami bass, UK garage), ou de l’intention que porte le style (rock psychédélique).
Musiquevignette|Allégorie de la musique, François Boucher, 1752. vignette|Jean-Sébastien Bach, compositeur de musique baroque. vignette|Jacques Brel, chanteur. vignette|350x350px|Mozart, La Flûte enchantée, première page du manuscrit autographe. vignette|Allégorie évoquant la musique et les instruments.vignette|290x290px|Beethoven, Symphonie , première page du manuscrit autographe. La musique est un art et une activité culturelle consistant à combiner sons et silences au cours du temps.
Reconnaissance automatique de la parolevignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.
Apprentissage de représentationsEn apprentissage automatique, l'apprentissage des caractéristiques ou apprentissage des représentations est un ensemble de techniques qui permet à un système de découvrir automatiquement les représentations nécessaires à la détection ou à la classification des caractéristiques à partir de données brutes. Cela remplace l'ingénierie manuelle des fonctionnalités et permet à une machine d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.
Partitionnement de donnéesvignette|upright=1.2|Exemple de clustering hiérarchique. Le partitionnement de données (ou data clustering en anglais) est une méthode en analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l'on définit en introduisant des mesures et classes de distance entre objets.