Concept

Synthèse vocale

Concepts associés (32)

HAL 9000 (traduit en CARL 500 en version française) est un personnage de fiction, un supercalculateur doté d'intelligence artificielle. Il a été conçu pour gérer de manière autonome les fonctions vitales du vaisseau spatial Discovery One, en mission dans l'espace vers la planète Jupiter. Le personnage apparaît dans la saga des Odyssées de l'espace du romancier de science-fiction britannique Arthur C. Clarke, dont les deux premiers romans ont été adaptés au cinéma ; d'abord dans le film 2001, l'Odyssée de l'espace (1968) de Stanley Kubrick, puis dans 2010 : L'Année du premier contact (1984) de Peter Hyams.

Linguistique

La linguistique est une discipline scientifique s’intéressant à l’étude du langage. Elle n'est pas prescriptive mais descriptive. La prescription correspond à la norme, c'est-à-dire ce qui est jugé correct linguistiquement par les grammairiens. À l'inverse, la linguistique se contente de décrire la langue telle qu'elle est et non telle qu'elle devrait être. On trouve des témoignages de réflexions sur le langage dès l'Antiquité avec des philosophes comme Platon.

Vocodeur

vignette|Un Vocoder VC-10 de Korg. Le vocoder ou vocodeur est un dispositif électronique de traitement du signal sonore. Son nom, contraction de voice coder (« codeur de voix » en anglais), a été francisé en « vocodeur ». Il analyse les principales composantes spectrales de la voix (ou d'un autre son) et fabrique un son synthétique à partir du résultat de cette analyse. Le vocodeur a été inventé en 1939 par Homer Dudley, ingénieur aux laboratoires Bell, afin d'assurer une transmission efficace de la voix sur le réseau téléphonique.

Linear predictive coding

Linear predictive coding (LPC) is a method used mostly in audio signal processing and speech processing for representing the spectral envelope of a digital signal of speech in compressed form, using the information of a linear predictive model. LPC is the most widely used method in speech coding and speech synthesis. It is a powerful speech analysis technique, and a useful method for encoding good quality speech at a low bit rate.

Traitement de la parole

Le traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.

Apprentissage profond

L'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.

Traitement du son

Le traitement du son est la branche du traitement du signal qui s'applique aux signaux audio, dans le but notamment d'en améliorer la qualité, de les compresser, ou d'en extraire de l'information. Le terme analogique désigne quelque chose qui est mathématiquement représenté par une fonction continue. Donc un signal analogique est un signal représenté par un flux continu de donnée, ici dans un circuit électrique sous la forme de tension ou de courant.

Reconnaissance automatique de la parole

vignette|droite|upright=1.4|La reconnaissance vocale est habituellement traitée dans le middleware ; les résultats sont transmis aux applications utilisatrices. La reconnaissance automatique de la parole (souvent improprement appelée reconnaissance vocale) est une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine.

Parole

La parole est le langage articulé humain (même si des études ethologiques et philosophiques sont en cours pour déterminer si d’autres animaux pourraient être considérés comme dotés de parole, notamment les perroquets) destiné à communiquer la pensée, et est à distinguer des communications orales diverses, comme les cris, les alertes ou les gémissements. « Articuler la parole » consiste à former des signes audibles, les syllabes, formant les mots qui constituent des symboles.

Formant

On désigne par formant l'un des maxima d'énergie du spectre sonore d'un son de parole. Ce terme est notamment employé dans le domaine de la linguistique, de la phonétique et de l'acoustique. Il y a plusieurs définitions du mot « formant » (résonances du conduit vocal, pôles). vignette|Spectrogramme des voyelles [i, u, ɑ] en anglais américain, montrant les formants F1 et F2. Les formants peuvent être visualisés sur des spectres sonores. Ces spectres représentent la distribution en fréquences de l'énergie du signal de parole.

Robotique

thumb|upright=1.5|Nao, un robot humanoïde. thumb|upright=1.5|Des robots industriels au travail dans une usine. La robotique est l'ensemble des techniques permettant la conception et la réalisation de machines automatiques ou de robots. L'ATILF donne la définition suivante du robot : « il effectue, grâce à un système de commande automatique à base de microprocesseur, une tâche précise pour laquelle il a été conçu dans le domaine industriel, scientifique, militaire ou domestique ».

Lecteur d'écran

Un lecteur d'écran (également appelé revue d'écran) est un logiciel d’assistance technique destiné aux personnes « empêchées de lire » (aveugles, fortement malvoyantes, dyslexiques, dyspraxiques...) : il retranscrit par synthèse vocale et/ou sur un afficheur braille ce qui est affiché sur l'écran d'un ordinateur tant en termes de contenu que de structure et permet d'interagir avec le système d’exploitation et les logiciels applications.

Google Traduction

Google Traduction (Google Translate) est un service de traduction automatique gratuit fourni par Google. Contrairement à d'autres services de traduction comme Babel Fish (supprimé en 2012), AOL et Yahoo! qui utilisent SYSTRAN, Google utilise son propre logiciel de traduction. Le service permet également la traduction de pages Web, même longues. Depuis , une limitation de caractères traduits est posée, mais elle n'affecte pas la traduction d'une page web via son URL.

Speaker recognition

Speaker recognition is the identification of a person from characteristics of voices. It is used to answer the question "Who is speaking?" The term voice recognition can refer to speaker recognition or speech recognition. Speaker verification (also called speaker authentication) contrasts with identification, and speaker recognition differs from speaker diarisation (recognizing when the same speaker is speaking).

Synthétiseur

Un synthétiseur (ou familièrement synthé, par apocope) est un instrument de musique électronique capable de créer et de moduler des sons sous forme de signal électrique. Il peut être utilisé pour imiter, avec plus ou moins de réalisme, des instruments de musique traditionnels, des bruits naturels ou encore pour créer des sonorités complètement originales. Les sonorités varient en fonction de la technique de synthèse sonore utilisée (tables d'ondes, échantillons, synthèse additive, synthèse soustractive, modulation de fréquence, modélisation physique, modulation de phase, synthèse granulaire).

Speech coding

Speech coding is an application of data compression to digital audio signals containing speech. Speech coding uses speech-specific parameter estimation using audio signal processing techniques to model the speech signal, combined with generic data compression algorithms to represent the resulting modeled parameters in a compact bitstream. Common applications of speech coding are mobile telephony and voice over IP (VoIP).

Jeu électronique

An electronic game is a game that uses electronics to create an interactive system with which a player can play. Video games are the most common form today, and for this reason the two terms are often used interchangeably. There are other common forms of electronic game including handheld electronic games, standalone systems (e.g. pinball, slot machines, or electro-mechanical arcade games), and exclusively non-visual products (e.g. audio games). Text-based game The earliest form of computer game to achieve any degree of mainstream use was the text-based Teletype game.

Réseau de neurones récurrents

Un réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.

Déficience visuelle

thumb|300px|Surface podotactile à la gare de Paris-Est Un déficient visuel est une personne dont l'acuité visuelle est faible (malvoyante), voire inférieure à 1/20 pour le meilleur œil après correction (aveugle). Selon l'organisation mondiale de la santé (OMS), il existe différentes causes : les défauts de réfraction non corrigés : myopie, astigmatisme, hypermétropie et presbytie ; la cataracte ; la dégénérescence maculaire liée à l’âge ; le glaucome ; la rétinopathie diabétique ; l’opacité de la cornée; le trachome.

Livre numérique

Le livre numérique (en ebook ou e-book), aussi connu sous les noms de livre électronique et de livrel, est un livre édité et diffusé en version numérique, disponible sous la forme de fichiers qui peuvent être téléchargés et stockés pour être lus sur un écran (ordinateur personnel, téléphone portable, liseuse, tablette tactile), sur une plage braille, un dispositif de lecture de livres audio, ou un navigateur.