Synthèse vocaleLa synthèse vocale est une technique informatique de synthèse sonore qui permet de créer de la parole artificielle à partir de n'importe quel texte. Pour obtenir ce résultat, elle s'appuie à la fois sur des techniques de traitement linguistique, notamment pour transformer le texte orthographique en une version phonétique prononçable sans ambiguïté, et sur des techniques de traitement du signal pour transformer cette version phonétique en son numérisé écoutable sur un haut parleur.
Traitement de la paroleLe traitement de la parole est une discipline technologique dont l'objectif est la captation, la transmission, l'identification et la synthèse de la parole. Dans ce domaine, on peut définir la parole comme un texte oral. On s'intéresse à l'intelligibilité, c'est-à-dire à la possibilité, pour la personne qui écoute, de comprendre sans erreur le texte émis ; à l'amélioration de l'intelligibilité quand le signal est dégradé ; à l'identification de la personne qui parle ; à l'établissement automatique d'un texte écrit à partir de la parole ; à la synthèse de la parole à partir d'un texte écrit.
LinguistiqueLa linguistique est une discipline scientifique s’intéressant à l’étude du langage. Elle n'est pas prescriptive mais descriptive. La prescription correspond à la norme, c'est-à-dire ce qui est jugé correct linguistiquement par les grammairiens. À l'inverse, la linguistique se contente de décrire la langue telle qu'elle est et non telle qu'elle devrait être. On trouve des témoignages de réflexions sur le langage dès l'Antiquité avec des philosophes comme Platon.
Compétence et performanceL'opposition théorique entre compétence et performance est une hypothèse de Noam Chomsky dans le cadre de la linguistique générative. Publiée initialement en 1965 dans Aspects de la théorie syntaxique, elle procède d'une réinterprétation de « l’opposition saussurienne de la langue et de la parole » et est devenue un concept classique du discours linguistique général. Elle différencie chez les générativistes la capacité de construire et reconnaître l'ensemble des énoncés grammaticalement corrects d'une part (compétence) et l'ensemble des énoncés produits d'autre part (performance).
Apprentissage profondL'apprentissage profond ou apprentissage en profondeur (en anglais : deep learning, deep structured learning, hierarchical learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux pour résoudre des tâches complexes grâce à des architectures articulées de différentes transformations non linéaires. Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage.
PerceptionLa perception est l'activité par laquelle un sujet fait l'expérience d'objets ou de propriétés présents dans son environnement. Cette activité repose habituellement sur des informations fournies par ses sens. Chez l'espèce humaine, la perception est aussi liée aux mécanismes de cognition. Le mot « perception » désigne : soit le processus de recueil et de traitement de l'information sensorielle ou sensible (en psychologie cognitive par exemple) ; soit la prise de conscience qui en résulte (en philosophie de la perception notamment).
Réseau de neurones récurrentsUn réseau de neurones récurrents (RNN pour recurrent neural network en anglais) est un réseau de neurones artificiels présentant des connexions récurrentes. Un réseau de neurones récurrents est constitué d'unités (neurones) interconnectées interagissant non-linéairement et pour lequel il existe au moins un cycle dans la structure. Les unités sont reliées par des arcs (synapses) qui possèdent un poids. La sortie d'un neurone est une combinaison non linéaire de ses entrées.
Réseau neuronal convolutifEn apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel.
Signal électriquevignette|Signaux électriques sur l'écran d'un oscilloscope : signal rectanglaire (haut), signal harmonique ou sinusoïdal (bas). Un signal électrique est une grandeur électrique dont la variation dans le temps transporte une information, d'une source à une destination. La grandeur électrique que l'on considère pour la transmission et le traitement du signal peut être directement la différence de potentiel ou l'intensité d'un courant électrique ; ou bien une modulation de l'amplitude, de la fréquence ou de la phase d'une variation périodique de ces grandeurs, qu'on appelle porteuse ; dans les communications numériques par modem des règles complexes régissent la modulation afin d'occuper au mieux la largeur de bande allouée.
Fonction de base radialeUne fonction de base radiale est une fonction à valeurs réelles dont la valeur ne dépend que de la distance séparant son paramètre d'entrée à un autre point donné, communément appelé origine ou centre de la fonction. Toute fonction qui vérifie l'égalité est une fonction de base radiale. La norme utilisée correspond à la distance euclidienne, d'autres métriques peuvent cependant être utilisées.