Grand modèle de langageUn grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus). Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé.
Rétropropagation du gradientEn intelligence artificielle, plus précisément en apprentissage automatique, la rétropropagation du gradient est une méthode pour entraîner un réseau de neurones. Elle consiste à mettre à jour les poids de chaque neurone de la dernière couche vers la première. Elle vise à corriger les erreurs selon l'importance de la contribution de chaque élément à celles-ci. Dans le cas des réseaux de neurones, les poids synaptiques qui contribuent plus à une erreur seront modifiés de manière plus importante que les poids qui provoquent une erreur marginale.
Régularisation (mathématiques)vignette|Les courbes bleues et vertes correspondent à deux modèles differents, tous les deux étant des solutions possibles du problème consistant à décrire les coordonnées de tous les points rouges. L'application d'une régularisation favorise le modèle moins complexe correspondant à la courbe verte. Dans le domaine des mathématiques et des statistiques, et plus particulièrement dans le domaine de l'apprentissage automatique, la régularisation fait référence à un processus consistant à ajouter de l'information à un problème, s'il est mal posé ou pour éviter le surapprentissage.
Recherche automatique d'architecture neuronaleLa recherche automatique d'architecture neuronale (Neural Architecture Search, NAS) est un ensemble de techniques visant à découvrir automatiquement de nouveaux modèles de réseaux de neurones artificiels. Les principales méthodes employées dans la littérature sont basées soit sur de l'apprentissage par renforcement, sur de la descente de gradient ou bien sur des algorithmes génétiques. Plusieurs méthodes NAS parviennent à obtenir des architectures qui atteignent ou surpassent les performances des modèles créés à la main.
Apprentissage superviséL'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
Réseau de neurones à impulsionsLes réseaux de neurones à impulsions (SNNs : Spiking Neural Networks, en anglais) sont un raffinement des réseaux de neurones artificiels (ANNs : Artificial Neural Networks, en anglais) où l’échange entre neurones repose sur l’intégration des impulsions et la redescente de l’activation, à l’instar des neurones naturels. L’encodage est donc temporel et binaire. Le caractère binaire pose une difficulté de continuité au sens mathématique (cela empêche notamment l’utilisation des techniques de rétropropagation des coefficients - telle que la descente de gradient - utilisées classiquement dans les méthodes d'apprentissage).
OligocèneL’Oligocène est une époque géologique qui s’étend de 33,9 ± 0,1 à 23,03 ± 0,05 millions d'années. Elle suit l’Éocène après la Grande Coupure, et précède le Miocène. C’est la troisième époque de l’ère Cénozoïque et aussi la troisième du Paléogène. Le nom de l'Oligocène, défini par l'Allemand Heinrich Ernst Beyrich dérive du ὀλίγος (oligos, peu) et καινός (kainos, nouveau), en référence à la rareté d’apparition de nouveaux groupes de mammifères durant cette époque, en comparaison de leur rapide radiation évolutive durant l'Éocène.
Regularized least squaresRegularized least squares (RLS) is a family of methods for solving the least-squares problem while using regularization to further constrain the resulting solution. RLS is used for two main reasons. The first comes up when the number of variables in the linear system exceeds the number of observations. In such settings, the ordinary least-squares problem is ill-posed and is therefore impossible to fit because the associated optimization problem has infinitely many solutions.
Stability (learning theory)Stability, also known as algorithmic stability, is a notion in computational learning theory of how a machine learning algorithm output is changed with small perturbations to its inputs. A stable learning algorithm is one for which the prediction does not change much when the training data is modified slightly. For instance, consider a machine learning algorithm that is being trained to recognize handwritten letters of the alphabet, using 1000 examples of handwritten letters and their labels ("A" to "Z") as a training set.
PléistocèneLe Pléistocène est la première époque géologique du Quaternaire et l'avant-dernière sur l'échelle des temps géologiques. Elle s'étend de d'années à avant le présent. Elle est précédée par le Pliocène et suivie par l'Holocène. Le Pléistocène est marqué par les cycles glaciaires. Sa fin correspond plus ou moins à celle du Paléolithique. Le terme de géologie pléistocène est formé de deux étymons grecs πλεῖστος, pleîstos, (superlatif de πολυς, polus « nombreux ») et de καινός, kainós, « nouveau, récent » (le premier en français donne pléisto et le second cène), sans allusion à ce qui est le plus nombreux ni à ce qui est récent.