Concept

Grand modèle de langage

Un grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus). Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé. Les LLM sont apparus vers 2018 et ont été utilisés pour la mise en œuvre d'agents conversationnels. Ils excellent également dans un large éventail de tâches. Au lieu d'être entraînés pour une tâche spécifique (telle que l'analyse des sentiments, la reconnaissance d'entités nommées ou le raisonnement mathématique), ils sont entraînés à prédire une suite probable à une entrée donnée. La qualité de leur sortie semble être fonction de la quantité des ressources (taille des paramètres, puissance de calcul, données) et de la qualité des données qui leur sont fournies. Les modèles de langage possédant un grand nombre de paramètres s'avèrent capable de capturer une grande partie de la syntaxe et de la sémantique du langage humain. Ils font également preuve d'une connaissance générale considérable sur le monde, et sont capables de « mémoriser » une grande quantité de faits lors de l'entraînement. Suite à leur succès, l'attention du champ de recherche sur le traitement du langage naturel change de l'entraînement de modèles supervisés spécialisés pour des tâches spécifiques aux LLMs. Les LLM sont pré-entraînés sur de grands ensembles de données textuelles comme Common Crawl, The Pile, MassiveText, Wikipedia ou GitHub. Ces ensembles de données contiennent jusqu'à de mots. Le stock de données linguistiques de haute qualité se situe entre 4,6 et de mots, soit un ordre de grandeur similaire à celui des plus grands ensembles de données textuelles disponibles.

Source officielle

https://fr.wikipedia.org/wiki/Grand_modèle_de_langage

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Grand modèle de langage

Graph Chatbot

Chattez avec Graph Search

Beyond fine-tuning: LoRA modules boost near-OOD detection and LLM security

Beyond fine-tuning: LoRA modules boost near-OOD detection and LLM security

Mapping Bibliotheca Hertziana

Beyond fine-tuning: LoRA modules boost near-OOD detection and LLM security

Mapping Bibliotheca Hertziana

Beyond fine-tuning: LoRA modules boost near-OOD detection and LLM security