Un grand modèle de langage, grand modèle linguistique, grand modèle de langue, modèle massif de langage ou encore modèle de langage de grande taille (LLM, pour l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre du milliard de poids ou plus).
Ce sont des réseaux de neurones profonds entraînés sur de grandes quantités de texte non étiqueté utilisant l'apprentissage auto-supervisé ou l'apprentissage semi-supervisé. Les LLM sont apparus vers 2018 et ont été utilisés pour la mise en œuvre d'agents conversationnels.
Ils excellent également dans un large éventail de tâches. Au lieu d'être entraînés pour une tâche spécifique (telle que l'analyse des sentiments, la reconnaissance d'entités nommées ou le raisonnement mathématique), ils sont entraînés à prédire une suite probable à une entrée donnée. La qualité de leur sortie semble être fonction de la quantité des ressources (taille des paramètres, puissance de calcul, données) et de la qualité des données qui leur sont fournies.
Les modèles de langage possédant un grand nombre de paramètres s'avèrent capable de capturer une grande partie de la syntaxe et de la sémantique du langage humain. Ils font également preuve d'une connaissance générale considérable sur le monde, et sont capables de « mémoriser » une grande quantité de faits lors de l'entraînement.
Suite à leur succès, l'attention du champ de recherche sur le traitement du langage naturel change de l'entraînement de modèles supervisés spécialisés pour des tâches spécifiques aux LLMs.
Les LLM sont pré-entraînés sur de grands ensembles de données textuelles comme Common Crawl, The Pile, MassiveText, Wikipedia ou GitHub. Ces ensembles de données contiennent jusqu'à de mots.
Le stock de données linguistiques de haute qualité se situe entre 4,6 et de mots, soit un ordre de grandeur similaire à celui des plus grands ensembles de données textuelles disponibles.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
The Deep Learning for NLP course provides an overview of neural network based methods applied to text. The focus is on models particularly suited to the properties of human language, such as categori
Natural language processing is ubiquitous in modern intelligent technologies, serving as a foundation for language translators, virtual assistants, search engines, and many more. In this course, stude
This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.
Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé ). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT et GPT-3.
ChatGPT () est un prototype d'agent conversationnel utilisant l'intelligence artificielle, développé par OpenAI et spécialisé dans le dialogue. L'agent conversationnel de ChatGPT repose sur les technologies du traitement automatique des langues (NLP), des grands modèles de langage (LLM) et des chatbots. Il est issu du modèle de langage GPT d'OpenAI, et est affiné en continu grâce à l'utilisation de techniques d'apprentissage supervisé et d'apprentissage par renforcement.
Dans le domaine de l’intelligence artificielle, une hallucination est une réponse manifestement fausse qui est présentée comme un fait certain. Par exemple, un chatbot qui invente un chiffre d’affaires pour une entreprise sans avoir de données à ce sujet. Ce phénomène est appelé « hallucination » par analogie avec le phénomène de l’hallucination en psychologie humaine. Le terme hallucination en intelligence artificielle a pris de l'importance vers 2022 parallèlement au déploiement des modèles de langage basés sur l'apprentissage profond tels que ChatGPT.
Explore les modèles de préformation comme BERT, T5 et GPT, en discutant de leurs objectifs de formation et de leurs applications dans le traitement des langues naturelles.
The project introduces an innovative visual method for analysing libraries and archives, with a focus on Bibliotheca Hertziana’s library collection. This collection, which dates back over a century, is examined by integrating user loan data with deep mappi ...
2024
, , ,
Under resource constraints, LLMs are usually fine-tuned with additional knowledge using Parameter Efficient Fine-Tuning (PEFT), using Low-Rank Adaptation (LoRA) modules. In fact, LoRA injects a new set of small trainable matrices to adapt an LLM to a new t ...
2024
, , ,
Under resource constraints, LLMs are usually fine- tuned with additional knowledge using Parameter Efficient Fine-Tuning (PEFT), using Low-Rank Adaptation (LoRA) modules. In fact, LoRA injects a new set of small trainable matrices to adapt an LLM to a new ...