Concept

Transformeur génératif pré-entraîné

Résumé
droite|vignette| Architecture du modèle GPT Le transformeur génératif pré-entraîné (ou GPT, de l’anglais generative pre-trained transformer) est une famille de modèles de langage généralement formée sur un grand corpus de données textuelles pour générer un texte de type humain. Il est construit en utilisant plusieurs blocs de l'architecture du transformeur. Ils peuvent être affinés pour diverses tâches de traitement du langage naturel telles que la génération de texte, la traduction de langue et la classification de texte. Le "pré-entrainement" dans son nom fait référence au processus de formation initial sur un grand corpus de texte où le modèle apprend à prédire le mot suivant dans un passage, ce qui fournit une base solide pour que le modèle fonctionne bien sur des tâches en aval avec des quantités limitées de données spécifiques à la tâche. ChatGPT (Chat Generative Pre-trained Transformer) est un chatbot lancé par OpenAI en novembre 2022. Il utilise et est affiné (une approche de l'apprentissage par transfert) avec des techniques d'apprentissage supervisé et par renforcement. BioGPT est un GPT qui se concentre sur la réponse aux questions biomédicales. Il est développé par Microsoft. ProtGPT2 est un GPT qui se concentre sur la conception de protéines. Le 11 juin 2018, OpenAI a publié un article intitulé Improving Language Understanding by Generative Pre-Training, dans lequel est présenté le Generative Pre-trained Transformer (GPT). À ce stade, les modèles de TAL neuronaux les plus performants utilisaient principalement l'apprentissage supervisé à partir de grandes quantités de données étiquetées manuellement. Cette dépendance à l'apprentissage supervisé a limité leur utilisation sur des ensembles de données qui n'étaient pas bien annotés, en plus de rendre excessivement coûteux et chronophage la formation de modèles extrêmement volumineux ; de nombreuses langues (telles que le swahili ou le créole haïtien ) sont difficiles à traduire et à interpréter à l'aide de tels modèles en raison d'un manque de texte disponible pour la construction de corpus.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.