Résumé
En traitement automatique des langues, un modèle de langage ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots. Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents. Un modèle bigramme considère un mot précédent, un modèle trigramme en considère deux, et en général, un modèle n-gramme considère n-1 mots du contexte précédent. Les modèles n-grammes ne sont plus couramment utilisés dans la recherche et les applications du traitement du langage naturel, car ils ont été supplantés par l'état de l'art méthodes d'apprentissage en profondeur, plus récemment grand modèle de langages. Un modèle de langage de grande taille (large language model) ou LLM en anglais) s'appuie sur de vastes corpus de textes de diverses sources, tels que livres, articles de presse, pages Web, forums, réseaux sociaux, etc. pour prédire, à partir d'un mot donné, les mots et les phrases suivants dans un texte. Les LLMs sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions. Parmi les exemples de LLMs les plus connus, on peut citer GPT-3 et GPT-4 de OpenAI et BERT de Google. Les LLMs sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions. Plus précisement, Solaiman, I. et al. rapportent des usages dits bénéfiques dans une grande variété de domaines. Ils ressortent : remet en cause la pertinence des énormes modèles de langage préentraînés.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (22)
CS-423: Distributed information systems
This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.
EE-608: Deep Learning For Natural Language Processing
The Deep Learning for NLP course provides an overview of neural network based methods applied to text. The focus is on models particularly suited to the properties of human language, such as categori
EE-724: Human language technology: applications to information access
The Human Language Technology (HLT) course introduces methods and applications for language processing and generation, using statistical learning and neural networks.
Afficher plus