En traitement automatique des langues, un modèle de langage ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots.
Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents. Un modèle bigramme considère un mot précédent, un modèle trigramme en considère deux, et en général, un modèle n-gramme considère n-1 mots du contexte précédent.
Les modèles n-grammes ne sont plus couramment utilisés dans la recherche et les applications du traitement du langage naturel, car ils ont été supplantés par l'état de l'art méthodes d'apprentissage en profondeur, plus récemment grand modèle de langages.
Un modèle de langage de grande taille (large language model) ou LLM en anglais) s'appuie sur de vastes corpus de textes de diverses sources, tels que livres, articles de presse, pages Web, forums, réseaux sociaux, etc. pour prédire, à partir d'un mot donné, les mots et les phrases suivants dans un texte.
Les LLMs sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions. Parmi les exemples de LLMs les plus connus, on peut citer GPT-3 et GPT-4 de OpenAI et BERT de Google.
Les LLMs sont utilisés pour une variété de tâches, telles que la génération de texte, la traduction automatique, la classification de texte et la réponse aux questions.
Plus précisement, Solaiman, I. et al. rapportent des usages dits bénéfiques dans une grande variété de domaines. Ils ressortent :
remet en cause la pertinence des énormes modèles de langage préentraînés.