Résumé
Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple « par exemple ») il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille . Cette modélisation correspond en fait à un modèle de Markov d'ordre où seules les dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2. À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « de », comme dans l'article « de », mais aussi comme dans les mots « demain », « monde » ou « moderne ». En traitement du langage naturel il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres. À partir du (court) corpus « par exemple », nous obtenons : Pas d'historique (unigramme) : p : 2 occurrences sur 10 lettres = 1/10 ; e : 3 occurrences sur 10 lettres = 3/10 ; x : 1 occurrence sur 10 lettres = 1/10 ; La somme des probabilités étant nécessairement égale à 1. Historique de taille 1 (on considère la lettre et un successeur) : p-a : 1 occurrence sur 9 couples = 1/9 ; p-l : 1 occurrence sur 9 couples = 1/9 ; p-e : 0 occurrence sur 9 couples = 0 ; La somme des probabilités étant toujours nécessairement égale à 1. Nous obtenons des probabilités conditionnelles nous permettant de connaître, à partir d'une sous-séquence, la probabilité de la sous-séquence suivante. Dans notre exemple, est la probabilité d'apparition de l'élément a sachant que l'élément p est apparu. Les N-grammes sont beaucoup utilisés en traitement automatique du langage naturel mais aussi en traitement du signal. Leur utilisation repose sur l'hypothèse simplificatrice que, étant donné une séquence de k éléments () la probabilité de l'apparition d'un élément en position i ne dépend que des n-1 éléments précédents.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.