Concept

Loi de Zipf

Résumé
La loi de Zipf est une observation empirique concernant la fréquence des mots dans un texte. Elle a pris le nom de son auteur, George Kingsley Zipf (1902-1950). Cette loi a d'abord été formulée par Jean-Baptiste Estoup et a été par la suite démontrée à partir de formules de Shannon par Benoît Mandelbrot. Elle est parfois utilisée en dehors de ce contexte, par exemple au sujet de la taille et du nombre des villes dans chaque pays, lorsque cette loi semble mieux répondre aux chiffres que la distribution de Pareto. vignette|Fréquence des mots en fonction du rang dans la version originale d'Ulysse de James Joyce. Zipf avait entrepris d'analyser une œuvre monumentale de James Joyce, Ulysse, d'en compter les mots distincts et de les présenter par ordre décroissant du nombre d'occurrences. La légende dit que : le mot le plus courant revenait ; le dixième mot 800 fois ; le centième, 80 fois ; et le millième, 8 fois. Ces résultats semblent, à la lumière d'autres études que l'on peut faire en quelques minutes sur son ordinateur, un peu trop précis pour être parfaitement exacts — le dixième mot dans une étude de ce genre devrait apparaître environ , en raison d'un effet de coude observé dans ce type de distribution. Il reste que la loi de Zipf prévoit que dans un texte donné, la fréquence d'occurrence f(n) d'un mot est liée à son rang n dans l'ordre des fréquences par une loi de la forme où K est une constante. Mathématiquement, il est impossible pour la version classique de la loi de Zipf d'affirmer exactement qu'il existe une infinité de mots dans une langue, puisque pour toute constante de proportionnalité c > 0, la somme de toutes les fréquences relatives est proportionnelle à la série harmonique et doit être Des observations citées par Léon Brillouin dans son livre Science et théorie de l'information suggérèrent qu'en anglais, les fréquences parmi les mots les plus fréquemment utilisés étaient approximativement proportionnels à avec s juste légèrement plus grand que 1. On sait toutefois que le nombre de mots d'une langue est limité.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.