La loi de Zipf est une observation empirique concernant la fréquence des mots dans un texte. Elle a pris le nom de son auteur, George Kingsley Zipf (1902-1950). Cette loi a d'abord été formulée par Jean-Baptiste Estoup et a été par la suite démontrée à partir de formules de Shannon par Benoît Mandelbrot. Elle est parfois utilisée en dehors de ce contexte, par exemple au sujet de la taille et du nombre des villes dans chaque pays, lorsque cette loi semble mieux répondre aux chiffres que la distribution de Pareto.
vignette|Fréquence des mots en fonction du rang dans la version originale d'Ulysse de James Joyce.
Zipf avait entrepris d'analyser une œuvre monumentale de James Joyce, Ulysse, d'en compter les mots distincts et de les présenter par ordre décroissant du nombre d'occurrences. La légende dit que :
le mot le plus courant revenait ;
le dixième mot 800 fois ;
le centième, 80 fois ;
et le millième, 8 fois.
Ces résultats semblent, à la lumière d'autres études que l'on peut faire en quelques minutes sur son ordinateur, un peu trop précis pour être parfaitement exacts — le dixième mot dans une étude de ce genre devrait apparaître environ , en raison d'un effet de coude observé dans ce type de distribution. Il reste que la loi de Zipf prévoit que dans un texte donné, la fréquence d'occurrence f(n) d'un mot est liée à son rang n dans l'ordre des fréquences par une loi de la forme
où K est une constante.
Mathématiquement, il est impossible pour la version classique de la loi de Zipf d'affirmer exactement qu'il existe une infinité de mots dans une langue, puisque pour toute constante de proportionnalité c > 0, la somme de toutes les fréquences relatives est proportionnelle à la série harmonique et doit être
Des observations citées par Léon Brillouin dans son livre Science et théorie de l'information suggérèrent qu'en anglais, les fréquences parmi les mots les plus fréquemment utilisés étaient approximativement proportionnels à avec s juste légèrement plus grand que 1. On sait toutefois que le nombre de mots d'une langue est limité.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
This course teaches the basic techniques, methodologies, and practical skills required to draw meaningful insights from a variety of data, with the help of the most acclaimed software tools in the dat
La loi de puissance est une relation mathématique entre deux quantités. Si une quantité est la fréquence d'un évènement et l'autre est la taille d'un évènement, alors la relation est une distribution de la loi de puissance si les fréquences diminuent très lentement lorsque la taille de l'évènement augmente. En science, une loi de puissance est une relation entre deux quantités x et y qui peut s'écrire de la façon suivante : où a est une constante dite constante de proportionnalité, k, valeur négative, est une autre constante, dite exposant, puissance, indice ou encore degré de la loi et x nombre réel strictement positif.
Le principe de Pareto, aussi appelé loi de Pareto, principe des 80-20 ou encore loi des 80-20, est une observation selon laquelle environ 80 % des effets sont le produit de seulement 20 % des causes. Les phénomènes qui illustrent ce principe suivent une distribution de Pareto. Le principe de Pareto doit son nom à l'économiste italien Vilfredo Pareto, qui à la fin du analyse les données fiscales de l'Angleterre, la Russie, la France, la Suisse, l'Italie et la Prusse.
En théorie des probabilités, la loi de Pareto, d'après Vilfredo Pareto, est un type particulier de loi de puissance qui a des applications en sciences physiques et sociales. Elle permet notamment de donner une base théorique au « principe des 80-20 », aussi appelé principe de Pareto. Soit la variable aléatoire X qui suit une loi de Pareto de paramètres (x,k), avec k un réel positif, alors la loi est caractérisée par : Les lois de Pareto sont des lois continues.
Introduit des statistiques descriptives, des tests d'hypothèses, des valeurs p et des intervalles de confiance, soulignant leur importance dans l'analyse des données.
Explore les défis de la manipulation massive des données à l'ère du big data, en discutant de solutions comme MapReduce et Spark.
Explore les distributions à queue lourde, l'estimateur de la colline, la convergence vers la gaussienne et la comparaison des distributions.
, ,
We propose a new modelling approach for daily activity scheduling which integrates the different daily scheduling choice dimensions (activity participation, location, schedule, duration and transportation mode) into a single optimisation problem. The funda ...
We show that the IceCube observation of the Galactic neutrino-flux component confirms the hint of detection of neutrinos from the Galactic ridge (the inner part of the Milky Way disk within the Galactic longitude IlI < 30(degrees)), previously reported by ...
This work extends the range of pathways for the production of metallic microcomponents by downscaling metal casting. This is accomplished by using either of two different molding techniques, namely femtosecond laser micromachining or lithographic silicon m ...