Résumé
En statistique, l’estimation par noyau (ou encore méthode de Parzen-Rosenblatt ; en anglais, kernel density estimation ou KDE) est une méthode non-paramétrique d’estimation de la densité de probabilité d’une variable aléatoire. Elle se base sur un échantillon d’une population statistique et permet d’estimer la densité en tout point du support. En ce sens, cette méthode généralise astucieusement la méthode d’estimation par un histogramme. Si est un échantillon i.i.d. d'une variable aléatoire, alors l'estimateur non-paramétrique par la méthode du noyau de la densité est : où est un noyau (kernel en anglais) et un paramètre nommé fenêtre, qui régit le degré de lissage de l'estimation. Bien souvent, est choisi comme la densité d'une fonction gaussienne standard (espérance nulle et variance unitaire) : La méthode de Parzen est une généralisation de la méthode d'estimation par histogramme. Dans un histogramme, la densité en un point est estimée par la proportion d'observations qui se trouvent à proximité de . Pour cela, on trace une boîte en et dont la largeur est gouvernée par un paramètre de lissage ; on compte ensuite le nombre d'observations qui appartiennent à cette boîte. Cette estimation, qui dépend du paramètre de lissage , présente de bonnes propriétés statistiques mais est par construction non-continue. La méthode du noyau consiste à retrouver la continuité : pour cela, on remplace la boîte centrée en et de largeur par une gaussienne centrée en . Plus une observation est proche du point de support plus la courbe en cloche lui donnera une valeur numérique importante. À l'inverse, les observations trop éloignées de se voient affecter une valeur numérique négligeable. L'estimateur est formé par la somme (ou plutôt la moyenne) des courbes en cloche. Comme indiqué sur l'image suivante, il est clairement continu. La vitesse de convergence de l'erreur quadratique moyenne intégrée, n est plus faible que la vitesse typique des méthodes paramétriques, généralement n.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.