Density estimationIn statistics, probability density estimation or simply density estimation is the construction of an estimate, based on observed data, of an unobservable underlying probability density function. The unobservable density function is thought of as the density according to which a large population is distributed; the data are usually thought of as a random sample from that population. A variety of approaches to density estimation are used, including Parzen windows and a range of data clustering techniques, including vector quantization.
Estimation par noyauEn statistique, l’estimation par noyau (ou encore méthode de Parzen-Rosenblatt ; en anglais, kernel density estimation ou KDE) est une méthode non-paramétrique d’estimation de la densité de probabilité d’une variable aléatoire. Elle se base sur un échantillon d’une population statistique et permet d’estimer la densité en tout point du support. En ce sens, cette méthode généralise astucieusement la méthode d’estimation par un histogramme. Si est un échantillon i.i.d.
Combinaison linéaireEn mathématiques, une combinaison linéaire est une expression construite à partir d'un ensemble de termes en multipliant chaque terme par une constante et en ajoutant le résultat. Par exemple, une combinaison linéaire de x et y serait une expression de la forme ax + by, où a et b sont des constantes. Le concept de combinaison linéaire est central en algèbre linéaire et dans des domaines connexes des mathématiques. La majeure partie de cet article traite des combinaisons linéaires dans le contexte d'espace vectoriel sur un corps commutatif, et indique quelques généralisations à la fin de l'article.
Variable aléatoire à densitéEn théorie des probabilités, une variable aléatoire à densité est une variable aléatoire réelle, scalaire ou vectorielle, pour laquelle la probabilité d'appartenance à un domaine se calcule à l'aide d'une intégrale sur ce domaine. La fonction à intégrer est alors appelée « fonction de densité » ou « densité de probabilité », égale (dans le cas réel) à la dérivée de la fonction de répartition. Les densités de probabilité sont les fonctions essentiellement positives et intégrables d'intégrale 1.
Astuce du noyauEn apprentissage automatique, l'astuce du noyau, ou kernel trick en anglais, est une méthode qui permet d'utiliser un classifieur linéaire pour résoudre un problème non linéaire. L'idée est de transformer l'espace de représentation des données d'entrées en un espace de plus grande dimension, où un classifieur linéaire peut être utilisé et obtenir de bonnes performances. La discrimination linéaire dans l'espace de grande dimension (appelé aussi espace de redescription) est équivalente à une discrimination non linéaire dans l'espace d'origine.
Noyau (statistiques)Un noyau est une fonction de pondération utilisée dans les techniques d'estimation non-paramétrique. Les noyaux interviennent dans l'estimateur par noyau pour estimer la densité de probabilité d'une variable aléatoire, ou encore dans la régression paramétrique (à noyau) pour estimer des espérances conditionnelles. Pour les séries temporelles, le noyau permet d'estimer la densité spectrale. Un noyau est une fonction positive, intégrable et à valeurs réelles, notée K, qui doit vérifier les deux conditions suivantes : normalisation : symétrie : pour toutes les valeurs de u.
Asymptotic theory (statistics)In statistics, asymptotic theory, or large sample theory, is a framework for assessing properties of estimators and statistical tests. Within this framework, it is often assumed that the sample size n may grow indefinitely; the properties of estimators and tests are then evaluated under the limit of n → ∞. In practice, a limit evaluation is considered to be approximately valid for large finite sample sizes too. Most statistical problems begin with a dataset of size n.
Variables indépendantes et identiquement distribuéesvignette|upright=1.5|alt=nuage de points|Ce nuage de points représente 500 valeurs aléatoires iid simulées informatiquement. L'ordonnée d'un point est la valeur simulée suivante, dans la liste des 500 valeurs, de la valeur simulée pour l'abscisse du point. En théorie des probabilités et en statistique, des variables indépendantes et identiquement distribuées sont des variables aléatoires qui suivent toutes la même loi de probabilité et sont indépendantes. On dit que ce sont des variables aléatoires iid ou plus simplement des variables iid.
Fonction de masse (probabilités)En théorie des probabilités, la fonction de masse est la fonction qui donne la probabilité de chaque issue ( résultat élémentaire) d'une expérience aléatoire. C'est souvent ainsi que l'on définit une loi de probabilité discrète. Elle se distingue de la fonction de densité, de la densité de probabilité, en ceci que les densités de probabilité ne sont définies que pour des variables aléatoires absolument continues, et que ce sont leurs intégrales sur des domaines qui ont valeurs de probabilités (et non leurs valeurs en des points).
Sous-espace vectoriel engendréDans un espace vectoriel E, le sous-espace vectoriel engendré par une partie A de E est le plus petit sous-espace vectoriel de E contenant A. C'est aussi l'ensemble des combinaisons linéaires de vecteurs de A. Le sous-espace vectoriel engendré par une famille de vecteurs est le plus petit sous-espace contenant tous les vecteurs de cette famille. Une famille de vecteurs ou une partie est dite génératrice de E si le sous-espace qu'elle engendre est l'espace entier E.