Le quartet d'Anscombe est constitué de quatre ensembles de données qui ont les mêmes propriétés statistiques simples mais qui sont en réalité très différents, ce qui se voit facilement lorsqu'on les représente sous forme de graphiques. Ils ont été construits en 1973 par le statisticien Francis Anscombe dans le but de démontrer l'importance de tracer des graphiques avant d'analyser des données, car cela permet notamment d'estimer l'incidence des données aberrantes sur les différentes indices statistiques que l'on pourrait calculer.
Dans la première page du premier chapitre de son ouvrage, The Visual Display of Quantitative Information, Edward Tufte utilise le quartet d'Anscombe pour démontrer l'importance de l'exploration graphique avant d'analyser un ensemble de données
Chaque ensemble de données contient 11 points. Les quatre ensembles présentent ces propriétés :
Le premier ensemble (en haut à gauche) présente deux variables (x et y) dont la distribution semble proche d'une loi normale et qui présentent entre elles une simple corrélation linéaire (avec un certain degré de bruit qui la rend donc imparfaite).
Le deuxième (en haut à droite) se caractérise par une relation non linéaire (en l'occurrence parfaitement quadratique) entre les deux variables : pour cette raison, les coefficients de corrélation de Pearson sont inappropriés car ils mesurent l'écart à une droite de régression et non à une parabole.
Dans le troisième ensemble (en bas à gauche), la corrélation linéaire est parfaite (avec une pente légèrement inférieure à 3) sauf pour une donnée aberrante qui influe sur le coefficient de corrélation global, le faisant passer de 1 (pour les 10 premières données) à 0,81 (pour les 11 données).
Finalement, le quatrième ensemble (en bas à droite) démontre qu'une seule donnée aberrante suffit pour obtenir un coefficient de corrélation élevé, alors même que, hormis cette , il n'existe pas de corrélation entre les deux variables puisque la variable x est constante.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Le quartet d'Anscombe est constitué de quatre ensembles de données qui ont les mêmes propriétés statistiques simples mais qui sont en réalité très différents, ce qui se voit facilement lorsqu'on les représente sous forme de graphiques. Ils ont été construits en 1973 par le statisticien Francis Anscombe dans le but de démontrer l'importance de tracer des graphiques avant d'analyser des données, car cela permet notamment d'estimer l'incidence des données aberrantes sur les différentes indices statistiques que l'on pourrait calculer.
En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
In statistics, regression validation is the process of deciding whether the numerical results quantifying hypothesized relationships between variables, obtained from regression analysis, are acceptable as descriptions of the data. The validation process can involve analyzing the goodness of fit of the regression, analyzing whether the regression residuals are random, and checking whether the model's predictive performance deteriorates substantially when applied to data that were not used in model estimation.
An overview course intended for scientists and engineers who need to use statistical methods as part of their research, who have already attended a course at the second-year EPFL undergraduate level,
Explore les fondamentaux de la régression linéaire, les problèmes de régression non linéaire et la bonté de l'ajustement au carré R, avec des exemples tels que le quatuor d'Anscombe et l'ensemble de données Datasaurus.