En statistique, la distance de Cook est couramment utilisée pour estimer l'influence d'une donnée lors de l'utilisation de méthodes des moindres carrés.
Dans le cas général, de l'utilisation de la méthode des moindres carrés, la distance de Cook peut être utilisée de plusieurs façons : pour indiquer les données qu'il serait intéressant de vérifier; pour indiquer les régions de l'espace de conception où il serait bon d'être en mesure d'obtenir plus de points de données. Ce nom vient du statisticien américain R. Dennis Cook, qui a introduit le concept en 1977.
La distance de Cook mesure l'effet de la suppression d'une donnée. Les données avec d'importants résidus (Données aberrantes) et/ou fort effet de levier peuvent fausser le résultat et la précision d'une régression. Les points ayant une distance de Cook importante sont considérées comme méritant un examen plus approfondi dans l'analyse. Pour l'expression algébrique, il faut définir d'abord :
comme une matrice de projection (matrice de projection des observations de chaque variable explicative). Ensuite, nous avons , qui est l'estimation MCO de qui résulte de l'omission de la -ème observation (). Ensuite, nous avons :
où est le résidu (i.e. la différence entre la valeur observée et la valeur ajustée par le modèle proposé) pour l'individu , et , défini comme :
est l'influence, i.e., le -ème élément de la diagonale de . Avec cela, nous pouvons définir la distance de Cook comme :
où est le nombre de paramètres ajustés, et est l'erreur quadratique moyenne du modèle de régression. L'expression suivante est algébriquement équivalente :
où est l'estimateur MCO de la variance du terme d'erreur, défini comme :
Et une troisième expression équivalente est :
où :
est la prédiction du modèle de régression complète pour l'observation j ;
est la prédiction pour l'observation j à partir d'un modèle de régression ajustée dans lequel l'observation i a été omise.
Il y a des opinions différentes au sujet de quel seuil les valeurs à utiliser pour repérer des points sont très influents.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
In statistics and in particular in regression analysis, leverage is a measure of how far away the independent variable values of an observation are from those of the other observations. High-leverage points, if any, are outliers with respect to the independent variables. That is, high-leverage points have no neighboring points in space, where is the number of independent variables in a regression model. This makes the fitted model likely to pass close to a high leverage observation.
In statistics, the projection matrix , sometimes also called the influence matrix or hat matrix , maps the vector of response values (dependent variable values) to the vector of fitted values (or predicted values). It describes the influence each response value has on each fitted value. The diagonal elements of the projection matrix are the leverages, which describe the influence each response value has on the fitted value for that same observation.
In statistics, an influential observation is an observation for a statistical calculation whose deletion from the dataset would noticeably change the result of the calculation. In particular, in regression analysis an influential observation is one whose deletion has a large effect on the parameter estimates. Various methods have been proposed for measuring influence. Assume an estimated regression , where is an n×1 column vector for the response variable, is the n×k design matrix of explanatory variables (including a constant), is the n×1 residual vector, and is a k×1 vector of estimates of some population parameter .
Explore les observations aberrantes, les effets de levier et les influences dans les modèles statistiques, y compris les méthodes de détection et d'évaluation.
Explore les régressions OLS pour les prix des maisons, couvrant les valeurs aberrantes, les observations influentes, les spécifications du modèle et les stratégies de sélection.
Throughout history, the pace of knowledge and information sharing has evolved into an unthinkable speed and media. At the end of the XVII century, in Europe, the ideas that would shape the "Age of Enlightenment" were slowly being developed in coffeehouses, ...
EPFL2024
True climate neutrality for global aviation requires sufficiency and a massive reduction in flights, as shown in literature (doi.org/10.3390/jrfm15110505). Systems thinking, leverage points, and action levers show how less flights can lead to higher wellbe ...
2023
, ,
The recent geopolitical conflicts in Europe have underscored the vulnerability of the current energy system to the volatility of energy carrier prices. In the prospect of defining robust energy systems ensuring sustainable energy supply in the future, the ...