En statistiques, le théorème de Gauss–Markov, nommé ainsi d'après Carl Friedrich Gauss et Andrei Markov, énonce que dans un modèle linéaire dans lequel les erreurs ont une espérance nulle, sont non corrélées et dont les variances sont égales, le meilleur estimateur linéaire non biaisé des coefficients est l'estimateur des moindres carrés.
Plus généralement, le meilleur estimateur linéaire non biaisé d'une combinaison linéaire des coefficients est son estimateur par les moindres carrés. On ne suppose pas que les erreurs possèdent une loi normale, ni qu'elles sont indépendantes (seulement non corrélées), ni qu'elles possèdent la même loi de probabilité.
Plus explicitement, supposons que l'on ait :
pour i = 1, . . ., n, où β0 et β1 sont des paramètres qui ne sont pas aléatoires mais non-observables, xi sont des variables connues, εi sont aléatoires, et donc Yi sont des variables aléatoires. Posons x en minuscule, s'agissant d'une observation ; et Y en majuscule car il s'agit d'une variable aléatoire. Les variables aléatoires εi sont appelées erreurs.
En pratique, il peut y avoir plus de deux variables explicatives (les x plus haut) et on a généralement recours à une écriture matricielle plus concise :
avec et de dimension n × 1, de dimension k × 1, et enfin de dimension n × k.
Le théorème de Gauss–Markov se base sur des hypothèses sur l'espérance et la matrice de variance-covariance des aléas ε :
(c'est-à-dire que toutes les erreurs ont la même variance : on parle d'homoscédasticité) et
pour ; ce qui traduit la non-corrélation.
Matriciellement, les hypothèses se traduisent ainsi :
où la matrice est la matrice identité n × n.
Un estimateur linéaire de βj est une combinaison linéaire des données observées :
dans laquelle les coefficients ci ne dépendent pas des précédents coefficients βi, car ceux-ci ne sont pas observables, mais peuvent dépendre de xi, car il s'agit de variables connues.
Lerreur moyenne quadratique d'un tel estimateur est :
c'est-à-dire, l'espérance du carré de la différence entre l'estimateur et le paramètre à estimer.