En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
En statistique ou en épidémiologie, un biais est une démarche ou un procédé qui engendre des erreurs dans les résultats d'une étude. Formellement, le biais de l'estimateur d'un paramètre est la différence entre la valeur de l'espérance de cet estimateur (qui est une variable aléatoire) et la valeur qu'il est censé estimer (définie et fixe). biais effet-centre biais de vérification (work-up biais) biais d'autosélection, estimé à 27 % des travaux d'écologie entre 1960 et 1984 par le professeur de biologie américain Stuart H.
En mathématiques, la régression recouvre plusieurs méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. Par extension, le terme est aussi utilisé pour certaines méthodes d’ajustement de courbe. En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.
L'apprentissage automatique (en anglais : machine learning, « apprentissage machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.
In statistics and optimization, errors and residuals are two closely related and easily confused measures of the deviation of an observed value of an element of a statistical sample from its "true value" (not necessarily observable). The error of an observation is the deviation of the observed value from the true value of a quantity of interest (for example, a population mean). The residual is the difference between the observed value and the estimated value of the quantity of interest (for example, a sample mean).
En statistique, lefficacité est une mesure de la qualité d'un estimateur, d'une expérimentation ou d'un test statistique. Elle permet d'évaluer le nombre d'observations nécessaires pour atteindre un seuil : plus un estimateur est efficace, plus l'échantillon d'observations nécessaire pour atteindre un objectif de précision sera petit. Lefficacité relative de deux procédures est le rapport de leurs efficacités, bien que le concept soit plus utilisé pour le rapport de l'efficacité d'une procédure donnée et d'une procédure théorique optimale.
vignette|Graphique d'une régression linéaire La méthode des moindres carrés ordinaire (MCO) est le nom technique de la régression mathématique en statistiques, et plus particulièrement de la régression linéaire. Il s'agit d'un modèle couramment utilisé en économétrie. Il s'agit d'ajuster un nuage de points selon une relation linéaire, prenant la forme de la relation matricielle , où est un terme d'erreur.
La racine de l'erreur quadratique moyenne (REQM) ou racine de l'écart quadratique moyen (en anglais, root-mean-square error ou RMSE, et root-mean-square deviation ou RMSD) est une mesure fréquemment utilisée des différences entre les valeurs (valeurs d'échantillon ou de population) prédites par un modèle ou estimateur et les valeurs observées (ou vraies valeurs). La REQM représente la racine carrée du deuxième moment d'échantillonnage des différences entre les valeurs prédites et les valeurs observées.
vignette|Exemple d'échantillons pour deux populations ayant la même moyenne mais des variances différentes. La population en rouge a une moyenne de 100 et une variance de 100 (écart-type = SD = standard deviation = 10). La population en bleu a une moyenne de 100 et une variance de (écart-type = SD = 50). En statistique et en théorie des probabilités, la variance est une mesure de la dispersion des valeurs d'un échantillon ou d'une variable aléatoire.
En statistique, l'estimateur du maximum de vraisemblance est un estimateur statistique utilisé pour inférer les paramètres de la loi de probabilité d'un échantillon donné en recherchant les valeurs des paramètres maximisant la fonction de vraisemblance. Cette méthode a été développée par le statisticien Ronald Aylmer Fisher en 1922. Soient neuf tirages aléatoires x1, ..., x9 suivant une même loi ; les valeurs tirées sont représentées sur les diagrammes ci-dessous par des traits verticaux pointillés.