En mathématiques, la régression recouvre plusieurs méthodes d’analyse statistique permettant d’approcher une variable à partir d’autres qui lui sont corrélées. Par extension, le terme est aussi utilisé pour certaines méthodes d’ajustement de courbe.
En apprentissage automatique, on distingue les problèmes de régression des problèmes de classification. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification. Certaines méthodes, comme la régression logistique, sont à la fois des méthodes de régression au sens où il s'agit de prédire la probabilité d'appartenir à chacune des classes et des méthodes de classification.
Le terme provient de la régression vers la moyenne observée par Francis Galton au : les enfants de personnes de grande taille avaient eux-mêmes une taille supérieure à celle de la population en moyenne, mais inférieure à celle de leurs parents (toujours en moyenne), sans que la dispersion de taille au sein de la population totale soit réduite pour autant. Les techniques développées pour quantifier ce phénomène ont engendré des outils de mesure précieux dans tous les champs d’application des statistiques.
On considère une population d’individus (êtres humains, animaux, pays, biens de consommation...) qui peuvent être décrits selon plusieurs critères appelés variables. Il peut s’agir de variables quantitatives (grandeurs numériques telles que la taille, l’âge, le prix, un pourcentage...) ou qualitatives (sexe, catégorie socio-professionnelle, saison, type de produit...)
Certaines variables peuvent être plus difficiles à mesurer que d’autres, pour des raisons techniques, des raisons d’accès (données publiques contre données privées), ou encore du fait d’un délai important entre la mise en place d’une expérience et son aboutissement. Il arrive donc que l’on souhaite estimer ces variables (dites expliquées) à partir des données plus faciles à obtenir (dites explicatives).
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
This course provides in-depth understanding of the most fundamental algorithms in statistical pattern recognition or machine learning (including Deep Learning) as well as concrete tools (as Python sou
The course will provide an overview of everyday challenges in applied statistics through case studies. Students will learn how to use core statistical methods and their extensions, and will use comput
Couvre les fondamentaux des réseaux neuronaux multicouches et de l'apprentissage profond, y compris la propagation arrière et les architectures réseau comme LeNet, AlexNet et VGG-16.
Couvre la régression du noyau et les cartes de caractéristiques pour la séparabilité des données.
Couvre l'analyse de régression pour les données de désassemblage à l'aide de la modélisation de régression linéaire, des transformations, des interprétations des coefficients et des modèles linéaires généralisés.
In statistics, the Pearson correlation coefficient (PCC) is a correlation coefficient that measures linear correlation between two sets of data. It is the ratio between the covariance of two variables and the product of their standard deviations; thus, it is essentially a normalized measurement of the covariance, such that the result always has a value between −1 and 1. As with covariance itself, the measure can only reflect a linear correlation of variables, and ignores many other types of relationships or correlations.
Dependent and independent variables are variables in mathematical modeling, statistical modeling and experimental sciences. Dependent variables are studied under the supposition or demand that they depend, by some law or rule (e.g., by a mathematical function), on the values of other variables. Independent variables, in turn, are not seen as depending on any other variable in the scope of the experiment in question. In this sense, some common independent variables are time, space, density, mass, fluid flow rate, and previous values of some observed value of interest (e.
In statistics and optimization, errors and residuals are two closely related and easily confused measures of the deviation of an observed value of an element of a statistical sample from its "true value" (not necessarily observable). The error of an observation is the deviation of the observed value from the true value of a quantity of interest (for example, a population mean). The residual is the difference between the observed value and the estimated value of the quantity of interest (for example, a sample mean).
We propose a novel approach to evaluating the ionic Seebeck coefficient in electrolytes from relatively short equilibrium molecular dynamics simulations, based on the Green-Kubo theory of linear response and Bayesian regression analysis. By exploiting the ...
Herein, machine learning (ML) models using multiple linear regression (MLR), support vector regression (SVR), random forest (RF) and artificial neural network (ANN) are developed and compared to predict the output features viz. specific capacitance (Csp), ...
Lausanne2024
,
We consider the problem of defining and fitting models of autoregressive time series of probability distributions on a compact interval of Double-struck capital R. An order-1 autoregressive model in this context is to be understood as a Markov chain, where ...