Lasso (statistiques)En statistiques, le lasso est une méthode de contraction des coefficients de la régression développée par Robert Tibshirani dans un article publié en 1996 intitulé Regression shrinkage and selection via the lasso. Le nom est un acronyme anglais : Least Absolute Shrinkage and Selection Operator. Bien que cette méthode fut utilisée à l'origine pour des modèles utilisant l'estimateur usuel des moindres carrés, la pénalisation lasso s'étend facilement à de nombreux modèles statistiques tels que les modèles linéaires généralisés, les modèles à risque proportionnel, et les M-estimateurs.
Surapprentissagevignette|300x300px|La ligne verte représente un modèle surappris et la ligne noire représente un modèle régulier. La ligne verte classifie trop parfaitement les données d'entrainement, elle généralise mal et donnera de mauvaises prévisions futures avec de nouvelles données. Le modèle vert est donc finalement moins bon que le noir. En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données.
ModélisationLa modélisation est la conception et l'utilisation d'un modèle. Selon son objectif (représentation simplifiée, compréhension, prédiction) et les moyens utilisés, la modélisation est dite mathématique, géométrique, 3D, empirique, mécaniste ( modélisation de réseau trophique dans un écosystème), cinématique... Elle nécessite généralement d'être calée par des observations ou mesures faites , lesquelles servent aussi à paramétrer, calibrer ou ajuster le modèle, par exemple en intégrant des facteurs d'influences qui s'avèreraient nécessaires.