Surapprentissage

vignette|300x300px|La ligne verte représente un modèle surappris et la ligne noire représente un modèle régulier. La ligne verte classifie trop parfaitement les données d'entrainement, elle généralise mal et donnera de mauvaises prévisions futures avec de nouvelles données. Le modèle vert est donc finalement moins bon que le noir. En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données. Ainsi, cette analyse peut ne pas correspondre à des données supplémentaires ou ne pas prévoir de manière fiable les observations futures. Un modèle surajusté est un modèle statistique qui contient plus de paramètres que ne peuvent le justifier les données. Le problème existe aussi en apprentissage automatique . Il est en général provoqué par un mauvais dimensionnement de la structure utilisée pour classifier ou faire une régression. De par sa trop grande capacité à capturer des informations, une structure dans une situation de surapprentissage aura de la peine à généraliser les caractéristiques des données. Elle se comporte alors comme une table contenant tous les échantillons utilisés lors de l'apprentissage et perd ses pouvoirs de prédiction sur de nouveaux échantillons. Le surapprentissage s'interprète comme un apprentissage « par cœur » des données, un genre de mémorisation. Il résulte souvent d'une trop grande liberté dans le choix du modèle. La figure ci-dessous illustre ce phénomène dans le cas d'une régression dans . Les points verts sont correctement décrits par une régression linéaire. Si l'on autorise un ensemble de fonctions d'apprentissage plus grand, par exemple l'ensemble des fonctions polynomiales à coefficients réels, il est possible de trouver un modèle décrivant parfaitement les données d'apprentissage (erreur d'apprentissage nulle). C'est le cas du polynôme d'interpolation de Lagrange : il passe bien par tous les points verts mais n'a visiblement aucune capacité de généralisation.

Graph Chatbot

Novel theory and potential applications of central diastolic pressure decay time constant

Meta-learning to address diverse Earth observation problems across resolutions

Dynamical simulation via quantum machine learning with provable generalization

Novel theory and potential applications of central diastolic pressure decay time constant

Meta-learning to address diverse Earth observation problems across resolutions

Dynamical simulation via quantum machine learning with provable generalization