Résumé
En statistique et en apprentissage automatique, le dilemme (ou compromis) biais–variance est le problème de minimiser simultanément deux sources d'erreurs qui empêchent les algorithmes d'apprentissage supervisé de généraliser au-delà de leur échantillon d'apprentissage : Le biais est l'erreur provenant d’hypothèses erronées dans l'algorithme d'apprentissage. Un biais élevé peut être lié à un algorithme qui manque de relations pertinentes entre les données en entrée et les sorties prévues (sous-apprentissage). La variance est l'erreur due à la sensibilité aux petites fluctuations de l’échantillon d'apprentissage. Une variance élevée peut entraîner un surapprentissage, c'est-à-dire modéliser le bruit aléatoire des données d'apprentissage plutôt que les sorties prévues. La décomposition biais-variance est une façon d'analyser l'espérance de l'erreur de prédiction d'un algorithme d'apprentissage d'un problème particulier comme une somme de trois termes : le biais, la variance et une quantité, appelée erreur irréductible, résultant du bruit dans le problème lui-même. Ce compromis s'applique à toutes les formes d'apprentissage supervisé : classification, régression (fonction de montage), et le . Il a également été invoqué pour expliquer l'efficacité des heuristiques dans l'apprentissage humain. Le compromis biais-variance est un problème central en apprentissage supervisé. Idéalement, on veut choisir un modèle qui reflète avec précision les régularités dans les données d'apprentissage, mais qui se généralise aussi aux données tests (données n'ayant pas servi à apprendre le modèle). Malheureusement, il est généralement impossible de faire les deux en même temps. Les méthodes d'apprentissage avec une variance élevée peuvent assez bien représenter l’échantillon d’apprentissage, mais il existe un risque de surapprentissage sur des données tests ou bruitées. En revanche, les algorithmes avec une variance faible produisent généralement des modèles plus simples qui n'ont pas tendance au sur-apprentissage, mais peuvent être en sous-apprentissage sur le jeu de données d'apprentissage.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.