Le bootstrap aggregating, également appelé bagging (de bootstrap aggregating), est un meta-algorithme d'apprentissage ensembliste conçu pour améliorer la stabilité et la précision des algorithmes d'apprentissage automatique. Il réduit la variance et permet d'éviter le surapprentissage. Bien qu'il soit généralement appliqué aux méthodes d'arbres de décision, il peut être utilisé avec n'importe quel type de méthode. Le bootstrap aggregating est un cas particulier de l'approche d'apprentissage ensembliste.
vignette| Une illustration du concept de bootstrap aggregating
Étant donné un ensemble d'entraînement standard de taille , le bagging génère nouveaux ensembles d'entraînement , chacun de taille , par échantillonnage uniforme et avec remise à partir de . En échantillonnant avec remplacement, certaines observations peuvent être répétées dans chaque . Si , alors pour grand, l'ensemble tend à avoir la fraction (≈63,2%) d'exemples uniques de , le reste étant des doublons. Ce type d'échantillon est appelé échantillon de bootstrap. Ensuite, modèles sont entraînés à l'aide des échantillons de bootstrap. Pour finir, la prédiction du meta-modèle est obtenue en faisant la moyenne de la sortie (pour la régression) ou par vote de majorité (pour la classification) des modèles.
Le bagging conduit à des «améliorations pour les procédures instables» (Breiman, 1996), qui incluent, par exemple, les réseaux de neurones artificiels, les arbres de décision et la sélection de sous-ensembles en régression linéaire (Breiman, 1994). Le bagging peut-être appliqué à la réduction de bruit au cours du pre-processing de données, avec une amélioration de l'apprentissage .
D'un autre côté, le bagging peut légèrement dégrader les performances de méthodes stables telles que les K-plus proches voisins (Breiman, 1996).
L'exemple suivant illustre les principes de base du principe de bagging, sur une analyse de la relation entre l'ozone et la température (données de Rousseeuw et Leroy (1986), analyse effectuée en R).