Le bootstrap aggregating, également appelé bagging (de bootstrap aggregating), est un meta-algorithme d'apprentissage ensembliste conçu pour améliorer la stabilité et la précision des algorithmes d'apprentissage automatique. Il réduit la variance et permet d'éviter le surapprentissage. Bien qu'il soit généralement appliqué aux méthodes d'arbres de décision, il peut être utilisé avec n'importe quel type de méthode. Le bootstrap aggregating est un cas particulier de l'approche d'apprentissage ensembliste. vignette| Une illustration du concept de bootstrap aggregating Étant donné un ensemble d'entraînement standard de taille , le bagging génère nouveaux ensembles d'entraînement , chacun de taille , par échantillonnage uniforme et avec remise à partir de . En échantillonnant avec remplacement, certaines observations peuvent être répétées dans chaque . Si , alors pour grand, l'ensemble tend à avoir la fraction (≈63,2%) d'exemples uniques de , le reste étant des doublons. Ce type d'échantillon est appelé échantillon de bootstrap. Ensuite, modèles sont entraînés à l'aide des échantillons de bootstrap. Pour finir, la prédiction du meta-modèle est obtenue en faisant la moyenne de la sortie (pour la régression) ou par vote de majorité (pour la classification) des modèles. Le bagging conduit à des «améliorations pour les procédures instables» (Breiman, 1996), qui incluent, par exemple, les réseaux de neurones artificiels, les arbres de décision et la sélection de sous-ensembles en régression linéaire (Breiman, 1994). Le bagging peut-être appliqué à la réduction de bruit au cours du pre-processing de données, avec une amélioration de l'apprentissage . D'un autre côté, le bagging peut légèrement dégrader les performances de méthodes stables telles que les K-plus proches voisins (Breiman, 1996). L'exemple suivant illustre les principes de base du principe de bagging, sur une analyse de la relation entre l'ozone et la température (données de Rousseeuw et Leroy (1986), analyse effectuée en R).

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (14)
MATH-412: Statistical machine learning
A course on statistical machine learning for supervised and unsupervised learning
ENG-209: Data science for engineers with Python
Ce cours est divisé en deux partie. La première partie présente le langage Python et les différences notables entre Python et C++ (utilisé dans le cours précédent ICC). La seconde partie est une intro
ME-390: Foundations of artificial intelligence
This course provides the students with 1) a set of theoretical concepts to understand the machine learning approach; and 2) a subset of the tools to use this approach for problems arising in mechanica
Afficher plus
Séances de cours associées (45)
Apprentissage supervisé non linéaire
Explore le biais inductif de différentes méthodes d'apprentissage supervisé non linéaires et les défis de l'accordage hyperparamétrique.
Arbres de décision: surajustement et randomisation
Explore les arbres de décision, l'ajustement excessif et la randomisation dans l'apprentissage supervisé, en soulignant l'importance de la gestion de la variance et de la sélection des fonctionnalités.
Arbres de décision: Classification
Introduit des arbres de décision pour la classification, couvrant l'entropie, la qualité fractionnée, l'indice Gini, les avantages, les inconvénients, et le classificateur forestier aléatoire.
Afficher plus
Publications associées (102)

Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange

Sabine Süsstrunk, Mathieu Salzmann, Tong Zhang, Yi Wu

In the realm of point cloud scene understanding, particularly in indoor scenes, objects are arranged following human habits, resulting in objects of certain semantics being closely positioned and displaying notable inter-object correlations. This can creat ...
2024

Reduced Training Data for Laser Ultrasound Signal Interpretation by Neural Networks

Romain Christophe Rémy Fleury, Janez Rus

The performance of machine learning algorithms is conditioned by the availability of training datasets, which is especially true for the field of nondestructive evaluation. Here we propose one reconfigurable specimen instead of numerous reference specimens ...
2024

Composite Relationship Fields with Transformers for Scene Graph Generation

Alexandre Massoud Alahi, David Mizrahi, George Adaimi

Scene graph generation (SGG) methods extract relationships between objects. While most methods focus on improving top-down approaches, which build a scene graph based on detected objects from an off-the-shelf object detector, there is a limited amount of w ...
2023
Afficher plus
Concepts associés (9)
Forêt d'arbres décisionnels
vignette|Illustration du principe de construction d'une forêt aléatoire comme agrégation d'arbre aléatoires. En apprentissage automatique, les forêts d'arbres décisionnels (ou forêts aléatoires de l'anglais random forest classifier) forment une méthode d'apprentissage ensembliste. Ils ont été premièrement proposées par Ho en 1995 et ont été formellement proposées en 2001 par Leo Breiman et Adele Cutler. Cet algorithme combine les concepts de sous-espaces aléatoires et de bagging.
Boosting
Le boosting est un domaine de l'apprentissage automatique (branche de l'intelligence artificielle). C'est un principe qui regroupe de nombreux algorithmes qui s'appuient sur des ensembles de classifieurs binaires : le boosting optimise leurs performances. Le principe est issu de la combinaison de classifieurs (appelés également hypothèses). Par itérations successives, la connaissance d'un classifieur faible - weak classifier - est ajoutée au classifieur final - strong classifier.
Apprentissage ensembliste
In statistics and machine learning, ensemble methods use multiple learning algorithms to obtain better predictive performance than could be obtained from any of the constituent learning algorithms alone. Unlike a statistical ensemble in statistical mechanics, which is usually infinite, a machine learning ensemble consists of only a concrete finite set of alternative models, but typically allows for much more flexible structure to exist among those alternatives.
Afficher plus