En statistiques, les techniques de bootstrap sont des méthodes d'inférence statistique basées sur la réplication multiple des données à partir du jeu de données étudié, selon les techniques de rééchantillonnage. Elles datent de la fin des années 1970, époque où la possibilité de calculs informatiques intensifs devient abordable. On calculait depuis près d'un siècle des estimations : mesures de dispersion (variance, écart-type), intervalles de confiance, tables de décision pour des tests d'hypothèse, etc., à partir des expressions mathématiques des lois de probabilité, ainsi que d'approximations de celles-ci quand le calcul n'était pas réalisable. Désormais, l'approche par calcul stochastique sur technologie numérique permet de multiplier ces évaluations, et surtout de quantifier la sensibilité de ces évaluations aux particularités de l'échantillon originel, i.e. le jeu de données étudié, grâce à l'analyse statistique des sous-échantillons possibles. Cette méthode est basée sur des simulations stochastiques, comme les méthodes de Monte-Carlo, les méthodes numériques bayésiennes (échantillonneur de Gibbs, l'algorithme de Metropolis-Hastings), à la différence près que le bootstrap ne nécessite pas d'autre information que celle disponible sur les individus de l'échantillon originel. Plus précisément, et c'est le sens du terme « rééchantillonnage », un bootstrap consiste à créer des « nouveaux échantillons » statistiques, mais uniquement par tirage avec remise, à partir de l'échantillon initial. L'aspect autocentré et itératif de la méthode a inspiré sa désignation anglaise : en effet, le bootstrap désigne le fait de « se hisser en tirant sur ses propres lacets ou plus précisément sur ses « bootstraps » qui désignent en anglais les anneaux de cuir ou tissu cousus au rebord des bottes pour y passer les doigts afin de les enfiler plus facilement ». Soit un échantillon de observations, indépendantes et identiquement distribuées (iid) selon une loi (inconnue) . On souhaite estimer la quantité , comme l'espérance de la loi, sa médiane ou encore sa variance.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (18)
MATH-412: Statistical machine learning
A course on statistical machine learning for supervised and unsupervised learning
MATH-600: Optimization and simulation
Master state-of-the art methods in optimization with heuristics and simulation. Work involves:
  • reading the material beforehand
  • class hours to discuss the material and solve problems
  • homework
Afficher plus
Publications associées (32)

A Geometric Unification of Distributionally Robust Covariance Estimators: Shrinking the Spectrum by Inflating the Ambiguity Set

Daniel Kuhn, Viet Anh Nguyen, Yves Rychener

The state-of-the-art methods for estimating high-dimensional covariance matrices all shrink the eigenvalues of the sample covariance matrix towards a data-insensitive shrinkage target. The underlying shrinkage transformation is either chosen heuristically ...
2024

Robust Data-Driven Controller Design with Finite Frequency Samples

Alireza Karimi, Philippe Louis Schuchert

Modern control synthesis methods rely on accurate models to derive a performant controller. Obtaining a good model is often a costly step, and has led to a renewed interest in data-driven synthesis methods. Frequency-response-based synthesis methods have b ...
2024
Afficher plus
Concepts associés (20)
T-statistic
In statistics, the t-statistic is the ratio of the departure of the estimated value of a parameter from its hypothesized value to its standard error. It is used in hypothesis testing via Student's t-test. The t-statistic is used in a t-test to determine whether to support or reject the null hypothesis. It is very similar to the z-score but with the difference that t-statistic is used when the sample size is small or the population standard deviation is unknown.
Resampling (statistics)
In statistics, resampling is the creation of new samples based on one observed sample. Resampling methods are: Permutation tests (also re-randomization tests) Bootstrapping Cross validation Permutation test Permutation tests rely on resampling the original data assuming the null hypothesis. Based on the resampled data it can be concluded how likely the original data is to occur under the null hypothesis.
Nuisance parameter
In statistics, a nuisance parameter is any parameter which is unspecified but which must be accounted for in the hypothesis testing of the parameters which are of interest. The classic example of a nuisance parameter comes from the normal distribution, a member of the location–scale family. For at least one normal distribution, the variance(s), σ2 is often not specified or known, but one desires to hypothesis test on the mean(s).
Afficher plus

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.