Permutation testA permutation test (also called re-randomization test) is an exact statistical hypothesis test making use of the proof by contradiction. A permutation test involves two or more samples. The null hypothesis is that all samples come from the same distribution . Under the null hypothesis, the distribution of the test statistic is obtained by calculating all possible values of the test statistic under possible rearrangements of the observed data. Permutation tests are, therefore, a form of resampling.
Sampling distributionIn statistics, a sampling distribution or finite-sample distribution is the probability distribution of a given random-sample-based statistic. If an arbitrarily large number of samples, each involving multiple observations (data points), were separately used in order to compute one value of a statistic (such as, for example, the sample mean or sample variance) for each sample, then the sampling distribution is the probability distribution of the values that the statistic takes on.
Bootstrap (statistiques)En statistiques, les techniques de bootstrap sont des méthodes d'inférence statistique basées sur la réplication multiple des données à partir du jeu de données étudié, selon les techniques de rééchantillonnage. Elles datent de la fin des années 1970, époque où la possibilité de calculs informatiques intensifs devient abordable. On calculait depuis près d'un siècle des estimations : mesures de dispersion (variance, écart-type), intervalles de confiance, tables de décision pour des tests d'hypothèse, etc.
Filtre particulaireLes filtres particulaires, aussi connus sous le nom de méthodes de Monte-Carlo séquentielles, sont des techniques sophistiquées d'estimation de modèles fondées sur la simulation. Les filtres particulaires sont généralement utilisés pour estimer des réseaux bayésiens et constituent des méthodes 'en-ligne' analogues aux méthodes de Monte-Carlo par chaînes de Markov qui elles sont des méthodes 'hors-ligne' (donc a posteriori) et souvent similaires aux méthodes d'échantillonnage préférentiel.
Statistiques non paramétriquesLa statistique non paramétrique est un domaine de la statistique qui ne repose pas sur des familles de loi de probabilité paramétriques. Les méthodes non paramétriques pour la régression comprennent les histogrammes, les méthodes d'estimation par noyau, les splines et les décompositions dans des dictionnaires de filtres (par exemple décomposition en ondelettes). Bien que le nom de non paramétriques soit donné à ces méthodes, elles reposent en vérité sur l'estimation de paramètres.
Régression linéaireEn statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.
Intervalle de confiancevignette|Chaque ligne montre 20 échantillons tirés selon la loi normale de moyenne μ. On y montre l'intervalle de confiance de niveau 50% pour la moyenne correspondante aux 20 échantillons, marquée par un losange. Si l'intervalle contient μ, il est bleu ; sinon il est rouge. En mathématiques, plus précisément en théorie des probabilités et en statistiques, un intervalle de confiance encadre une valeur réelle que l’on cherche à estimer à l’aide de mesures prises par un procédé aléatoire.
HétéroscédasticitéEn statistique, l'on parle d'hétéroscédasticité lorsque les variances des résidus des variables examinées sont différentes. Le mot provient du grec, composé du préfixe hétéro- (« autre »), et de skedasê (« dissipation»). Une collection de variables aléatoires est hétéroscédastique s'il y a des sous-populations qui ont des variabilités différentes des autres. La notion d'hétéroscédasticité s'oppose à celle d'homoscédasticité. Dans le second cas, la variance de l'erreur des variables est constante i.e. .
Validation croiséeLa validation croisée () est, en apprentissage automatique, une méthode d’estimation de fiabilité d’un modèle fondée sur une technique d’échantillonnage. Supposons posséder un modèle statistique avec un ou plusieurs paramètres inconnus, et un ensemble de données d'apprentissage sur lequel on peut apprendre (ou « entraîner ») le modèle. Le processus d'apprentissage optimise les paramètres du modèle afin que celui-ci corresponde le mieux possible aux données d'apprentissage.
Erreur typeLerreur type d'une statistique (souvent une estimation d'un paramètre) est l'écart type de sa distribution d'échantillonnage ou l'estimation de son écart type. Si le paramètre ou la statistique est la moyenne, on parle d'erreur type de la moyenne. La distribution d'échantillonnage est générée par tirage répété et enregistrements des moyennes obtenues. Cela forme une distribution de moyennes différentes, et cette distribution a sa propre moyenne et variance.