Lack-of-fit sum of squaresIn statistics, a sum of squares due to lack of fit, or more tersely a lack-of-fit sum of squares, is one of the components of a partition of the sum of squares of residuals in an analysis of variance, used in the numerator in an F-test of the null hypothesis that says that a proposed model fits well. The other component is the pure-error sum of squares. The pure-error sum of squares is the sum of squared deviations of each value of the dependent variable from the average value over all observations sharing its independent variable value(s).
Test de BartlettEn statistique, le test de Bartlett du nom du statisticien anglais Maurice Stevenson Bartlett ( – ) est utilisé en statistique pour évaluer si k échantillons indépendants sont issus de populations de même variance (condition dite d'homoscédasticité). C'est un test paramétrique. Tout comme le test de Fisher, le test d'égalité des variances de Bartlett s'effondre totalement dès que l'on s'écarte, même légèrement, de la distribution gaussienne.
Critère d'information bayésienLe critère d'information bayésien (en anglais bayesian information criterion, en abrégé BIC), aussi appelé critère d'information de Schwarz, est un critère d'information dérivé du critère d'information d'Akaike proposé par en 1978. À la différence du critère d'information d'Akaike, la pénalité dépend de la taille de l'échantillon et pas seulement du nombre de paramètres. Il s'écrit : avec la vraisemblance du modèle estimée, le nombre d'observations dans l'échantillon et le nombre de paramètres libres du modèle.
Test de Fisher d'égalité de deux variancesEn statistique, le test F d'égalité de deux variances, est un test d'hypothèse qui permet de tester l'hypothèse nulle que deux lois normales ont la même variance. Il fait partie du grand ensemble de tests appelé "test F". Soient deux variables aléatoires indépendantes et deux échantillons , . On veut tester , si les moyennes et sont inconnues on les estime par et : La statistique de test est avec et On rejette (au niveau ) l'hypothèse nulle si la réalisation de la statistique de test est soit plus grande que le quantile d'ordre soit plus petite que le quantile de la loi de Fisher correspondante.
Test de LeveneEn statistique, le Test de Levene est une statistique déductive utilisée pour évaluer l'égalité de variance pour une variable calculée pour deux groupes ou plus. Certaines procédures statistiques courantes supposent que les variances des populations à partir desquelles différents échantillons sont prélevés sont égales. Le test de Levene évalue cette hypothèse. Il teste l'hypothèse nulle que les variances de population sont égales (appelées « homogénéité de la variance » ou homoscédasticité).
T-statisticIn statistics, the t-statistic is the ratio of the departure of the estimated value of a parameter from its hypothesized value to its standard error. It is used in hypothesis testing via Student's t-test. The t-statistic is used in a t-test to determine whether to support or reject the null hypothesis. It is very similar to the z-score but with the difference that t-statistic is used when the sample size is small or the population standard deviation is unknown.
Robustesse (statistiques)En statistiques, la robustesse d'un estimateur est sa capacité à ne pas être perturbé par une modification dans une petite partie des données ou dans les paramètres du modèle choisi pour l'estimation. Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai; Robust Statistics - Theory and Methods, Wiley Series in Probability and Statistics (2006). Dagnelie P.; Statistique théorique et appliquée. Tome 2 : Inférence statistique à une et à deux dimensions, Paris et Bruxelles (2006), De Boeck et Larcier.
Degré de liberté (statistiques)En statistiques le degré de liberté (ddl) désigne le nombre de variables aléatoires qui ne peuvent être déterminées ou fixées par une équation (notamment les équations des tests statistiques). Une autre définition est : . Le degré de liberté est égal au nombre d'observations moins le nombre de relations entre ces observations : on pourrait remplacer l'expression « nombre de relations » par « nombre de paramètres à estimer ». Supposons un ensemble de n variables aléatoires, toutes de même loi et indépendantes X,.
Model selectionModel selection is the task of selecting a model from among various candidates on the basis of performance criterion to choose the best one. In the context of learning, this may be the selection of a statistical model from a set of candidate models, given data. In the simplest cases, a pre-existing set of data is considered. However, the task can also involve the design of experiments such that the data collected is well-suited to the problem of model selection.