Variance inflation factorIn statistics, the variance inflation factor (VIF) is the ratio (quotient) of the variance of estimating some parameter in a model that includes multiple other terms (parameters) by the variance of a model constructed using only one term. It quantifies the severity of multicollinearity in an ordinary least squares regression analysis. It provides an index that measures how much the variance (the square of the estimate's standard deviation) of an estimated regression coefficient is increased because of collinearity.
Binary dataBinary data is data whose unit can take on only two possible states. These are often labelled as 0 and 1 in accordance with the binary numeral system and Boolean algebra. Binary data occurs in many different technical and scientific fields, where it can be called by different names including bit (binary digit) in computer science, truth value in mathematical logic and related domains and binary variable in statistics. A discrete variable that can take only one state contains zero information, and is the next natural number after 1.
Loi de FréchetEn théorie des probabilités et en statistique, la loi de Fréchet est un cas particulier de loi d'extremum généralisée au même titre que la loi de Gumbel ou la loi de Weibull. Le nom de cette loi est dû à Maurice Fréchet, auteur d'un article à ce sujet en 1927. Des travaux ultérieurs ont été réalisés par Ronald Aylmer Fisher et L. H. C. Tippett en 1928 et par Emil Julius Gumbel en 1958. Sa fonction de répartition est donnée par : où est un paramètre de forme.
Précision et rappelvignette|350px|Précision et rappel (« recall »). La précision compte la proportion d'items pertinents parmi les items sélectionnés alors que le rappel compte la proportion d'items pertinents sélectionnés parmi tous les items pertinents sélectionnables. Dans les domaines de la reconnaissance de formes, de la recherche d'information et de la classification automatique, la précision (ou valeur prédictive positive) est la proportion des items pertinents parmi l'ensemble des items proposés ; le rappel (ou sensibilité) est la proportion des items pertinents proposés parmi l'ensemble des items pertinents.
Processus autorégressifUn processus autorégressif est un modèle de régression pour séries temporelles dans lequel la série est expliquée par ses valeurs passées plutôt que par d'autres variables. Un processus autorégressif d'ordre p, noté AR(p) est donné par : où sont les paramètres du modèle, est une constante et un bruit blanc. En utilisant l'opérateur des retards, on peut l'écrire : Un processus autorégressif d'ordre 1 s'écrit : On peut formuler le processus AR(1) de manière récursive par rapport aux conditions précédentes : En remontant aux valeurs initiales, on aboutit à : Il est à noter que les sommes vont ici jusqu'à l'infini.
Régression quantileLes régressions quantiles sont des outils statistiques dont l’objet est de décrire l’impact de variables explicatives sur une variable d’intérêt. Elles permettent une description plus riche que les régressions linéaires classiques, puisqu’elles s’intéressent à l’ensemble de la distribution conditionnelle de la variable d’intérêt et non seulement à la moyenne de celle-ci. En outre, elles peuvent être plus adaptées pour certains types de données (variables censurées ou tronquées, présence de valeurs extrêmes, modèles non linéaires.
Opérateur retardEn l'analyse des séries temporelles, l'opérateur retard, noté L (ou B quelquefois), est l'opérateur qui, à tout élément d'une série temporelle, associe l'observation précédente. Pour un décalage de plusieurs unités, on utilise plusieurs fois de suite cet opérateur, ce que l'on note L élevé à une certaine puissance (l'exposant doit s'entendre au sens de la composition). Ainsi Une généralisation est de décaler non-plus dans le passé mais dans le futur, par un exposant négatif.
MulticollinearityIn statistics, multicollinearity (also collinearity) is a phenomenon in which one predictor variable in a multiple regression model can be linearly predicted from the others with a substantial degree of accuracy. In this situation, the coefficient estimates of the multiple regression may change erratically in response to small changes in the model or the data. Multicollinearity does not reduce the predictive power or reliability of the model as a whole, at least within the sample data set; it only affects calculations regarding individual predictors.
Loi d'extremum généraliséeEn probabilité et statistique, la loi d'extrémum généralisée est une famille de lois de probabilité continues qui servent à représenter des phénomènes de valeurs extrêmes (minimum ou maximum). Elle comprend la loi de Gumbel, la loi de Fréchet et la loi de Weibull, respectivement lois d'extrémum de type I, II et III. Le théorème de Fisher-Tippett-Gnedenko établit que la loi d'extremum généralisée est la distribution limite du maximum (adéquatement normalisé) d'une série de variables aléatoires indépendantes de même distribution (iid).
Coefficient de déterminationvignette|Illustration du coefficient de détermination pour une régression linéaire. Le coefficient de détermination est égal à 1 moins le rapport entre la surface des carrés bleus et la surface des carrés rouges. En statistique, le coefficient de détermination linéaire de Pearson, noté R ou r, est une mesure de la qualité de la prédiction d'une régression linéaire. où n est le nombre de mesures, la valeur de la mesure , la valeur prédite correspondante et la moyenne des mesures.