Residual sum of squaresIn statistics, the residual sum of squares (RSS), also known as the sum of squared residuals (SSR) or the sum of squared estimate of errors (SSE), is the sum of the squares of residuals (deviations predicted from actual empirical values of data). It is a measure of the discrepancy between the data and an estimation model, such as a linear regression. A small RSS indicates a tight fit of the model to the data. It is used as an optimality criterion in parameter selection and model selection.
Validation croiséeLa validation croisée () est, en apprentissage automatique, une méthode d’estimation de fiabilité d’un modèle fondée sur une technique d’échantillonnage. Supposons posséder un modèle statistique avec un ou plusieurs paramètres inconnus, et un ensemble de données d'apprentissage sur lequel on peut apprendre (ou « entraîner ») le modèle. Le processus d'apprentissage optimise les paramètres du modèle afin que celui-ci corresponde le mieux possible aux données d'apprentissage.
Loi de BernoulliEn mathématiques et plus précisément en théorie des probabilités, la loi de Bernoulli, du nom du mathématicien suisse Jacques Bernoulli, désigne la loi de probabilité d'une variable aléatoire discrète qui prend la valeur 1 avec la probabilité p et 0 avec la probabilité q = 1 – p. gauche|vignette Par exemple, dans pile ou face, le lancer d'une pièce de monnaie bien équilibrée tombe sur pile avec une probabilité 1/2 et sur face avec une probabilité 1/2.
Degré de liberté (statistiques)En statistiques le degré de liberté (ddl) désigne le nombre de variables aléatoires qui ne peuvent être déterminées ou fixées par une équation (notamment les équations des tests statistiques). Une autre définition est : . Le degré de liberté est égal au nombre d'observations moins le nombre de relations entre ces observations : on pourrait remplacer l'expression « nombre de relations » par « nombre de paramètres à estimer ». Supposons un ensemble de n variables aléatoires, toutes de même loi et indépendantes X,.
Loi uniforme continueEn théorie des probabilités et en statistiques, les lois uniformes continues forment une famille de lois de probabilité à densité. Une telle loi est caractérisée par la propriété suivante : tous les intervalles de même longueur inclus dans le support de la loi ont la même probabilité. Cela se traduit par le fait que la densité de probabilité d'une loi uniforme continue est constante sur son support. Elles constituent donc une généralisation de la notion d'équiprobabilité dans le cas continu pour des variables aléatoires à densité ; le cas discret étant couvert par les lois uniformes discrètes.
Valeur absolue des écartsEn statistique, la déviation absolue moyenne (ou simplement déviation moyenne) d'un ensemble est la moyenne (ou valeur prévue) des déviations absolues par rapport à un point central d'une série statistique. C'est une statistique sommaire de dispersion ou de variabilité statistique, et elle peut être associée à toute mesure à une tendance centrale (moyenne, médiane, mode...). La déviation absolue d'un élément a d'un ensemble de données x par rapport à un réel est a – x.
Fonction objectifvignette|comparaison de certains substituts de la fonction de perte Le terme fonction objectif ou fonction économique, est utilisé en optimisation mathématique et en recherche opérationnelle pour désigner une fonction qui sert de critère pour déterminer la meilleure solution à un problème d'optimisation. Elle associe une valeur à une instance d'un problème d'optimisation. Le but du problème d'optimisation est alors de minimiser ou de maximiser cette fonction jusqu'à l'optimum, par différents procédés comme l'algorithme du simplexe.
Estimateur (statistique)En statistique, un estimateur est une fonction permettant d'estimer un moment d'une loi de probabilité (comme son espérance ou sa variance). Il peut par exemple servir à estimer certaines caractéristiques d'une population totale à partir de données obtenues sur un échantillon comme lors d'un sondage. La définition et l'utilisation de tels estimateurs constitue la statistique inférentielle. La qualité des estimateurs s'exprime par leur convergence, leur biais, leur efficacité et leur robustesse.
Surapprentissagevignette|300x300px|La ligne verte représente un modèle surappris et la ligne noire représente un modèle régulier. La ligne verte classifie trop parfaitement les données d'entrainement, elle généralise mal et donnera de mauvaises prévisions futures avec de nouvelles données. Le modèle vert est donc finalement moins bon que le noir. En statistique, le surapprentissage, ou sur-ajustement, ou encore surinterprétation (en anglais « overfitting »), est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données.
KurtosisEn théorie des probabilités et en statistique, le kurtosis (du nom féminin grec ancien κύρτωσις, « courbure »), aussi traduit par coefficient d’acuité, coefficient d’aplatissement et degré de voussure, est une mesure directe de l’acuité et une mesure indirecte de l'aplatissement de la distribution d’une variable aléatoire réelle. Il existe plusieurs mesures de l'acuité et le kurtosis correspond à la méthode de Pearson. C’est le deuxième des paramètres de forme, avec le coefficient d'asymétrie (les paramètres fondés sur les moments d’ordre 5 et plus n’ont pas de nom propre).