Méthode des moments (statistiques)La méthode des moments est un outil d'estimation intuitif qui date du début des statistiques. Elle consiste à estimer les paramètres recherchés en égalisant certains moments théoriques (qui dépendent de ces paramètres) avec leurs contreparties empiriques. L'égalisation se justifie par la loi des grands nombres qui implique que l'on peut "approcher" une espérance mathématique par une moyenne empirique. On est donc amené à résoudre un système d'équations. On suppose que l'échantillon X1,...
Probabilité a prioriDans le théorème de Bayes, la probabilité a priori (ou prior) désigne une probabilité se fondant sur des données ou connaissances antérieures à une observation. Elle s'oppose à la probabilité a posteriori (ou posterior) correspondante qui s'appuie sur les connaissances postérieures à cette observation. Le théorème de Bayes s'énonce de la manière suivante : si . désigne ici la probabilité a priori de , tandis que désigne la probabilité a posteriori, c'est-à-dire la probabilité conditionnelle de sachant .
Modèle de langageEn traitement automatique des langues, un modèle de langage ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une séquence de mots. Un modèle de langage n-gramme est un modèle de langage qui modélise des séquences de mots comme un processus de Markov. Il utilise l'hypothèse simplificatrice selon laquelle la probabilité du mot suivant dans une séquence ne dépend que d'une fenêtre de taille fixe de mots précédents.
Statistical machine translationStatistical machine translation (SMT) was a machine translation approach, that superseded the previous, rule-based approach because it required explicit description of each and every linguistic rule, which was costly, and which often did not generalize to other languages. Since 2003, the statistical approach itself has been gradually superseded by the deep learning-based neural network approach. The first ideas of statistical machine translation were introduced by Warren Weaver in 1949, including the ideas of applying Claude Shannon's information theory.
Statistiques non paramétriquesLa statistique non paramétrique est un domaine de la statistique qui ne repose pas sur des familles de loi de probabilité paramétriques. Les méthodes non paramétriques pour la régression comprennent les histogrammes, les méthodes d'estimation par noyau, les splines et les décompositions dans des dictionnaires de filtres (par exemple décomposition en ondelettes). Bien que le nom de non paramétriques soit donné à ces méthodes, elles reposent en vérité sur l'estimation de paramètres.
Modèle mixteUn modèle mixte est un modèle statistique qui comporte à la fois des effets fixes et des effets aléatoires. Ce type de modèle est utile dans une grande variété de domaines, tels que la physique, la biologie ou encore les sciences sociales. Les modèles mixtes sont particulièrement utiles dans les situations où des mesures répétées sont effectuées sur les mêmes variables (étude longitudinale). Ils sont souvent préférés à d'autres approches telle que rANOVA, dans la mesure où ils peuvent être utilisés dans le cas où le jeu de données présente des valeurs manquantes.
Multilevel modelMultilevel models (also known as hierarchical linear models, linear mixed-effect model, mixed models, nested data models, random coefficient, random-effects models, random parameter models, or split-plot designs) are statistical models of parameters that vary at more than one level. An example could be a model of student performance that contains measures for individual students as well as measures for classrooms within which the students are grouped.
Théorème de Gauss-MarkovEn statistiques, le théorème de Gauss–Markov, nommé ainsi d'après Carl Friedrich Gauss et Andrei Markov, énonce que dans un modèle linéaire dans lequel les erreurs ont une espérance nulle, sont non corrélées et dont les variances sont égales, le meilleur estimateur linéaire non biaisé des coefficients est l'estimateur des moindres carrés. Plus généralement, le meilleur estimateur linéaire non biaisé d'une combinaison linéaire des coefficients est son estimateur par les moindres carrés.
Modèle linéairevignette|Données aléatoires sous forme de points, et leur régression linéaire. Un modèle linéaire multivarié est un modèle statistique dans lequel on cherche à exprimer une variable aléatoire à expliquer en fonction de variables explicatives X sous forme d'un opérateur linéaire. Le modèle linéaire est donné selon la formule : où Y est une matrice d'observations multivariées, X est une matrice de variables explicatives, B est une matrice de paramètres inconnus à estimer et U est une matrice contenant des erreurs ou du bruit.
DébruitageLe débruitage est une technique d'édition qui consiste à supprimer des éléments indésirables (« bruit »), afin de rendre un document, un signal (numérique ou analogique) ou un environnement plus intelligible ou plus pur. Ne pas confondre le débruitage avec la réduction de bruit. Sur le plan sonore, le débruitage consiste à réduire ou anéantir le rendu d'ondes sonores « parasites » (ou « bruit »).