Concept

Distance de Mahalanobis

En statistique, la distance de Mahalanobis est une mesure de distance mathématique introduite par Prasanta Chandra Mahalanobis en 1936. Elle est basée sur la corrélation entre des variables par lesquelles différents modèles peuvent être identifiés et analysés. C'est une manière utile de déterminer la similarité entre une série de données connues et inconnues. Elle diffère de la distance euclidienne par le fait qu'elle prend en compte la variance et la corrélation de la série de données. Ainsi, à la différence de la distance euclidienne où toutes les composantes des vecteurs sont traitées indépendamment et de la même façon, la distance de Mahalanobis accorde un poids moins important aux composantes les plus dispersées. Dans le cas de l'analyse des signaux, et en supposant que chaque composante soit une variable aléatoire de type gaussien, cela revient à minimiser l'influence des composantes les plus bruitées (celles ayant la plus grande variance). La distance de Mahalanobis est souvent utilisée pour la détection de données aberrantes dans un jeu de données, ou bien pour déterminer la cohérence de données fournies par un capteur par exemple : cette distance est calculée entre les données reçues et celles prédites par un modèle. En pratique, la distance de Mahalanobis d'un vecteur à plusieurs variables à un ensemble de vecteurs de valeurs moyennes et possédant une matrice de covariance Σ est définie comme suit : La distance de Mahalanobis peut aussi être définie comme étant la mesure de dissimilarité entre deux vecteurs aléatoires et de même distribution avec une matrice de covariance Σ : Si la matrice de covariance est la matrice identité, cette distance est simplement la distance euclidienne. Si la matrice de covariance est diagonale, on obtient la distance euclidienne normalisée : où σ est l'écart type de x sur la série de données. Cette distance est souvent utilisée en analyse des données. (ex: analyse discriminante) Si est un p-vecteur aléatoire suivant une loi normale multidimensionnelle d'espérance μ et de matrice de variance-covariance Σ définie positive, alors (i.

Source officielle

https://fr.wikipedia.org/wiki/Distance_de_Mahalanobis

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Concepts associés (3)

Régression linéaire

En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives. On parle aussi de modèle linéaire ou de modèle de régression linéaire. Parmi les modèles de régression linéaire, le plus simple est l'ajustement affine. Celui-ci consiste à rechercher la droite permettant d'expliquer le comportement d'une variable statistique y comme étant une fonction affine d'une autre variable statistique x.

Analyse discriminante linéaire

En statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives. Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son édéage (partie des organes génitaux mâles de l'insecte.

Méthode des k plus proches voisins

En intelligence artificielle, plus précisément en apprentissage automatique, la méthode des k plus proches voisins est une méthode d’apprentissage supervisé. En abrégé KPPV ou k-PPV en français, ou plus fréquemment k-NN ou KNN, de l'anglais k-nearest neighbors. Dans ce cadre, on dispose d’une base de données d'apprentissage constituée de N couples « entrée-sortie ». Pour estimer la sortie associée à une nouvelle entrée x, la méthode des k plus proches voisins consiste à prendre en compte (de façon identique) les k échantillons d'apprentissage dont l’entrée est la plus proche de la nouvelle entrée x, selon une distance à définir.

Source officielle

https://fr.wikipedia.org/wiki/Distance_de_Mahalanobis

À propos de ce résultat

Séances de cours associées (2)

Hypothèse de thermalisation d'état propre

Explore l'hypothèse de thermalisation d'état propre dans les systèmes quantiques, en mettant l'accent sur la théorie de la matrice aléatoire et le comportement des observables dans l'équilibre thermique.

Mesure des graphiques: analyse statistique

Explore les mesures graphiques et l'analyse statistique dans le regroupement de réseaux, y compris les ERGM application en sociologie et asymptotique.

Publications associées (4)

Automatic Dysarthric Speech Detection Exploiting Pairwise Distance-Based Convolutional Neural Networks

Hervé Bourlard, Ina Kodrasi, Parvaneh Janbakhshi

Automatic dysarthric speech detection can provide reliable and cost-effective computer-aided tools to assist the clinical diagnosis and management of dysarthria. In this paper we propose a novel automatic dysarthric speech detection approach based on analy ...

IEEE2021

Accelerated Spectral Clustering Using Graph Filtering of Random Signals

Pierre Vandergheynst, Rémi Gribonval, Gilles Puy, Nicolas Tremblay

We build upon recent advances in graph signal processing to propose a faster spectral clustering algorithm. Indeed, classical spectral clustering is based on the computation of the first

k

eigenvectors of the similarity matrix' Laplacian, whose computati ...

Ieee2016

Predicting ambient aerosol thermal–optical reflectance (TOR) measurements from infrared spectra: extending the predictions to different years and different sites

Satoshi Takahama, Matteo Reggente

Organic carbon (OC) and elemental carbon (EC) are major components of atmospheric particulate matter (PM), which has been associated with increased morbidity and mortality, climate change, and reduced visibility. Typically OC and EC concentrations are meas ...

Copernicus GmbH2016

Afficher plus