Résumé
En statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives. Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son édéage (partie des organes génitaux mâles de l'insecte.) La variable à prédire est forcément catégorielle (discrète), elle possède 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrètes moyennant une préparation adéquate des données. L’analyse discriminante linéaire peut être comparée aux méthodes supervisées développées en apprentissage automatique et à la régression logistique développée en statistique. Nous disposons d’un échantillon de observations réparties dans groupes d’effectifs . Notons la variable à prédire, elle prend ses valeurs dans l’ensemble des classes. Nous disposons de variables prédictives . Nous notons les centres de gravité des nuages de points conditionnels et leurs matrice de variance-covariance. L’objectif est de produire une règle d’affectation qui permet de prédire, pour une observation donnée, sa valeur associée de Y à partir des valeurs prises par X. La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d’affectation est la probabilité a priori d’appartenance à une classe. représente la fonction de densité des X conditionnellement à la classe . La règle d’affectation pour un individu à classer devient alors . Toute la problématique de l’analyse discriminante revient alors à proposer une estimation de la quantité On distingue principalement deux approches pour estimer correctement la distribution : L’approche non-paramétrique n’effectue aucune hypothèse sur cette distribution mais propose une procédure d’estimation locale des probabilités, au voisinage de l’observation à classer.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.