Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
En statistique, l’analyse discriminante linéaire ou ADL (en anglais, linear discriminant analysis ou LDA) fait partie des techniques d’analyse discriminante prédictive. Il s’agit d’expliquer et de prédire l’appartenance d’un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées à l’aide de variables prédictives. Dans l’exemple de l'article Analyse discriminante, le fichier Flea Beetles, l’objectif est de déterminer l’appartenance de puces à telle ou telle espèce à partir de la largeur et de l’angle de son édéage (partie des organes génitaux mâles de l'insecte.) La variable à prédire est forcément catégorielle (discrète), elle possède 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins possible de traiter les variables prédictives discrètes moyennant une préparation adéquate des données. L’analyse discriminante linéaire peut être comparée aux méthodes supervisées développées en apprentissage automatique et à la régression logistique développée en statistique. Nous disposons d’un échantillon de observations réparties dans groupes d’effectifs . Notons la variable à prédire, elle prend ses valeurs dans l’ensemble des classes. Nous disposons de variables prédictives . Nous notons les centres de gravité des nuages de points conditionnels et leurs matrice de variance-covariance. L’objectif est de produire une règle d’affectation qui permet de prédire, pour une observation donnée, sa valeur associée de Y à partir des valeurs prises par X. La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d’affectation est la probabilité a priori d’appartenance à une classe. représente la fonction de densité des X conditionnellement à la classe . La règle d’affectation pour un individu à classer devient alors . Toute la problématique de l’analyse discriminante revient alors à proposer une estimation de la quantité On distingue principalement deux approches pour estimer correctement la distribution : L’approche non-paramétrique n’effectue aucune hypothèse sur cette distribution mais propose une procédure d’estimation locale des probabilités, au voisinage de l’observation à classer.
François Gallaire, Pier Giuseppe Ledda, Giovanni Vagnoli