Résumé
La métrique, aussi appelée distance ou similarité, permet de mesurer le degré de parenté de deux éléments d'un même ensemble. Elle est utilisée dans le domaine de l'apprentissage dans des applications de classification ou de régression. La qualité de ces métriques est primordiale pour ces applications, d'où l'existence de méthodes d'apprentissage de distances. Ces méthodes se divisent en plusieurs catégories : supervisées ou non-supervisées selon les données mises à disposition. Il existe également une approche utilisant les machines à vecteurs de support (SVM) ou encore une méthode utilisant une fonction noyau. L'apprentissage supervisé repose sur le principe que l'algorithme a accès à des données d'apprentissage avec leur label et doit apprendre un modèle qui permettra de prédire le label des données futures (donc le label est inconnu). Il englobe la classification, dont l'ensemble de label est fini (ex : les couleurs, le sexe, etc.) , et la régression, qui utilise des labels continus (ex : la température, la vitesse, etc.). Beaucoup d'algorithme supervisé en machine learning se base sur la notion de métrique (similarité) entre 2 instances comme par exemple, le KNN et le SVM. Or la performance de ces algorithmes dépend de la métrique utilisée selon le problème. Dans l'idéal, les données similaires sont celles qui partagent le même label et inversement, cependant les métriques standards ne sont pas appropriées et n'arrivent pas à capturer pleinement la nature du problème. L'idée générale est d'apprendre des métriques permettant de contenir les données d'une même classe ensemble et de dissocier les données différentes. Le but est donc de minimiser la contrainte par paire. Contrairement à l'apprentissage supervisé classique, qui annote chaque instance avec un label de classe, une contrainte par paire est donnée sur l'ensemble des données . Elle se répartie en deux ensembles, la contrainte d'équivalence, qui regroupe les paires de données sémantiquement similaires qui doivent être proche avec la métrique apprise, et, la contrainte d'inéquivalence, qui regroupent les paires de données sémantiquement dissimilaires qui doivent être éloignées les unes des autres.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Publications associées (38)