Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
vignette|Fonction softmax utilisée après un CNN (Réseau neuronal convolutif). Ici le vecteur (35.4, 38.1, -5.0) est transformée en (0.06, 0.94, 0.00). Dans ce contexte de classification d'images, le chien est reconnu. En mathématiques, la fonction softmax, aussi appelée fonction softargmax ou fonction exponentielle normalisée, est une généralisation de la fonction logistique. Elle convertit un vecteur de K nombres réels en une distribution de probabilités sur K choix. Plus précisément, un vecteur est transformé un vecteur de K nombres réels strictement positifs et de somme 1. La fonction est définie par : pour tout , c'est-à-dire que la composante j du vecteur est égale à l'exponentielle de la composante j du vecteur z divisée par la somme des exponentielles de toutes les composantes de z. En théorie des probabilités, la sortie de la fonction softmax peut être utilisée pour représenter une loi catégorielle – c’est-à-dire une loi de probabilité sur K différents résultats possibles. La fonction softmax est également connue pour être utilisée dans diverses méthodes de classification en classes multiples, par exemple dans le cas de réseaux de neurones artificiels. Cette fonction est parfois considérée pour une version régulière de la fonction argmax : si une composante est strictement plus grande que les autres composantes , alors vaut presque 1 et est quasiment nulle pour tout . Considérons un vecteur de six nombres réels. La fonction softmax donne en sortie (tronquée à 10) : Une utilisation courante de la fonction softmax apparaît dans le champ de l'apprentissage automatique, en particulier dans la régression logistique : on associe à chaque possibilité de sortie un score, que l'on transforme en probabilité avec la fonction softmax. L'intérêt de cette fonction est qu'elle est différentiable, et s'avère donc compatible avec l'algorithme du gradient. Concrètement, on a en entrée un vecteur, qui est donc une matrice colonne, notée x, de N lignes.
Nicolas Henri Bernard Flammarion, Hristo Georgiev Papazov, Scott William Pesme
Michaël Unser, Alexis Marie Frederic Goujon