Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Le filtrage bayésien du spam (en référence au théorème de Bayes) est une technique statistique de détection de pourriels s'appuyant sur la classification naïve bayésienne. Les filtres bayésiens fonctionnent en établissant une corrélation entre la présence de certains éléments (en général des mots, parfois d'autres choses) dans un message et le fait qu'ils apparaissent en général dans des messages indésirables (spam) ou dans des messages légitimes (ham) pour calculer la probabilité que ce message soit un spam. Le filtrage bayésien du spam est une technique puissante pour traiter le courrier électronique indésirable. Elle s'adapte aux habitudes de courrier des uns et des autres et produit un taux de faux positifs suffisamment bas pour être acceptable. Le premier programme de filtrage du courrier électronique utilisant Bayes était le programme iFile de Jason Rennie, publié en 1996. Ce programme était utilisé pour classer le courrier en dossiers . La première publication académique sur le filtrage bayésien du spam a été faite par Sahami et al. en 1998. En 2002, les principes du filtrage bayésien ont été portés à la connaissance d'un plus grand public dans un article de Paul Graham. Des variantes de la technique de base ont été implémentées dans plusieurs travaux de recherche et produits logiciels. De nombreux agents de courriers électronique modernes mettent en œuvre des filtres bayésiens antispam. Les utilisateurs peuvent également installer des logiciels tiers spécialisés dans ce travail. Il est également possible de déployer ce type de filtre sur les serveurs à l'aide de logiciels spécialisés comme , SpamAssassin, , Altospam, Bogofilter, OutClock, Spamihilator ou encore , et cette fonctionnalité est parfois intégrée au serveur de courrier lui-même. Certains mots ont des probabilités d'apparaître dans un spam et dans un courrier légitime. Par exemple, la plupart des gens rencontreront fréquemment le mot « Viagra » dans leurs spams, mais ils le rencontreront rarement dans leurs courriers légitimes.
John Richard Thome, Navid Borhani, Nicolas Lamaison, Houxue Huang
Nathanaël Perraudin, Michaël Defferrard