Le filtrage bayésien du spam (en référence au théorème de Bayes) est une technique statistique de détection de pourriels s'appuyant sur la classification naïve bayésienne.
Les filtres bayésiens fonctionnent en établissant une corrélation entre la présence de certains éléments (en général des mots, parfois d'autres choses) dans un message et le fait qu'ils apparaissent en général dans des messages indésirables (spam) ou dans des messages légitimes (ham) pour calculer la probabilité que ce message soit un spam.
Le filtrage bayésien du spam est une technique puissante pour traiter le courrier électronique indésirable. Elle s'adapte aux habitudes de courrier des uns et des autres et produit un taux de faux positifs suffisamment bas pour être acceptable.
Le premier programme de filtrage du courrier électronique utilisant Bayes était le programme iFile de Jason Rennie, publié en 1996. Ce programme était utilisé pour classer le courrier en dossiers . La première publication académique sur le filtrage bayésien du spam a été faite par Sahami et al. en 1998. En 2002, les principes du filtrage bayésien ont été portés à la connaissance d'un plus grand public dans un article de Paul Graham.
Des variantes de la technique de base ont été implémentées dans plusieurs travaux de recherche et produits logiciels. De nombreux agents de courriers électronique modernes mettent en œuvre des filtres bayésiens antispam. Les utilisateurs peuvent également installer des logiciels tiers spécialisés dans ce travail. Il est également possible de déployer ce type de filtre sur les serveurs à l'aide de logiciels spécialisés comme , SpamAssassin, , Altospam, Bogofilter, OutClock, Spamihilator ou encore , et cette fonctionnalité est parfois intégrée au serveur de courrier lui-même.
Certains mots ont des probabilités d'apparaître dans un spam et dans un courrier légitime. Par exemple, la plupart des gens rencontreront fréquemment le mot « Viagra » dans leurs spams, mais ils le rencontreront rarement dans leurs courriers légitimes.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
This course addresses the relationship between specific technological features and the learners' cognitive processes. It also covers the methods and results of empirical studies on this topic: do stud
This course provides the students with 1) a set of theoretical concepts to understand the machine learning approach; and 2) a subset of the tools to use this approach for problems arising in mechanica
This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.
La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information.
Le filtrage bayésien du spam (en référence au théorème de Bayes) est une technique statistique de détection de pourriels s'appuyant sur la classification naïve bayésienne. Les filtres bayésiens fonctionnent en établissant une corrélation entre la présence de certains éléments (en général des mots, parfois d'autres choses) dans un message et le fait qu'ils apparaissent en général dans des messages indésirables (spam) ou dans des messages légitimes (ham) pour calculer la probabilité que ce message soit un spam.
La lutte antipourriel (anti-spam ou anti-spamming, ou antipollupostage) est un ensemble de comportements, de systèmes et de moyens techniques et juridiques permettant de combattre le pourriel (ou « spam », courriers électroniques publicitaires non sollicités). Autour de l'année 2000, le spam pouvait sembler inoffensif. En effet, la plupart des spammeurs utilisaient ce moyen afin de promouvoir des produits en tous genres (produits pharmaceutiques, faux diplômes, logiciels piratés, matériel pornographique).
Explore la charge cognitive, la métacognition, les environnements d'apprentissage et le raisonnement inductif, avec des exemples de questions d'examen et la ville de Godthåb.