La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information. C'est une tâche d'automatisation d'un processus de classement, qui fait le plus souvent appel à des méthodes numériques (c'est-à-dire des algorithmes de recherche d'information ou de classification de type mathématique). L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences. Le déploiement d'un système de classification repose sur plusieurs étapes. On peut les schématiser ainsi : Définition des classes (exemple : catégories "Sport", "Politique", "Diplomatie", ou encore Opinion "bonne/mauvaise") Apprentissage des classes avec un système de classification en utilisant un corpus d'apprentissage Évaluation des performances du système avec un corpus de test Comme toute tâche de classification, la catégorisation de documents peut être réalisée en mode supervisé, ou non supervisé. En mode supervisé, des éléments prédéfinis seront utilisés pour classer un document : ce peut être un index, ou encore un dictionnaire de mots correspondant à une classe particulière et servant à préétiqueter les documents. En mode non supervisé, c'est sur la phase d'apprentissage que reposera l'entraînement du classifieur, et ses performances ultérieures. On utilise dans les systèmes de classification de document des algorithmes numériques. Les plus performants sont ceux à base de SVM ou encore de Boosting (qui reposent sur AdaBoost).

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.