Résumé
La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d'information. On considère que le monde peut être décrit au moyen d'un dictionnaire (de « mots »). Dans sa version la plus simple, un document particulier est représenté par l'histogramme des occurrences des mots le composant : pour un document donné, chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document (voir la notion de multi-ensemble, bag en anglais). Un document est donc représenté par un vecteur de la même taille que le dictionnaire, dont la composante i indique le nombre d'occurrences du i-ème mot du dictionnaire dans le document. La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation. Selon l'utilisation ultérieure du sac de mot, celui-ci peut être normalisé de différentes manières : ramené à une norme unitaire en divisant chaque composante par la norme (à choisir) du vecteur binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un modèle vectoriel ou un modèle probabiliste de pertinence Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est généralement nécessaire de prétraiter lesdits mots du dictionnaire afin de les normaliser (un traitement semblable est effectué sur les documents analysés). Deux normalisations classiques sont la lemmatisation et la racinisation. Il est aussi assez courant de définir une liste de rejet (stop words) de mots à ne pas considérer (tels les pronoms, les articles, etc) car trop nombreux dans les corpus textuels pour être discriminants. En plus des mots du dictionnaire, il est aussi possible de considérer des combinaisons de ceux-ci, autrement dit des N-grammes, augmentant alors la taille du dictionnaire.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (3)
CS-423: Distributed information systems
This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.
CS-401: Applied data analysis
This course teaches the basic techniques, methodologies, and practical skills required to draw meaningful insights from a variety of data, with the help of the most acclaimed software tools in the dat
DH-406: Machine learning for DH
This course aims to introduce the basic principles of machine learning in the context of the digital humanities. We will cover both supervised and unsupervised learning techniques, and study and imple
Publications associées (23)