Sac de mots

La représentation par sac de mots (ou bag of words en anglais) est une description de document (texte, image...) très utilisée en recherche d'information. On considère que le monde peut être décrit au moyen d'un dictionnaire (de « mots »). Dans sa version la plus simple, un document particulier est représenté par l'histogramme des occurrences des mots le composant : pour un document donné, chaque mot se voit affecté le nombre de fois qu'il apparaît dans le document (voir la notion de multi-ensemble, bag en anglais). Un document est donc représenté par un vecteur de la même taille que le dictionnaire, dont la composante i indique le nombre d'occurrences du i-ème mot du dictionnaire dans le document. La constitution du dictionnaire est ainsi une étape critique pour les performances des systèmes utilisant une telle représentation. Selon l'utilisation ultérieure du sac de mot, celui-ci peut être normalisé de différentes manières : ramené à une norme unitaire en divisant chaque composante par la norme (à choisir) du vecteur binarisé, ce qui revient à indiquer seulement la présence ou l'absence d'un mot du dictionnaire pondéré selon divers schémas, notamment dans le cas d'une utilisation dans un modèle vectoriel ou un modèle probabiliste de pertinence Le dictionnaire est composé des mots du corpus considéré, pouvant éventuellement recouvrir la totalité de la langue. Il est généralement nécessaire de prétraiter lesdits mots du dictionnaire afin de les normaliser (un traitement semblable est effectué sur les documents analysés). Deux normalisations classiques sont la lemmatisation et la racinisation. Il est aussi assez courant de définir une liste de rejet (stop words) de mots à ne pas considérer (tels les pronoms, les articles, etc) car trop nombreux dans les corpus textuels pour être discriminants. En plus des mots du dictionnaire, il est aussi possible de considérer des combinaisons de ceux-ci, autrement dit des N-grammes, augmentant alors la taille du dictionnaire.

Graph Chatbot

Chattez avec Graph Search

Natural Language Processing (NLP) driven categorisation and detection of discourse in historical US patents

Ten seconds of my nights: Exploring methods to measure brightness, loudness and attendance and their associations with alcohol use from video clips

War of Words: The Competitive Dynamics of Legislative Processes

Ten seconds of my nights: Exploring methods to measure brightness, loudness and attendance and their associations with alcohol use from video clips

Natural Language Processing (NLP) driven categorisation and detection of discourse in historical US patents

War of Words: The Competitive Dynamics of Legislative Processes