Robot d'indexation

alt=Architecture d'un robot d'indexation|vignette|270x270px|Architecture d'un robot d'indexation Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, , vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou collecter des adresses électroniques auxquelles envoyer des courriels. En français, depuis 2013, crawler est remplaçable par le mot collecteur. Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, si le robot respecte les règles du fichier robots.txt, alors de nombreuses ressources échappent à cette exploration récursive. Cet ensemble de ressources inexploré est appelé Web profond ou Web invisible. Un fichier d'exclusion (robots.txt) placé dans la racine d'un site Web permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge du serveur Web et d'éviter des ressources sans intérêt. Toutefois, certains robots ne se préoccupent pas de ce fichier. Deux caractéristiques du Web compliquent le travail du robot d'indexation : le volume de données et la bande passante. Les capacités de traitement et de stockage des ordinateurs ainsi que le nombre d'internautes ayant fortement progressé, cela lié au développement d'outils de maintenance de pages de type Web 2.0 permettant à n'importe qui de mettre facilement en ligne des contenus, le nombre et la complexité des pages et objets multimédia disponibles, et leur modification, s'est considérablement accru dans la première décennie du .

A Large-Scale Characterization of How Readers Browse Wikipedia

Robert West, Tiziano Piccardi, Akhil Arora

Despite the importance and pervasiveness of Wikipedia as one of the largest platforms for open knowledge, surprisingly little is known about how people navigate its content when seeking information. To bridge this gap, we present the first systematic large ...

ASSOC COMPUTING MACHINERY2023

WEBGRAPH: Capturing Advertising and Tracking Information Flows for Robust Blocking

Carmela González Troncoso, Sandra Deepthy Siby

Users rely on ad and tracker blocking tools to protect their privacy. Unfortunately, existing ad and tracker blocking tools are susceptible to mutable advertising and tracking content. In this paper, we first demonstrate that a state-of-the-art ad and trac ...

USENIX ASSOC2022

A Large-Scale Characterization of How Readers Browse Wikipedia

Robert West, Tiziano Piccardi, Akhil Arora

ASSOC COMPUTING MACHINERY2023

WEBGRAPH: Capturing Advertising and Tracking Information Flows for Robust Blocking

Carmela González Troncoso, Sandra Deepthy Siby

USENIX ASSOC2022

A Large-Scale Characterization of How Readers Browse Wikipedia

Information Retrieval Under Network Uncertainty: Robust Internet Ranking

WEBGRAPH: Capturing Advertising and Tracking Information Flows for Robust Blocking

Graph Chatbot

A Large-Scale Characterization of How Readers Browse Wikipedia

Information Retrieval Under Network Uncertainty: Robust Internet Ranking

WEBGRAPH: Capturing Advertising and Tracking Information Flows for Robust Blocking