Concept

Archivage du Web

Résumé
alt=Logo de Internet Archive|vignette|Logo de Internet Archive Le Web est par essence un média éphémère. Certains sites sont mis à jour très souvent, d'autres disparaissent ou changent de fournisseur ou d'hébergeur. Face à ce constat, il a été tenté, dans une perspective de conservation du patrimoine, de procéder à l'archivage du Web. Ces préoccupations ne sont pas récentes, si l'on considère que la Bibliothèque nationale du Canada a lancé ses projets dès juin 1994 et qu'Internet Archive, un des organismes les plus connus dans l'archivage d'internet, a été créé en 1996. L'idée de l'archivage du Web part du principe qu'il s'agit d'un mode de communication de plus en plus utilisé et qu'il importe d'en garder la trace pour que subsistent les témoignages de l'époque. Les partisans de l'archivage du Web soulignent que ce mode de communication est utilisé de manière préférentielle par des groupes qui publient peu dans les autres médias, et que les oublier dans la conservation du patrimoine conduirait à une vision partielle de la société. Il existe deux manières d'envisager techniquement cet archivage. L'archivage manuel (ou semi-automatique) cherche à collecter des sites, déposée sur une archive institutionnelle ou sur un support hors ligne (disque compact par exemple). Cela suppose une sélection préalable de l'information. Par ailleurs, cette méthode présente des sites « figés » à un instant donné. L'autre méthode est celle de l'archivage automatique à l'aide de robots d'indexation. Ces robots parcourent le Web à intervalles réguliers, et aspirent (en anglais snapshot) l'ensemble du Web ou éventuellement une partie (en sélectionnant par exemple un nom de domaine). Cette méthode présente plutôt une forme figée du Web (le Web tel qu'il était à un moment donné). L'archivage du Web se heurte à plusieurs difficultés : la nécessité d'une mémoire puissante, demandant en particulier la participation de nombreux serveurs ; le problème de la pertinence des formats, en particulier pour les fichiers présents à l'intérieur des pages (images, applets) ; la difficulté d'accès au Web profond, qui fait qu'une partie de la production peut échapper à l'archivage ; les problèmes liés aux droits de propriété intellectuelle.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.