alt=Logo de Internet Archive|vignette|Logo de Internet Archive
Le Web est par essence un média éphémère. Certains sites sont mis à jour très souvent, d'autres disparaissent ou changent de fournisseur ou d'hébergeur. Face à ce constat, il a été tenté, dans une perspective de conservation du patrimoine, de procéder à l'archivage du Web.
Ces préoccupations ne sont pas récentes, si l'on considère que la Bibliothèque nationale du Canada a lancé ses projets dès juin 1994 et qu'Internet Archive, un des organismes les plus connus dans l'archivage d'internet, a été créé en 1996.
L'idée de l'archivage du Web part du principe qu'il s'agit d'un mode de communication de plus en plus utilisé et qu'il importe d'en garder la trace pour que subsistent les témoignages de l'époque. Les partisans de l'archivage du Web soulignent que ce mode de communication est utilisé de manière préférentielle par des groupes qui publient peu dans les autres médias, et que les oublier dans la conservation du patrimoine conduirait à une vision partielle de la société.
Il existe deux manières d'envisager techniquement cet archivage.
L'archivage manuel (ou semi-automatique) cherche à collecter des sites, déposée sur une archive institutionnelle ou sur un support hors ligne (disque compact par exemple). Cela suppose une sélection préalable de l'information. Par ailleurs, cette méthode présente des sites « figés » à un instant donné.
L'autre méthode est celle de l'archivage automatique à l'aide de robots d'indexation. Ces robots parcourent le Web à intervalles réguliers, et aspirent (en anglais snapshot) l'ensemble du Web ou éventuellement une partie (en sélectionnant par exemple un nom de domaine). Cette méthode présente plutôt une forme figée du Web (le Web tel qu'il était à un moment donné).
L'archivage du Web se heurte à plusieurs difficultés :
la nécessité d'une mémoire puissante, demandant en particulier la participation de nombreux serveurs ;
le problème de la pertinence des formats, en particulier pour les fichiers présents à l'intérieur des pages (images, applets) ;
la difficulté d'accès au Web profond, qui fait qu'une partie de la production peut échapper à l'archivage ;
les problèmes liés aux droits de propriété intellectuelle.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
PhD students in Chemistry will learn hands-on Research Data Management (RDM) skills transferable to their research practices. They will
contextualize their research into RDM best practices (day 1), di
Explore le Montreux Jazz Digital Project, en soulignant son processus de numérisation et les utilisations innovantes des archives.
Explore la théorie de Hertz pour les problèmes de contact et la méthode de mesure Tabor.
Explore le classement basé sur les liens grâce à des algorithmes PageRank et HITS, couvrant des exemples pratiques et des défis dans les méthodes de recherche et de classement sur le Web.
La Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Dès 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données.
Une bibliothèque numérique (virtuelle ou en ligne ou électronique) est une collection de documents (textes, images, sons) numériques (c'est-à-dire numérisés ou nés numériques) accessibles à distance (en particulier via Internet), proposant différentes modalités d'accès à l'information aux publics. Les documents peuvent être très élaborés, comme les livres numériques, ou beaucoup plus bruts. Elle peut aussi être définie comme un ensemble de collections mises en ligne pour un public précis.
thumb|Erreur 404 sur le site de la Maison-Blanche. Un lien mort, lien brisé, lien cassé ou lien rompu est un lien hypertexte qui redirige vers un site web ou une page web n'existant plus. À l'échelle du Web, le phénomène correspond au pourrissement des liens, connu en anglais sous le nom de link rot. Un lien peut rompre pour plusieurs raisons. L'explication la plus simple et la plus courante est que la page web n'existe plus, ce qui mène, la plupart du temps, à une erreur HTTP 404, qui indique que le serveur a bien répondu mais que la page précise est introuvable.
Purpose Recent archiving and curatorial practices took advantage of the advancement in digital technologies, creating immersive and interactive experiences to emphasize the plurality of memory materials, encourage personalized sense-making and extract, man ...
The archive of science is a place where scientific practices are sedimented in the form of drafts, protocols of rejected hypotheses and failed experiments, obsolete instruments, outdated visualizations and other residues. Today, just as science goes more a ...
Informed by longstanding artistic practice, this doctoral thesis approaches entanglements of Swiss coloniality in Brazil and Switzerland under the lens of land, archive, and visuality. The enduring legacies of imperial capitalism in the former Colonia Leop ...