Concept

Archivage du Web

Concepts associés (8)

La Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Dès 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données.

Bibliothèque numérique

Une bibliothèque numérique (virtuelle ou en ligne ou électronique) est une collection de documents (textes, images, sons) numériques (c'est-à-dire numérisés ou nés numériques) accessibles à distance (en particulier via Internet), proposant différentes modalités d'accès à l'information aux publics. Les documents peuvent être très élaborés, comme les livres numériques, ou beaucoup plus bruts. Elle peut aussi être définie comme un ensemble de collections mises en ligne pour un public précis.

Lien mort

thumb|Erreur 404 sur le site de la Maison-Blanche. Un lien mort, lien brisé, lien cassé ou lien rompu est un lien hypertexte qui redirige vers un site web ou une page web n'existant plus. À l'échelle du Web, le phénomène correspond au pourrissement des liens, connu en anglais sous le nom de link rot. Un lien peut rompre pour plusieurs raisons. L'explication la plus simple et la plus courante est que la page web n'existe plus, ce qui mène, la plupart du temps, à une erreur HTTP 404, qui indique que le serveur a bien répondu mais que la page précise est introuvable.

Web scraping

Le web scraping, parfois appelé harvesting ou en français moissonnage, est une technique d'extraction des données de sites Web par l'utilisation d'un script ou d'un programme dans le but de les transformer et les réutiliser dans un autre contexte comme l'enrichissement de bases de données, le référencement ou l'exploration de données. Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement.

Métadonnée

Une métadonnée (mot composé du préfixe grec meta, indiquant l'auto-référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une donnée servant à définir ou décrire une autre donnée, quel qu'en soit le support (papier, électronique ou autre). Un exemple type est d'associer à une donnée la date à laquelle elle a été produite ou enregistrée, ou à une photo les coordonnées géographiques du lieu où elle a été prise. Les métadonnées sont à la base des techniques du Web sémantique.

Archivage électronique

Larchivage électronique désigne l'archivage à long terme de documents et données numériques. Les problématiques liées à la pérennisation des données numériques sont le coût et la durée de vie des supports, mais aussi l'accès au contenu malgré les avancées technologiques rendant les anciens supports obsolètes. L'archivage électronique commence dès la création des documents et permet à l'organisation productrice de l'information de les exploiter pour toute la durée de leur cycle de vie.