Wayback MachineLa Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Dès 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données.
Bibliothèque numériqueUne bibliothèque numérique (virtuelle ou en ligne ou électronique) est une collection de documents (textes, images, sons) numériques (c'est-à-dire numérisés ou nés numériques) accessibles à distance (en particulier via Internet), proposant différentes modalités d'accès à l'information aux publics. Les documents peuvent être très élaborés, comme les livres numériques, ou beaucoup plus bruts. Elle peut aussi être définie comme un ensemble de collections mises en ligne pour un public précis.
Lien mortthumb|Erreur 404 sur le site de la Maison-Blanche. Un lien mort, lien brisé, lien cassé ou lien rompu est un lien hypertexte qui redirige vers un site web ou une page web n'existant plus. À l'échelle du Web, le phénomène correspond au pourrissement des liens, connu en anglais sous le nom de link rot. Un lien peut rompre pour plusieurs raisons. L'explication la plus simple et la plus courante est que la page web n'existe plus, ce qui mène, la plupart du temps, à une erreur HTTP 404, qui indique que le serveur a bien répondu mais que la page précise est introuvable.
Web scrapingLe web scraping, parfois appelé harvesting ou en français moissonnage, est une technique d'extraction des données de sites Web par l'utilisation d'un script ou d'un programme dans le but de les transformer et les réutiliser dans un autre contexte comme l'enrichissement de bases de données, le référencement ou l'exploration de données. Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement.
MétadonnéeUne métadonnée (mot composé du préfixe grec meta, indiquant l'auto-référence ; le mot signifie donc proprement « donnée de/à propos de donnée ») est une donnée servant à définir ou décrire une autre donnée, quel qu'en soit le support (papier, électronique ou autre). Un exemple type est d'associer à une donnée la date à laquelle elle a été produite ou enregistrée, ou à une photo les coordonnées géographiques du lieu où elle a été prise. Les métadonnées sont à la base des techniques du Web sémantique.
Archivage électroniqueLarchivage électronique désigne l'archivage à long terme de documents et données numériques. Les problématiques liées à la pérennisation des données numériques sont le coût et la durée de vie des supports, mais aussi l'accès au contenu malgré les avancées technologiques rendant les anciens supports obsolètes. L'archivage électronique commence dès la création des documents et permet à l'organisation productrice de l'information de les exploiter pour toute la durée de leur cycle de vie.
Archivesthumb|alt=Archives municipales Brive-la-Gaillarde, France.|Le bâtiment des archives municipales de Brive-la-Gaillarde. Les archives sont un ensemble de documents conservés pour pouvoir prouver des droits ou témoigner de certaines activités. Par métonymie, elles désignent également le lieu où l'on conserve ces documents (bâtiment ou local de conservation, ou encore l'institution chargée de leur conservation ou de leur gestion).
Internet ArchiveInternet Archive (ou IA) est un organisme à but non lucratif consacré à l’archivage du Web qui agit aussi comme bibliothèque numérique. Ces archives électroniques sont constituées de clichés instantanés (copie de pages prises à différents moments) de pages web, de logiciels, de films, de livres et d’enregistrements audio. Pour assurer la stabilité et la sécurité des données archivées, un site miroir fonctionnel est conservé à la Bibliotheca Alexandrina en Égypte.
Robot d'indexationalt=Architecture d'un robot d'indexation|vignette|270x270px|Architecture d'un robot d'indexation Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, , vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.