Archivage du Webalt=Logo de Internet Archive|vignette|Logo de Internet Archive Le Web est par essence un média éphémère. Certains sites sont mis à jour très souvent, d'autres disparaissent ou changent de fournisseur ou d'hébergeur. Face à ce constat, il a été tenté, dans une perspective de conservation du patrimoine, de procéder à l'archivage du Web. Ces préoccupations ne sont pas récentes, si l'on considère que la Bibliothèque nationale du Canada a lancé ses projets dès juin 1994 et qu'Internet Archive, un des organismes les plus connus dans l'archivage d'internet, a été créé en 1996.
Search engine cacheSearch engine cache is a cache of web pages that shows the page as it was when it was indexed by a web crawler. Cached versions of web pages can be used to view the contents of a page when the live version cannot be reached, has been altered or . When a web crawler crawls the web, it collects the contents of each web page to allow the page to be indexed by the search engine. At the same time, it can store a full copy of that page. The search engine may make the copy accessible to users in the search engine results.
AltaVistaAltaVista ou Alta Vista (littéralement « vue haute » en espagnol) est un moteur de recherche du World Wide Web. Il fut mis en ligne à l'adresse web altavista.digital.com en décembre 1995 et développé par des chercheurs de Digital Equipment Corporation. Il fut le plus important moteur de recherche textuel utilisé avant son rachat. Bien qu'il y ait une polémique concernant l'auteur de l'idée originale, on s'accorde à dire que les deux principaux contributeurs ont été Louis Monier, qui a écrit le Robot d'indexation, et Michael Burrows, qui a écrit l'indexeur.
Recherche plein texteLa recherche (en) plein texte (appelée aussi recherche en texte intégral ou recherche de texte libre) est une technique de recherche dans un document électronique ou une base de données textuelles, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l'utilisateur. Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970.
Type de médiasUn type de médias (media type en anglais), à l'origine (et toujours communément) appelé type MIME, est un identifiant de format de données sur internet en deux parties. Les types de médias étaient à l'origine définis dans la (publiée en ) pour leur utilisation dans les courriels à travers le protocole SMTP, mais ils ont été étendus à d'autres protocoles comme le HTTP ou le SIP dans la (publiée en ). Un type de médias est composé d'au moins deux parties : un type et un sous-type structuré en arbre avec un suffixe optionnel, et de paramètres optionnels : type "/" [arbre ".