Agent logicielEn informatique, un agent ou agent logiciel (du latin agere : agir) est un logiciel qui agit de façon autonome. C'est un programme qui accomplit des tâches à la manière d'un automate et en fonction de ce que lui a demandé son auteur. Dans le contexte d'Internet, les agents intelligents sont liés au Web sémantique, dans lequel ils sont utilisés pour faire à la place des humains les recherches et les corrélations entre les résultats de ces recherches. Ceci se fait en fonction de règles prédéfinies.
SpamdexingLe spamdexing ou référencement abusif, est un ensemble de techniques consistant à tromper les moteurs de recherche sur la qualité d'une page ou d'un site afin d'obtenir, pour un mot-clef donné, un bon classement dans les résultats des moteurs (de préférence dans les tout premiers résultats, car les utilisateurs vont rarement au-delà de la première page qui, pour les principaux moteurs, ne comprend par défaut que dix adresses).
Web profondLe web profond (en anglais deep web), appelé aussi toile profonde ou web invisible (terme imprécis) décrit dans l'architecture du web la partie de la toile non indexée par les principaux moteurs de recherche généralistes. Ce terme est parfois aussi utilisé de manière abusive pour désigner les contenus choquants et peu visibles que l'on trouve sur le web. En 2001, Michael K. Bergman compose l'expression deep web pour le vocabulaire des moteurs de recherche. Ce terme est construit par opposition au web surfacique ou web référencé.
Sergey BrinSergey ou Sergueï Brin (en Сергей Михайлович Брин, Sergueï Mikhaïlovitch Brine), né le à Moscou, est un entrepreneur américain d'origine russe, cofondateur avec Larry Page de la société Google. Membre de son conseil d'administration, il avait en 2011 le titre de président et de directeur technique. Il est actuellement président de la société Alphabet Inc. et supervise les travaux chez X. Sergey Brin (nom également transcrit en français Sergueï Brin) naît en Russie de deux parents juifs russes à l'époque de l'Union soviétique, alors dirigée par Léonid Brejnev.
Wayback MachineLa Wayback Machine (littéralement « machine à revenir en arrière ») est un site web mis à disposition par Internet Archive afin d'offrir un accès à des clichés instantanés de pages web stockés par l'organisme. Dès 1996, Internet Archive commence à capturer et enregistrer des pages web afin de les archiver. Puis, en 2001, l'équipe lance la Wayback Machine, qui offre une interface publique à cette base de données qui comporte à l'époque 10 milliards de pages représentant 100 térabits de données.
Yahoo! SearchYahoo! Search is a Yahoo! internet search provider that uses Microsoft's Bing search engine to power results, since 2009, apart from four years with Google from 2015 until the end of 2018. Originally, "Yahoo! Search" referred to a Yahoo!-provided interface that sent queries to a searchable index of pages supplemented with its directory of websites. The results were presented to the user under the Yahoo! brand. Originally, none of the actual web crawling and data housing was done by Yahoo! itself.
GNU WgetWget est un client HTTP, HTTPS et développé en janvier 1996 par Hrvoje Nikšić puis maintenu par le projet GNU depuis février 1997. Son interface en ligne de commande permet de récupérer du contenu d’un serveur Web ou FTP. C’est un logiciel libre dont le nom est dérivé de l’anglais World Wide Web et get. Wget permet notamment de créer des miroirs de sites, ou d’effectuer des téléchargements récursifs. Son nom vient de World Wide Web et de GET qui est le nom de la commande utilisée dans le protocole HTTP pour récupérer un fichier.
SwiftypeSwiftype is a search and index company based in San Francisco, California, that provides search software for organizations, websites, and computer programs. Notable customers include AT&T, Dr. Pepper, Hubspot and TechCrunch. Swiftype was founded in 2012 by Matt Riley and Quin Hoxie. The company participated in Y Combinator’s incubator program and received investment from a number of prominent sources. Their site search uses semantic understanding of queries to differentiate the meaning of words based on their use.
Capture de données d'écranLa capture de données d’écran (screen scraping en anglais) est une technique par laquelle un programme récupère des données normalement destinées à être affichées par un dispositif de sortie vidéo (généralement un moniteur) afin d’en extraire des informations. Il s’agit souvent de pages web dans lesquelles on souhaite récupérer des informations, mais il peut également s’agir de toute autre forme d’informations qui est formatée avant tout en vue d’être affichée sur un écran.
Aspirateur de site webUn aspirateur de site Web est un type de logiciel qui télécharge toutes les données contenues par un site web pour les sauvegarder sur un support de mémoire local de l'utilisateur (typiquement, un disque dur), ce qui permet de consulter les pages correspondantes sans être connecté à Internet. Le principe de ce type de logiciel repose sur l'analyse des pages web du site à récupérer : un index des éléments composant chacune d'elles est établi (texte HTML de la page, images, sons, vidéos, animations) et la profondeur d'analyse peut être paramétrée pour télécharger plus ou moins de fichiers, selon qu'ils se trouvent ou non sur le même site par exemple.