Capture de données d'écranLa capture de données d’écran (screen scraping en anglais) est une technique par laquelle un programme récupère des données normalement destinées à être affichées par un dispositif de sortie vidéo (généralement un moniteur) afin d’en extraire des informations. Il s’agit souvent de pages web dans lesquelles on souhaite récupérer des informations, mais il peut également s’agir de toute autre forme d’informations qui est formatée avant tout en vue d’être affichée sur un écran.
MicroformatUn microformat (parfois abrégé sous μF ou uF) est une approche de formatage de données dans des pages WEB, qui cherche à rationaliser et standardiser le contenu existant, comme les métadonnées, en utilisant des classes et attributs de balises XHTML et HTML. Cette approche est conçue pour permettre à l'information destinée aux utilisateurs finaux, telle que le carnet d'adresses, les coordonnées géographiques, les numéros de téléphone, les événements et autres données ayant une structure constante, d'être traitée automatiquement par les logiciels.
Data extractionData extraction is the act or process of retrieving data out of (usually unstructured or poorly structured) data sources for further data processing or data storage (data migration). The import into the intermediate extracting system is thus usually followed by data transformation and possibly the addition of metadata prior to export to another stage in the data workflow. Usually, the term data extraction is applied when (experimental) data is first imported into a computer from primary sources, like measuring or recording devices.
Extraction de connaissancesL'extraction de connaissances est le processus de création de connaissances à partir d'informations structurées (bases de données relationnelles, XML) ou non structurées (textes, documents, images). Le résultat doit être dans un format lisible par les ordinateurs. Le groupe RDB2RDF W3C est en cours de standardisation d'un langage d'extraction de connaissances au format RDF à partir de bases de données. En français on parle d'« extraction de connaissances à partir des données » (ECD).
Archivage du Webalt=Logo de Internet Archive|vignette|Logo de Internet Archive Le Web est par essence un média éphémère. Certains sites sont mis à jour très souvent, d'autres disparaissent ou changent de fournisseur ou d'hébergeur. Face à ce constat, il a été tenté, dans une perspective de conservation du patrimoine, de procéder à l'archivage du Web. Ces préoccupations ne sont pas récentes, si l'on considère que la Bibliothèque nationale du Canada a lancé ses projets dès juin 1994 et qu'Internet Archive, un des organismes les plus connus dans l'archivage d'internet, a été créé en 1996.
Information extractionInformation extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
Robot d'indexationalt=Architecture d'un robot d'indexation|vignette|270x270px|Architecture d'un robot d'indexation Un robot d'indexation (en anglais web crawler ou web spider, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour collecter les ressources (pages Web, , vidéos, documents Word, PDF ou PostScript, etc.), afin de permettre à un moteur de recherche de les indexer.
Interface de programmationthumb|Démonstration d'une routine appelant une base de données dans une interface de programmation. En informatique, une interface de programmation d’application ou interface de programmation applicative, souvent désignée par le terme API pour « application programming interface », est un ensemble normalisé de classes, de méthodes, de fonctions et de constantes qui sert de façade par laquelle un logiciel offre des services à d'autres logiciels.
Exploration de donnéesL’exploration de données, connue aussi sous l'expression de fouille de données, forage de données, prospection de données, data mining, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.