Page webalt=|vignette|Une page web de Wikipédia. La page web, ou page Web, est l'unité de consultation du World Wide Web. Ce terme a une signification pratique ; il n'a pas de définition technique formelle. Les pages web sont conçues pour être consultées avec un navigateur web. Elles sont identifiées par une adresse web. Techniquement, une page web est généralement constituée d'un document rédigé en Hypertext Markup Language (HTML) pour la structure de base, d', de feuilles de style en cascade (CSS) pour la mise en page, et de JavaScript pour la programmation informatique des fonctionnalités plus avancées.
Web scrapingLe web scraping, parfois appelé harvesting ou en français moissonnage, est une technique d'extraction des données de sites Web par l'utilisation d'un script ou d'un programme dans le but de les transformer et les réutiliser dans un autre contexte comme l'enrichissement de bases de données, le référencement ou l'exploration de données. Aux États-Unis, la société hiQ Labs utilise le web scraping sur les données de LinkedIn à des fins de recrutement.
Page web dynamiqueUne page web dynamique est une page web générée à la demande, par opposition à une page web statique. Le contenu d'une page web dynamique peut donc varier en fonction d'informations (heure, nom de l'utilisateur, formulaire rempli par l'utilisateur, etc.) qui ne sont connues qu'au moment de sa consultation. À l'inverse, le contenu d'une page web statique est a priori identique à chaque consultation. Lors de la consultation d'une page web statique, un serveur HTTP renvoie le contenu du fichier où la page est enregistrée.
Page web statiqueUne page web statique est une page web dont le contenu ne varie pas en fonction des caractéristiques de la demande, c'est-à-dire qu'à un moment donné tous les internautes qui demandent la page reçoivent le même contenu. À l'inverse, une page web dynamique est générée à la demande et son contenu varie en fonction des caractéristiques de la demande (heure, adresse IP de l'ordinateur du demandeur, formulaire rempli par le demandeur, etc.) qui ne sont connues qu'au moment de sa consultation.
World Wide Webvignette|Logo historique du World Wide Web par Robert Cailliau. vignette|Où la toile est née, plaque commémorant la création du World Wide Web dans les locaux du CERN. Le World Wide Web ( ; littéralement la « toile (d’araignée) mondiale », abrégé www ou le Web), la toile mondiale ou la toile, est un système hypertexte public fonctionnant sur Internet. Le Web permet de consulter, avec un navigateur, des pages accessibles sur des sites. L’image de la toile d’araignée vient des hyperliens qui lient les pages web entre elles.
Résumé automatique de texteUn résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.
Recherche d'informationLa recherche d'information (RI) est le domaine qui étudie la manière de retrouver des informations dans un corpus. Celui-ci est composé de documents d'une ou plusieurs bases de données, qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées, telles celles mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet et les intranets. Le contenu des documents peut être du texte, des sons, des images ou des données.
CorpusUn corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.
Conception de site webLa création et la conception de site web ou web design est la conception de l'interface web : l’architecture interactionnelle, l’organisation des pages, l’arborescence et la navigation dans un site web. La conception d'un design web tient compte des contraintes spécifiques du support Internet, notamment en matière d’ergonomie, d’utilisabilité et d’accessibilité. Le web design réclame donc des compétences en programmation, en ergonomie et en interactivité, ainsi qu'une bonne connaissance des contraintes techniques liées à ce domaine.
Fouille de textesLa fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.