Publication

An Agent-Based Focused Crawling Framework for Topic- and Genre-Related Web Document Discovery

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search

Capture de données d'écran

La capture de données d’écran (screen scraping en anglais) est une technique par laquelle un programme récupère des données normalement destinées à être affichées par un dispositif de sortie vidéo (généralement un moniteur) afin d’en extraire des informations. Il s’agit souvent de pages web dans lesquelles on souhaite récupérer des informations, mais il peut également s’agir de toute autre forme d’informations qui est formatée avant tout en vue d’être affichée sur un écran.

Ressource du World Wide Web

alt=Logo Resource Description Framework RDF|vignette|217x217px|Logo Resource Description Framework RDF Une ressource du World Wide Web est un élément constitutif de base de l'architecture du World Wide Web. C'est la traduction littérale du mot anglais resource, dont le sens est à peu près aussi général que celui du mot français. Le terme a désigné d'abord le référent d'une URL, typiquement une page web. Cette définition a par la suite été généralisée à tous les référents des URI (), et plus récemment des IRI ().

Couleur du Web

L'expression couleurs du Web désigne un jeu de couleurs appelées par un mot-clé dans les langages de description de page HyperText Markup Language (HTML) et Cascading Style Sheet (CSS). Les auteurs de pages web peuvent spécifier numériquement les couleurs des éléments qui composent un document web de plusieurs manières : par un code agglutinant les valeurs hexadécimales RGB ; par un triplet donnant ces valeurs en décimal de 0 à 255 ou par un pourcentage ; par des références Teinte Saturation Luminosité.

Hyperlien

alt=Hyperlien wikipedia|vignette|Pointeur de souris en forme de main au-dessus d'un hyperlien « Wikipedia ». Un hyperlien ou lien hypertexte, est une référence placée dans le contenu d'un document électronique permettant de passer automatiquement d'un document consulté à un autre document ou à une autre partie du même document. Il prend la plupart du temps la forme d'un texte souligné en bleu, mais peut également être placé sur une photographie, une image, un bouton, notamment.

Topic and comment

In linguistics, the topic, or theme, of a sentence is what is being talked about, and the comment (rheme or focus) is what is being said about the topic. This division into old vs. new content is called information structure. It is generally agreed that clauses are divided into topic vs. comment, but in certain cases the boundary between them depends on which specific grammatical theory is being used to analyze the sentence. The topic of a sentence is distinct from the grammatical subject.

Hypertext Markup Language

Le HyperText Markup Language, généralement abrégé HTML ou, dans sa dernière version, HTML5, est le langage de balisage conçu pour représenter les pages web. Ce langage permet d’écrire de l’hypertexte (d’où son nom), de structurer sémantiquement une page web, de mettre en forme du contenu, de créer des formulaires de saisie ou encore d’inclure des ressources multimédias dont des , des vidéos, et des programmes informatiques. L'HTML offre également la possibilité de créer des documents interopérables avec des équipements très variés et conformément aux exigences de l’accessibilité du web.

Concept search

A concept search (or conceptual search) is an automated information retrieval method that is used to search electronically stored unstructured text (for example, digital archives, email, scientific literature, etc.) for information that is conceptually similar to the information provided in a search query. In other words, the ideas expressed in the information retrieved in response to a concept search query are relevant to the ideas contained in the text of the query.

Recherche d'information

La recherche d'information (RI) est le domaine qui étudie la manière de retrouver des informations dans un corpus. Celui-ci est composé de documents d'une ou plusieurs bases de données, qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées, telles celles mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet et les intranets. Le contenu des documents peut être du texte, des sons, des images ou des données.

Analyse sémantique latente

L’analyse sémantique latente (LSA, de l'anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l'anglais : Latent semantic indexation) est un procédé de traitement des langues naturelles, dans le cadre de la sémantique vectorielle. La LSA fut brevetée en 1988 et publiée en 1990. Elle permet d'établir des relations entre un ensemble de documents et les termes qu'ils contiennent, en construisant des « concepts » liés aux documents et aux termes.

Spring (framework)

En informatique, Spring est un framework open source pour construire et définir l'infrastructure d'une application Java, dont il facilite le développement et les tests. En 2004, Rod Johnson a écrit le livre Expert One-on-One J2EE Design and Development qui explique les raisons de la création de Spring. Spring est considéré comme un conteneur dit « léger ». La raison de ce nommage est expliquée par Erik Gollot dans l’introduction du document Introduction au framework Spring.