Concept

Indexation automatique de documents

L’indexation automatique de documents est un domaine de l'informatique et des sciences de l'information et des bibliothèques qui utilise des méthodes logicielles pour organiser un ensemble de documents et faciliter ultérieurement la recherche de contenu dans cette collection. La multiplicité des types de documents (textuels, medias, audiovisuels, Web) donne lieu à des approches très différentes, notamment en termes de représentation des données. Elles reposent néanmoins sur un socle de théories communes, telles que l'extraction de caractéristiques, le partionnement de données (ou clustering), la quantification, et plus généralement la recherche d'information. En revanche, les fichiers séquentiels indexés constituent une technique d'usage très général en informatique, pour le stockage de données numériques (Voir Fichier (informatique)). Un index est, en toute généralité, une liste de descripteurs à chacun desquels est associée une liste des documents et/ou parties de documents auxquels ce descripteur renvoie. Ce renvoi peut être pondéré. Lors de la recherche d'information d'un usager, le système rapprochera la demande de l'index pour établir une liste de réponses. En amont, les méthodes utilisées pour constituer automatiquement un index pour un ensemble de documents varient considérablement avec la nature des contenus documentaires à indexer. L'indexation de données essaye de répondre à la question suivante : comment organiser au mieux une collection de documents afin de pouvoir plus tard retrouver facilement celui qui m'intéresse ? Une réponse classique consiste à annoter manuellement chaque document d'une série de métadonnées (titre, catégorie(s), date de parution, auteur etc.). Cette approche a l'avantage d'être facile à mettre en œuvre, et de fournir des renseignements de qualité (selon l'expertise de la personne chargée de l'annotation).

Source officielle

https://fr.wikipedia.org/wiki/Indexation_automatique_de_documents

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Cours associés (10)

MICRO-435: Quantum and nanocomputing

The course teaches non von-Neumann architectures. The first part of the course deals with quantum computing, sensing, and communications. The second focuses on field-coupled and conduction-based nanoc

CS-423: Distributed information systems

This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.

MATH-124: Geometry for architects I

Ce cours entend exposer les fondements de la géométrie à un triple titre : 1/ de technique mathématique essentielle au processus de conception du projet, 2/ d'objet privilégié des logiciels de concept

Afficher plus

Personnes associées (5)

Karl Aberer

Co-Founder of LinkAlong Sarl, 2017.Vice-president EPFL for Information Systems, 2012 –2016.Director of the Swiss National Centre for Mobile Information and Communication Systems NCCR MICS (mics.ch), 2005 -2012.Member of the Swiss Research and Technology Council SWTR, consulting the Swiss Federal government, 2004 - 2011.

Martin Rajman

Martin Rajman is the EPFL Ambassador to digitalswitzerland (https://digitalswitzerland.com/), a Swiss-wide, multi-stakeholder initiative coordinating the contributions of its over 200 members to strengthen Switzerland’s position as a leading digital player.Until 2017, Martin Rajman has served as Executive Director of Nano-Tera.ch, a large Swiss Research Program funding collaborative multi-disciplinary projects for the engineering of complex systems in Health and the Environment. Since 2008, the Nano-Tera.ch program started more than 100 research projects for a total public funding of more than 95 Mo CHF (~100 Mo USD). Before being appointed as Nano-Tera.ch Executive Director, Martin Rajman was Director of the EPFL Global Computing Center (CGC), an association of research groups and laboratories of the School of Computer and Communication Sciences fostering interdisciplinary research in the general area of internet computing and distributed information systems. In this position, he was managing more than 20 European projects. In parallel with his research management activities, Martin Rajman is senior researcher at EPF Lausanne, Switzerland (EPFL). His research interests include Artificial Intelligence, Computational Linguistics and Data-driven Probabilistic Machine Learning.Martin Rajman has also been active in various large scale industry-research collaborations with majors economic players. In particular, he has been involved in the improvement of the product ranking technology used by e-Bay and collaborated with Elsevier on enhanced article recommendation techniques. Martin Rajman is author or co-author of more than 100 publications and former Director of the Computer Science Series of EPFL-Press (PPUR).

Afficher plus

Unités associées (3)

Laboratoire de systèmes d'information répartis

Laboratoire d'intelligence artificielle

Groupe SCI IC MR

Source officielle

https://fr.wikipedia.org/wiki/Indexation_automatique_de_documents

À propos de ce résultat

Cours associés (10)

MICRO-435: Quantum and nanocomputing

CS-423: Distributed information systems

This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.

MATH-124: Geometry for architects I

Afficher plus

Séances de cours associées (27)

Indexation et récupération distribuée

Explore les techniques d'indexation, les fichiers inversés, les algorithmes de réduction de carte et les méthodes de récupération de documents haut de gamme dans les systèmes de récupération de texte.

Récupération d'information: Indexation et récupération

Couvre les techniques d'indexation, les algorithmes de récupération distribués et les défis dans l'indexation web à grande échelle.

Quantum et nanocomputing

Couvre l'analyse des fils quantiques, la fonction de transmission et le tunneling en points.

Publications associées (19)

Design Patterns for Resource-Constrained Automated Deep-Learning Methods

Prakhar Gupta

We present an extensive evaluation of a wide variety of promising design patterns for automated deep-learning (AutoDL) methods, organized according to the problem categories of the 2019 AutoDL challenges, which set the task of optimizing both model accurac ...

2020

Design of a quality control network for an international food company

Philippe Wieser, Nicolas Zufferey, Simone Lydia Voldrich

In this article, the design of a quality control network is considered in an entire supply chain, in the context of an international food and beverage company, denoted as ABC. For each possible control point of the network, two decisions have to be made: ( ...

TAYLOR & FRANCIS INC2020

Multimodal person recognition in audio-visual streams

Do Hoang Nam Le

Multimedia databases are growing rapidly in size in the digital age. To increase the value of these data and to enhance the user experience, there is a need to make these videos searchable through automatic indexing. Because people appearing and talking in ...

EPFL2019

Afficher plus

Personnes associées (5)

Karl Aberer

Martin Rajman

Afficher plus

Unités associées (3)

Laboratoire de systèmes d'information répartis

Laboratoire d'intelligence artificielle

Groupe SCI IC MR

Concepts associés (16)

Recherche plein texte

La recherche (en) plein texte (appelée aussi recherche en texte intégral ou recherche de texte libre) est une technique de recherche dans un document électronique ou une base de données textuelles, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l'utilisateur. Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970.

Référencement

Le référencement est l'action de référencer, c'est-à-dire mentionner quelque chose ou y faire référence. Ce terme est utilisé dans deux contextes bien spécifiques : Dans la grande distribution lors de la gestion de catalogues produits : les produits sont référencés dans les étalages. De même, des services peuvent être référencés comme prestataires potentiels. Sur Internet, le travail de référencement consiste à améliorer le positionnement et la visibilité de sites dans des pages de résultats de moteurs de recherche ou d'annuaires.

Search engine

A search engine is a software system that finds web pages that match a web search. They search the World Wide Web in a systematic way for particular information specified in a textual web search query. The search results are generally presented in a line of results, often referred to as search engine results pages (SERPs). The information may be a mix of hyperlinks to web pages, images, videos, infographics, articles, and other types of files. Some search engines also mine data available in databases or open directories.

Afficher plus