L'annotation sémantique est l'opération consistant à relier le contenu d'un texte à des entités dans une ontologie. Par exemple, pour la phrase «Paris est la capitale de la France.», l'annotation correcte de Paris serait Paris et non Paris Hilton. L'annotation sémantique est une variante plus détaillée mais moins exacte de la méthode des entitiés nommées, car ces dernières décrivent seulement la catégorie de l'entité (Paris est une ville, sans la relier à la bonne page Wikipédia).
La tâche d'annotation sémantique est souvent considéré comme un des aspects applicatifs du Web sémantique, notamment pour trouver les métadonnées en relation avec l'identité sémantique des données annotées.
L'annotation sémantique est une tâche de fouille de texte proche des méthodes de traitement automatique des langues qui consiste à étiqueter dans un document les mots avec des liens qui pointent vers une description sémantique.
Outre l'insertion de contenus qui permettent de compléter un texte (par exemple en identifiant automatiquement les noms de personnes et en fournissant leur date de naissance), l'annotation sémantique joue un rôle essentiel en désambiguïsation en fournissant un identifiant unique représentant parfaitement l'identité du mot ou du groupe de mots annotés.
On peut ainsi définir l'annotation sémantique comme la tâche permettant de déterminer l'identité exacte d'un concept contenu dans un texte et de fournir des informations sur ce concept.
Ses applications sont nombreuses, de la fouille de données intelligente à la conception d'application de compréhension du langage de haut niveau comme Siri.
Les systèmes d'annotation sémantique recourant à de très volumineuses ressources ontologiques, requises pour la désambiguïsation, ainsi qu'à des modèles de classification complexes et eux aussi parfois volumineux, ils sont le plus souvent livrés sous forme de services Web gratuits ou par abonnement. Certains systèmes tels DBpedia Spotlight sont fournis à la fois sous forme de logiciel serveur et de web service, mais sont très complexes à déployer et maintenir.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
This course introduces the foundations of information retrieval, data mining and knowledge bases, which constitute the foundations of today's Web-based distributed information systems.
The eighth edition of Les Rencontres de l'EDAR invites doctoral students to reflect on scientific visualisation, referring to their own experience as young scholars - whether related to their PhD diss
This course gives an introduction to the fundamental concepts and methods of the Digital Humanities, both from a theoretical and applied point of view. The course introduces the Digital Humanities cir
Couvre la présentation de 4 projets dans le cours et la logistique connexe.
Explore les techniques de désambigation des entités, y compris les modèles NER, Viterbi et GPT, en mettant l'accent sur la conception rapide et l'apprentissage en contexte.
Couvre les fondamentaux et les algorithmes du classement basé sur les liens, y compris l'indexation de texte d'ancrage, PageRank, HITS, et les implémentations pratiques.
La reconnaissance d'entités nommées est une sous-tâche de l'activité d'extraction d'information dans des corpus documentaires. Elle consiste à rechercher des objets textuels (c'est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que noms de personnes, noms d'organisations ou d'entreprises, noms de lieux, quantités, distances, valeurs, dates, etc. À titre d'exemple, on pourrait donner le texte qui suit, étiqueté par un système de reconnaissance d'entités nommées utilisé lors de la campagne d'évaluation MUC: Henri a acheté 300 actions de la société AMD en 2006 Henri a acheté 300 actions de la société AMD en 2006.
L'extraction de connaissances est le processus de création de connaissances à partir d'informations structurées (bases de données relationnelles, XML) ou non structurées (textes, documents, images). Le résultat doit être dans un format lisible par les ordinateurs. Le groupe RDB2RDF W3C est en cours de standardisation d'un langage d'extraction de connaissances au format RDF à partir de bases de données. En français on parle d'« extraction de connaissances à partir des données » (ECD).
BabelNet est un réseau sémantique multilingue et une ontologie lexicalisée. BabelNet a été créé en intégrant automatiquement la plus grande encyclopédie multilingue – c’est-à-dire Wikipédia – avec le lexique de la langue anglaise le plus connu – WordNet. L’intégration a été réalisée par correspondance automatique. Les entrées manquantes dans d'autres langues ont été obtenues par des techniques de traduction automatique.
The ability to reason, plan and solve highly abstract problems is a hallmark of human intelligence. Recent advancements in artificial intelligence, propelled by deep neural networks, have revolutionized disciplines like computer vision and natural language ...
While the idea of technology as a driving force of history and society has been extensively studied in the history of the Industrial Revolutions, little attention has been paid to the social perception of those technologies. This thesis focuses on the disc ...
Mapping the technology landscape is crucial for market actors to take informed investment decisions. However, given the large amount of data on the Web and its subsequent information overload, manually retrieving information is a seemingly ineffective and ...