Indexation automatique de documentsL’indexation automatique de documents est un domaine de l'informatique et des sciences de l'information et des bibliothèques qui utilise des méthodes logicielles pour organiser un ensemble de documents et faciliter ultérieurement la recherche de contenu dans cette collection. La multiplicité des types de documents (textuels, medias, audiovisuels, Web) donne lieu à des approches très différentes, notamment en termes de représentation des données.
Analyse sémantique latenteL’analyse sémantique latente (LSA, de l'anglais : Latent semantic analysis) ou indexation sémantique latente (ou LSI, de l'anglais : Latent semantic indexation) est un procédé de traitement des langues naturelles, dans le cadre de la sémantique vectorielle. La LSA fut brevetée en 1988 et publiée en 1990. Elle permet d'établir des relations entre un ensemble de documents et les termes qu'ils contiennent, en construisant des « concepts » liés aux documents et aux termes.
Optimisation pour les moteurs de recherchealt=Illustration du principe de fonctionnement du PageRank|vignette|Illustration du principe de fonctionnement du PageRank. Loptimisation pour les moteurs de recherche, aussi connue sous le sigle SEO (de l'anglais « Search Engine Optimization »), inclut l'ensemble des techniques qui visent à améliorer le positionnement d'une page, d'un site ou d'une application web dans la page de résultats d'un moteur de recherche (SERP pour « Search Engine Results Page »).
Yahoo! SearchYahoo! Search is a Yahoo! internet search provider that uses Microsoft's Bing search engine to power results, since 2009, apart from four years with Google from 2015 until the end of 2018. Originally, "Yahoo! Search" referred to a Yahoo!-provided interface that sent queries to a searchable index of pages supplemented with its directory of websites. The results were presented to the user under the Yahoo! brand. Originally, none of the actual web crawling and data housing was done by Yahoo! itself.
Similarité sémantiqueLa similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances). D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes.
Moteur de recherchealt=Capture d'écran d'une page de résultat de recherche|vignette|340x340px|Capture d'écran d'une page de résultat de recherche Un moteur de recherche est une application permettant à un utilisateur d'effectuer une recherche locale ou en ligne, c'est-à-dire de trouver des ressources à partir d'une requête composée de termes. Les ressources peuvent notamment être des pages web, des articles de forums Usenet, des , des vidéos, des fichiers, des ouvrages, des sites pédagogiques, des applications, des logiciels open source.
Mot cléUn mot clé (orthographié aussi mot-clé, mot clef ou mot-clef) est un mot ou un groupe de mots utilisé pour caractériser le contenu d’un document et permettre une recherche d'informations. Une liste de mots clés permet ainsi de préciser les thématiques du document. Dans le cadre de la recherche d'informations, les termes de recherche sont autant que possible convertis en mots clés au moyen d'un thésaurus documentaire correspondant à la manière dont sont indexés les documents.
Bibliothèque numériqueUne bibliothèque numérique (virtuelle ou en ligne ou électronique) est une collection de documents (textes, images, sons) numériques (c'est-à-dire numérisés ou nés numériques) accessibles à distance (en particulier via Internet), proposant différentes modalités d'accès à l'information aux publics. Les documents peuvent être très élaborés, comme les livres numériques, ou beaucoup plus bruts. Elle peut aussi être définie comme un ensemble de collections mises en ligne pour un public précis.
NumérisationLa numérisation est la conversion des informations d'un support (texte, image, audio, vidéo) ou d'un signal électrique en données numériques que des dispositifs informatiques ou d'électronique numérique pourront traiter. Les données numériques se définissent comme une suite de caractères et de nombres qui représentent des informations. On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais). La numérisation, dans le contexte de l'administration des archives, est la conversion en masse des documents en fichiers informatiques.
Portail webUn portail web est un site web qui offre une porte d'entrée commune à un large éventail de ressources et de services accessibles sur Internet et centrés sur un domaine d'intérêt ou une communauté particulière. Les ressources et services dont l'accès est ainsi rassemblé peuvent être des sites ou des pages web, des forums de discussion, des adresses de courrier électronique, espaces de publication, moteur de recherche, etc.