CorpusUn corpus est un ensemble de documents, artistiques ou non (textes, s, vidéos), regroupés dans une optique précise. On peut utiliser des corpus dans plusieurs domaines : études littéraires, linguistiques, scientifiques, philosophie La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.
Projet (management)Un projet est — en management d'entreprise — un ensemble finalisé d’activités et d’actions entreprises par une « équipe projet » sous la responsabilité d'un chef de projet dans le but de répondre à un besoin défini par un contrat dans des délais fixés et dans la limite d'une enveloppe budgétaire allouée. Comme exemple de projets célèbres, on peut citer le « projet Manhattan ».
Ressource du World Wide Webalt=Logo Resource Description Framework RDF|vignette|217x217px|Logo Resource Description Framework RDF Une ressource du World Wide Web est un élément constitutif de base de l'architecture du World Wide Web. C'est la traduction littérale du mot anglais resource, dont le sens est à peu près aussi général que celui du mot français. Le terme a désigné d'abord le référent d'une URL, typiquement une page web. Cette définition a par la suite été généralisée à tous les référents des URI (), et plus récemment des IRI ().
Concordancier multilingueUn concordancier multilingue est un outil informatique permettant de gérer des corpus parallèles. Par métonymie, le concordancier multilingue désigne aussi ces corpus. Un corpus parallèle est un ensemble de groupes de textes qui, deux à deux, dans chaque groupe, sont des traductions mutuelles. L'Acquis communautaire européen est un exemple où chaque groupe comporte un texte pour chacune des langues officielles de l'Union européenne. L'ensemble des groupes désignent les lois régissant la communauté européenne.
Gestion électronique des documentsLa gestion électronique des documents (GED ou en anglais DMS pour Document Management System ou EDM pour Electronic Document Management) désigne un logiciel informatisé visant à organiser et gérer des informations sous forme de documents électroniques au sein d'une organisation. Les logiciels de GED intègrent d'autres fonctionnalités permettant de faciliter voire d'automatiser la gestion des documents.
HiérarchieLe concept de hiérarchie tiré des vocables grec hieros (« sacré ») et archos (« commencement », ou « ce qui est premier ») ou plus certainement arkhê (« pouvoir », ou « commandement ») s'applique à plusieurs domaines, physiques ou moraux. Définition économique : fait qu'un individu A puisse obtenir d'un individu B qu'il serve les intérêts de son supérieur plutôt que ses intérêts propres. Étymologiquement parlant, la notion de hiérarchie est basée sur le caractère plus ou moins sacré attribué à une personne, un concept ou une chose.
Fouille de textesLa fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est souvent désignée sous l'anglicisme text mining. Elle désigne un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.
Relationship extractionA relationship extraction task requires the detection and classification of semantic relationship mentions within a set of artifacts, typically from text or XML documents. The task is very similar to that of information extraction (IE), but IE additionally requires the removal of repeated relations (disambiguation) and generally refers to the extraction of many different relationships. The concept of relationship extraction was first introduced during the 7th Message Understanding Conference in 1998.
Base de données orientée documentsUne base de données orientée documents est une base de données destinée aux applications qui gèrent des documents. Egalement nommée "magasin de documents", c'est un programme informatique et un système de stockage de données conçu pour stocker, récupérer et gérer des informations orientées documents, également appelées données semi-structurées. Ce type de bases de données peut être une sur-couche d'une base de données relationnelle ou non. C'est également l'une des principales catégories de bases de données NoSQL.
Web contentWeb content is the text, visual or audio content that is made available online and user encountered as part of the online usage and experience on websites. It may include text, , sounds and audio, online videos, among other items placed within web pages. In the book Information Architecture for the World Wide Web, Lou Rosenfeld and Peter Morville wrote, "We define content broadly as 'the stuff in your website.