L’archivistique est la discipline relative aux principes et aux techniques relatives à la gestion des archives. Elle relève à la fois des sciences auxiliaires de l'histoire et des sciences de l'information et des bibliothèques. Selon les traditions, elle regroupe ou non le contrôle de la production de l'information (gestion documentaire ou records management). Les deux principes de base de l'archivistique sont d’une part le principe du respect des fonds (principe de provenance), d'autre part le contrôle du cycle de vie de l'information.
thumb|alt=Archives municipales Brive-la-Gaillarde, France.|Le bâtiment des archives municipales de Brive-la-Gaillarde. Les archives sont un ensemble de documents conservés pour pouvoir prouver des droits ou témoigner de certaines activités. Par métonymie, elles désignent également le lieu où l'on conserve ces documents (bâtiment ou local de conservation, ou encore l'institution chargée de leur conservation ou de leur gestion).
Le principe de conservation des documents en archivistique ou en sciences de l'information et des bibliothèques est l'un des piliers essentiels de ces disciplines, avec la collecte des documents, le classement des archives ou les classifications décimales ou documentaires des bibliothèques ou centres de ressources. Les mesures appliquées par les bibliothécaires et les archivistes, notamment, pour conserver les documents (livres, archives, objets) ont pour but initial de leur assurer une « durée de vie » maximale.
In the study of history as an academic discipline, a primary source (also called an original source) is an artifact, document, diary, manuscript, autobiography, recording, or any other source of information that was created at the time under study. It serves as an original source of information about the topic. Similar definitions can be used in library science and other areas of scholarship, although different fields have somewhat different definitions.
La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus. Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information.
alt=Logo de Internet Archive|vignette|Logo de Internet Archive Le Web est par essence un média éphémère. Certains sites sont mis à jour très souvent, d'autres disparaissent ou changent de fournisseur ou d'hébergeur. Face à ce constat, il a été tenté, dans une perspective de conservation du patrimoine, de procéder à l'archivage du Web. Ces préoccupations ne sont pas récentes, si l'on considère que la Bibliothèque nationale du Canada a lancé ses projets dès juin 1994 et qu'Internet Archive, un des organismes les plus connus dans l'archivage d'internet, a été créé en 1996.
Un résumé est une forme de compression textuelle avec perte d'information. Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques. La forme la plus connue et la plus visible des condensés de textes est le résumé, représentation abrégée et exacte du contenu d'un document. Cependant, produire un résumé pertinent et de qualité demande au résumeur (un humain ou un système automatique) l'effort de sélectionner, d'évaluer, d'organiser et d'assembler des segments d'information selon leur pertinence.
thumb|right|Exemple de document papier. Un document renvoie à un ensemble formé par un support et une information (le contenu), celle-ci enregistrée de manière persistante. Il a une valeur explicative, descriptive ou de preuve. Vecteur matériel de la pensée humaine, il joue un rôle essentiel dans la plupart des sociétés contemporaines, tant pour le fonctionnement de leurs administrations que dans l'élaboration de leurs savoirs.
droite|vignette|250px|La version de l'édit de nantes conservée aux Archives nationalesdroite|vignette|250px|Une copie de la déclaration d'indépendance des États-Unis Un document historique est un document contenant une ou plusieurs informations importantes sur une personne, un lieu ou un événement. Les documents historiques les plus célèbres sont des textes de loi, des récits de bataille (souvent donnés par les vainqueurs eux-mêmes ou des personnes partageant leur point de vue) des exploits d'individus remarquables.
Le traitement automatique du langage naturel (TALN), en anglais natural language processing ou NLP, est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle, qui vise à créer des outils de traitement du langage naturel pour diverses applications. Il ne doit pas être confondu avec la linguistique informatique, qui vise à comprendre les langues au moyen d'outils informatiques.