Les informations non structurées ou données non structurées sont des données représentées ou stockées sans format prédéfini. Ces informations sont toujours destinées à des humains. Elles sont typiquement constituées de documents textes ou multimédias, mais peuvent également contenir des dates, des nombres et des faits. Cette absence de format entraîne des irrégularités et des ambiguïtés qui peuvent rendre difficile la compréhension des données, contrairement au cas des données stockées dans des tableurs ou des bases de données par exemple, qui sont des informations structurées.
Dans un livre blanc publié en octobre 2007, l'Association des Professionnels des Industries de la Langue (APIL), l'Aproged et le Cigref indiquent que les informations non structurées correspondent à un nouveau paradigme, tant sur le plan de l'évolution des techniques, que de l'évolution des structures de gouvernance et de l'évolution des rapports à l'information. Concernant ce dernier point, les informations non structurées
correspondent à une tendance qui s'étend avec l'apparition de ce que l'on appelle le web 2.0, qui comprend un volet technique et un volet social (voire sociétal), le second étant prépondérant. Le volet social s'organise autour de la démocratisation du Net, par la prise en compte des communautés et des réseaux sociaux, et par la promotion de la contribution des internautes.
Les enjeux pour l'entreprise sont :
l'anticipation ;
la maîtrise des coûts ;
le respect de la conformité légale ;
la continuité et la gestion des risques.
Les traitements de texte, le web 2.0 (notamment les wikis), les systèmes de gestion des connaissances, les systèmes de gestion de contenu et les outils d'intelligence économique travaillent essentiellement avec des informations non structurées.
Informations structurées
Connaissance explicite
Web 2.0
Wiki
Exploration de données
Architecture générale pour le traitement de texte
Métadonnée
Reconnaissance de formes
Livre blanc - Valorisation de l'information non structurée, APIL, Aproged, Cigref,
Catég
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
This course will take place from 3rd to 7th June 2024.It will introduce the workflows and techniques that are used for the analysis of bulk and single cell RNA-seq data. It will empower students to
The objective of this course is to present the main models, formalisms and algorithms necessary for the development of applications in the field of natural language information processing. The concept
Explore l'efficacité des commérages dans les systèmes décentralisés, couvrant les protocoles, les besoins d'interaction et l'optimisation de la bande passante, ainsi que les algorithmes de recherche et les optimisations.
Présente les bases du traitement de données textuelles, couvrant la récupération de documents, la classification, l'analyse des sentiments et la détection de sujets.
Explore l'exploration de graphes dans les réseaux sociaux, couvrant l'analyse de données et la détection de communauté.
Le big data ( « grosses données » en anglais), les mégadonnées ou les données massives, désigne les ressources d’informations dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques particulières pour créer de la valeur, et qui dépassent en général les capacités d'une seule et unique machine et nécessitent des traitements parallélisés. L’explosion quantitative (et souvent redondante) des données numériques permet une nouvelle approche pour analyser le monde.
Information extraction (IE) is the task of automatically extracting structured information from unstructured and/or semi-structured machine-readable documents and other electronically represented sources. In most of the cases this activity concerns processing human language texts by means of natural language processing (NLP). Recent activities in multimedia document processing like automatic annotation and content extraction out of images/audio/video/documents could be seen as information extraction Due to the difficulty of the problem, current approaches to IE (as of 2010) focus on narrowly restricted domains.
vignette|upright=2|Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813, par Charles Minard, 1869. La visualisation des données (ou dataviz ou représentation graphique de données) est un ensemble de méthodes permettant de résumer de manière graphique des données statistiques qualitatives et surtout quantitatives afin de montrer les liens entre des ensembles de ces données. Cette fait partie de la science des données.
In the current era of big data, aggregation queries on high-dimensional datasets are frequently utilized to uncover hidden patterns, trends, and correlations critical for effective business decision-making. Data cubes facilitate such queries by employing p ...
Mapping the technology landscape is crucial for market actors to take informed investment decisions. However, given the large amount of data on the Web and its subsequent information overload, manually retrieving information is a seemingly ineffective and ...
Surrogate-based optimization is widely used for aerodynamic shape optimization, and its effectiveness depends on representative sampling of the design space. However, traditional sampling methods are hard-pressed to effectively sample high-dimensional desi ...