Résumé
Un lac de données (en anglais data lake) est une méthode de stockage de données massives utilisée par le big data (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées. Le lac de données donne la priorité au stockage rapide et volumineux de données hétérogènes en adoptant une architecture en cluster. Il n'est pas optimisé pour les requêtes SQL comme les SGBD relationnels classiques, et s'écarte des Propriétés ACID traditionnelles. On parle depuis 2010 de SGBD NoSQL. Big Data On trouve donc dans un lac de données des données de natures et de sources différentes, telles que : des données structurées issues notamment de bases de données relationnelles (lignes et colonnes) ; des données variées issues de bases NoSQL ; des données semi-structurées (fichiers CSV, journaux, XML, JSON...) ; des données non structurées (emails, documents, PDF) ; des fichiers de type blob (images, audio, vidéo notamment). Ces données sont conservées dans le lac de données pour analyse ultérieure. Il s’agit d’une solution de gestion de données hybrides et variées ayant pour objectif de stocker de manière rapide et peu chère une grande quantité de données brutes. La principale qualité du lac de données réside en sa flexibilité. Il doit pouvoir stocker les données, quel que soit leur format. Lorsqu’une donnée est intégrée au sein du Data Lake, elle se voit attribuer un identifiant unique et est marquée au moyen d'un jeu de balises de métadonnées étendues. Lorsqu'un besoin se présente, le Data Lake est parcouru pour y rechercher des informations pertinentes. L'analyse de ces données permet alors d'apporter de la valeur et de répondre à ce besoin. Le concept de Data Lake a été évoqué pour la première fois, en 2010, par James Dixon, CTO de Pentaho, comme une solution pour le stockage de données sans pré-traitement et sans connaître précisément l’usage futur qu’il en sera fait. L'image du lac, permettant d'expliquer, que différentes sources peuvent l'alimenter de manière naturelle et brute, et que les utilisateurs peuvent y plonger pour l'explorer et en rapporter des échantillons à examiner.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.