Un lac de données (en anglais data lake) est une méthode de stockage de données massives utilisée par le big data (mégadonnées en français). Ces données sont gardées dans leurs formats originaux ou sont très peu transformées. Le lac de données donne la priorité au stockage rapide et volumineux de données hétérogènes en adoptant une architecture en cluster. Il n'est pas optimisé pour les requêtes SQL comme les SGBD relationnels classiques, et s'écarte des Propriétés ACID traditionnelles. On parle depuis 2010 de SGBD NoSQL. Big Data On trouve donc dans un lac de données des données de natures et de sources différentes, telles que : des données structurées issues notamment de bases de données relationnelles (lignes et colonnes) ; des données variées issues de bases NoSQL ; des données semi-structurées (fichiers CSV, journaux, XML, JSON...) ; des données non structurées (emails, documents, PDF) ; des fichiers de type blob (images, audio, vidéo notamment). Ces données sont conservées dans le lac de données pour analyse ultérieure. Il s’agit d’une solution de gestion de données hybrides et variées ayant pour objectif de stocker de manière rapide et peu chère une grande quantité de données brutes. La principale qualité du lac de données réside en sa flexibilité. Il doit pouvoir stocker les données, quel que soit leur format. Lorsqu’une donnée est intégrée au sein du Data Lake, elle se voit attribuer un identifiant unique et est marquée au moyen d'un jeu de balises de métadonnées étendues. Lorsqu'un besoin se présente, le Data Lake est parcouru pour y rechercher des informations pertinentes. L'analyse de ces données permet alors d'apporter de la valeur et de répondre à ce besoin. Le concept de Data Lake a été évoqué pour la première fois, en 2010, par James Dixon, CTO de Pentaho, comme une solution pour le stockage de données sans pré-traitement et sans connaître précisément l’usage futur qu’il en sera fait. L'image du lac, permettant d'expliquer, que différentes sources peuvent l'alimenter de manière naturelle et brute, et que les utilisateurs peuvent y plonger pour l'explorer et en rapporter des échantillons à examiner.
Anastasia Ailamaki, Panagiotis Sioulas, Eleni Zapridou
Aleksandra Radenovic, Andras Kis, Martina Lihter, Mukesh Kumar Tripathi, Mukeshchand Thakur, Andrey Chernev, Nianduo Cai, Yunfei Teng, Michal Daniel Macha, Yanfei Zhao, Miao Zhang