Data Lineage en français "lignée des données" est un processus qui vise à fournir une cartographie du système d'information. Il permet une visualisation du cycle de vie de la donnée en vue de répondre aux questions suivantes : de quelle source provient cette donnée, et quelles transformations a-t-elle subies. Cette thématique prend de l'importance avec l'arrivée du RGPD. Le data Lineage comprend l’origine des données, ce qui leur arrive et où elles se déplacent au fil du temps. La traçabilité des données offre de la visibilité tout en simplifiant considérablement la possibilité de retracer les erreurs jusqu’à la cause première dans un processus d’analyse de données. Il permet également de relire des parties ou des entrées spécifiques du flux de données pour un débogage par étapes ou la régénération de la sortie perdue. Les systèmes de base de données utilisent ces informations, appelées provenance des données, pour relever des problèmes similaires de validation et de débogage. La provenance des données fait référence aux enregistrements des entrées, des entités, des systèmes et des processus qui influencent les données d’intérêt, fournissant un enregistrement historique des données et de leurs origines. Les preuves générées prennent en charge les activités telles que l’analyse de la dépendance des données, la détection et la récupération des erreurs /compromissions, l’audit et l’analyse de la conformité. La lignée des données peut être représentée visuellement pour découvrir le flux /mouvement des données de sa source à sa destination via divers changements et sauts sur son chemin dans l’environnement de l’entreprise, comment les données sont transformées en cours de route, comment la représentation et les paramètres changent, et comment les données se divisent ou convergent après chaque saut. Une représentation simple de la lignée de données peut être montrée avec des points et des lignes, où point représente un conteneur de données pour les points de données et les lignes les reliant représente les transformations subies par le point de données entre les conteneurs de données.
Julia Schmale, Andrea Baccarini, Ivo Fabio Beck, Hélène Paule Angot