Data lake : stockez vos data sans vous noyer dans un lac de données
À l’heure où la masse d’informations générées par une entreprise peut croître de 50 à 150 % d’une année sur l’autre, il est logique de vouloir l’exploiter au mieux et en tirer le maximum de profit.
Les infrastructures et architectures nécessaires à la gestion du Big Data rebutent encore beaucoup d’entreprises, notamment ce qui est souvent défini comme son cœur : le Data Lake.
Qu’est-ce qu’un data lake ? Quelle différence avec une data warehouse ? Quelles solutions data lake choisir ? Réponses dans l’article.
Qu’est-ce qu’un data lake ? Définition
Un data lake, ou lac de données, peut être défini en premier lieu comme un réservoir de données brutes, qualifiées à la marge, de forme structurée ou non. Ces données peuvent être :
- des extractions de bases de données relationnelles,
- des images,
- des PDF,
- des flux ou events issus d’applications métier,
- des fichiers semi-structurés CSV ou logs, etc.
Pourquoi utiliser un data lake ? Avantages du lac de données
La première mission du data lake va être l’ingestion en masse de cette donnée brute afin d’en conserver l’historique pour de futurs besoins :
- analyse d’évolution de comportements (d’un client ou d’une application),
- moteur d’IA prédictif ou de machine learning,
- ou plus pragmatiquement la monétisation de cette information auprès de nouveaux partenaires.
À cette caractéristique principale s’ajoutent de grands critères comme :
- sa structuration afin de le rendre navigable et d’éviter le marécage (data swamp),
- son élasticité qui lui permettra de croître (et en théorie décroître) à grande vitesse en termes de stockage et de puissance de calcul,
- sa sécurité garantissant le bon usage de la donnée.
Data lake, Data Warehouse : quelle différence ?
À la différence du Data Lake, le but premier du Data Warehouse est d’obtenir une donnée raffinée pour un besoin précis, récurrent, demandant de solides performances d’agrégation et permettant de servir des applications de reporting, d’analyse et parfois de nouvelles applications métier.
Mais, avec un coût du téraoctet stocké plus de 10 fois supérieur, le Data Warehouse a atteint ses limites comme pierre angulaire de la data au sein de l’entreprise.
Comment tirer parti du meilleur des deux mondes ?
Quelles solutions data lake envisager ?
De nombreuses grandes entreprises, ayant investi des sommes importantes dans leur data warehouse, ont pris le parti de faire une transition douce vers le data lake, avec une solution on premise et la composition sur mesure d’un panel d’outils pour le gérer.
Une solution on premise comme le data lake Hadoop
La fondation Apache a fourni le framework open-source Hadoop, cœur des capacités du data lake à ingérer en masse par la parallélisation et la distribution du process de stockage.
Ce framework est enrichi de très nombreux outils open source qui ont rendu la mise en place du data lake abordable (financièrement) :
- Kafka pour l’ingestion,
- Yarn pour la répartition des ressources,
- Spark pour le traitement haute performance,
- MongoDB comme base NoSQL,
- ElasticSearch et Kibana pour l’indexation des contenus et la restitution,
- et pléthore d’autres outils (bases graph, audit, sécurité) qui émergent et parfois disparaissent alors que ce marché se concentre.
Mais au final, la multiplicité des outils et la possibilité de se créer un environnement ultra personnalisé peuvent engendrer des coûts de possessions très importants, en particulier si l’on a misé sur une technologie au futur incertain.
On peut donc logiquement préférer des solutions packagées comme Cloudera qui a avalé Hortonworks, et a conservé une distribution open source, mais propose bien sûr un modèle payant mieux supporté.
Un partenariat fort avec IBM vise d’ailleurs à fournir des solutions on-premise fortes.
MapR ayant été repris en 2019 par Hewlett Packard Enterprise, va être intégrée au HPE GreenLake, solution cloud visant à rivaliser avec les géants Amazon, Microsoft, Google ou encore Oracle qui multiplient les partenariats, rachats et nouveaux développements pour bâtir des plateformes cloud rivalisant avec les meilleurs outils d’analyse de données on premise.
Une solution cloud comme le data lake AWS ou Azure
Amazon AWS, Microsoft Azure, Google Big Query ou Oracle Cloud Infrastructure Data Flow intègrent tous des outils plus ou moins aboutis de gestion de la donnée (migration, lineage, suivi), d’analyse (transformation temps réel, agrégation, analyse classique ou modèles IA), mais cette fois-ci dans le cloud.
Le Cloud mutualisé a pour gros avantage de mettre de côté la question matérielle qui peut rapidement devenir un casse-tête lorsque l’on anticipe une forte croissance de données.
Toutefois, le cloud décomplexé a montré certaines limites avec des cas de piratage de masse. Le Private Cloud d’IBM propose de garantir l’intégrité de vos données (propriété industrielle, contrats confidentiels, etc.) et la solution Azure Stack offre une version on premise des principaux outils de Microsoft dans le domaine.
Teradata aussi, autre leader mondial du data warehousing, a amorcé son virage vers une solution cloud pour espérer reconquérir une base client émoussée par les coûts de ses puissants serveurs on premise.
Le défi d’une bonne gouvernance
Toutes les solutions ont leurs avantages et inconvénients. Il ne faut donc pas perdre de vue les engagements de votre entreprise envers ses clients (RGPD, secret industriel ou professionnel) et les mettre en balance de cette recherche d’élasticité qui peut représenter des coûts structurels et humains importants.
Évaluer cet équilibre doit faire partie du travail primordial de gouvernance de la donnée, qui doit définir et structurer le data lake et donc :
- apporter un cadre humain, technique et technologique aux data engineers qui vont manipuler quotidiennement des téraoctets de données
- faciliter le travail d’investigation des data scientists pour leur moteurs IA et Machine Learning
- permettre aux utilisateurs de tracer et valider leurs sources pour garantir les résultats de leurs analyses.
Cette gouvernance va permettre de saisir les besoins réels de votre cœur de métier tout en autorisant une exploitation élargie de la donnée. L’objectif :
- faire émerger de nouveaux usages et une nouvelle compréhension de la donnée,
- apporter à vos clients les bénéfices d’une plus grande réactivité voire d’anticipation en toute sécurité.
De la bonne gouvernance peuvent découler des architectures complexes au premier abord, mais salvatrices aussi bien sur le plan technique que financier.
Le choix du data mesh pour une transition big data réussie
Ainsi, si le data lake impose son utilité, il ne fera pas nécessairement disparaître les autres structures de gestion de la donnée : du data swamp en amont, au data warehouse et datamarts en aval, jusqu’au dialogue de plusieurs de ces structures dans un contexte international, la bonne gouvernance des données peut permettre au contraire d’élargir la palette d’outils.
En favorisant le dialogue entre ces éléments de stockage et de traitement de la data, l’entreprise tirera le meilleur parti de chacun :
- les systèmes historiques jugés indispensables et fiables continueront leur œuvre
- et pourront profiter des atouts du data lake pour, par exemple, l’ ou archivage des données froides, la sécurisation des sources brutes permettant un meilleur audit et d’éventuelles reprises, etc.
Ce maillage de la donnée (data mesh en anglais), dans le cadre d’une gouvernance forte, évitera à une entreprise de gâcher un existant en se lançant dans une migration « tout data lake », voire « tout cloud » parfois irréalisable et souvent inadaptée.
Le data mesh sera alors une garantie d’acceptation et de succès dans la transition vers le Big Data.
Associé créateur de Marketor, Laurent Hercé évolue dans le monde de l’IT depuis son origine ou presque (1987). Il anime des communautés et des blogs dans les domaines IT, RH, Social Selling, Cloud computing, SaaS, innovation.
Passionné par la vulgarisation, Laurent rédige du contenu sous toutes ses formes, notamment pour les blogs, livres blancs, études et guides…