Base de données, Datawarehouse, Datamart, Data Lake. Les différences majeures?

Base de données, Datawarehouse, Datamart, Data Lake. Les différences majeures?

Bildergebnis für datawarehouseComprendre rapidement les technologies de stockage essentielles utilisées de nos jours.

Avec le boom du Big Data, les techniques de stockage ont évolué exponentiellement. Tandis que les systèmes d’information des années 80 étaient axés métiers et reliés à des ERP, les méthodes de stockage étaient généralement des data warehouses.

Les data warehouses: systèmes centralisés et structurés

Les data warehouses sont des systèmes centralisés qui stockent des données structurées. Ce sont de grandes bases de données générales qui contiennent toutes les données d’une entreprise.

Les data warehouses se nourrissent de différentes sources, telles des données des ERP ou des serveurs d’internet ou d’autres sources multiples. Grâces à des programmes ETL (extract, transform, load), les données sont extraites des sources, transformées, nettoyées et adaptées aux codes fixés par les metadonnées des warehouses.

Un datamart : plus petit en taille et plus pratique

Un datamart est un sous-ensemble d’un data warehuose et comporte des données agrégées et fréquemment utilisées. Il existe des datamarts marketing, RH ou logistique.

Actuellement, avec le data déluge, les entrepôts de données ne correspondent plus aux différents formats et volumes des données collectées. Une nouvelle technique de stockage est utilisée: les data lakes.

Les data lakes : systèmes centralisés et hybrides

Ici, les entrepôts sont toujours centralisés, mais ils peuvent contenir des données structurées (des ERP), des données semi-structurées (html, xml…) et des données non-structurées (audio, vidéo, pdf…). Et le pouvoir de processing se trouve également démultiplié pour faire face aux données récoltées en temps réels dans différentes sources. Hadoop est le leader mondial.