Möglichkeiten der Datenspeicherung

Möglichkeiten der Datenspeicherung
Daten und Kontext
Kategorien
Data Management
Schlagworte
No items found.
Autor
Tanja Kiellisch
Lesedauer
5 Minuten

Data Warehouse vs. Data Lake vs. Data Mart

Wer große Datenmengen speichern will, muss neben der Verortung – On-Premise oder Off-Premise – auch die Form im Blick haben: Data Warehouse, Data Lake und Data Mart sind die drei gängigsten Datendepots, um eine Vielzahl von unterschiedlichen Quellen auf einer Plattform zu vereinen. Im Gespräch mit unserem Datenexperten Frederic Bauerfeind erörtern wir, warum und wann welche Speichervariante die passende Wahl ist und wie sie in den Modern Data Stack integriert wird.


„Wenn hier der Wurm drin ist, werden sämtliche Analysen faulig.“

Ein Data Warehouse ist ein relationales Datenbanksystem für analytische Abfragen. Innerhalb dieser Datenbank werden mehrere meist heterogene Quellen zusammengeführt. Hier werden alle die Daten strukturiert „gelagert“, die jederzeit für die weitere Verarbeitung abgerufen werden können. Ein Data Warehouse kann Daten in sehr großem Umfang sammeln und miteinander kombinieren. Während sie früher on premise gehostet wurden, basieren Data Warehouses heutzutage überwiegend auf Cloud-Technologien. Der Umfang von benötigten Daten nimmt immer weiter zu, so dass cloudbasierte Modern Data Warehouses beliebig viel Speichervolumen abrufen oder abgeben können, ohne von Servern abhängig zu sein.

taod: Frederic, was zeichnet Modern Data Warehouses noch aus?

Frederic Bauerfeind: Sie sind unheimlich flexibel und können durch No-Code Komponenten durch jedes Mitglied des Data Teams gemanaged werden. Wichtig für Analysten: Business Intelligence Platforms sind sehr einfach zu integrieren. Somit besteht direkter Zugriff auf Daten, um Reportings und Dashboards zu erstellen. Und: Die Nutzer- und Rechteverwaltung ist mit ihnen ideal zu handhaben. Das Thema Data Governance lässt sich ohne Data Warehouse eigentlich gar nicht vernünftig managen.

Das Data Warehouse gehört ohnehin bereits zur Standardausstattung vieler Unternehmen. Woran erkennen sie, dass ihre gewählte Lösung funktioniert?

Ich kenne drei typische Pain Points von Unternehmen, die unzufrieden mit ihrem Data Warehouse sind. Erstens: Zu wenig Rechenpower. Die Datenmengen und Analyseanforderungen haben sich in den letzten Jahren rapide geändert. Technologien, die als Ziel die einfache Excel-Tabelle hatten, kommen heute nicht mehr mit den Anforderungen der neuen Analysewerkzeuge klar. Zweitens: Komplexität. Je mehr Daten und Quellsysteme akquiriert und gelagert werden, desto unübersichtlicher kann das Lager werden. Drittens: Mangelnde Datenqualität. Die Datenquellen werden nicht sauber integriert und die gesamte Prozesskette ist so komplex geworden, dass die Datenqualität nicht ganzheitlich überprüft werden kann. Tritt also eines dieser Probleme auf, sollten Unternehmen sich Gedanken darüber machen, ob das derzeitige Warehouse noch zeitgemäß ist.

Ohne Modern Data Warehouse kein Modern Data Stack?

Korrekt. Das Data Warehouse ist die Quelle der Wahrheit und der Single Point of Truth für alle Analysten. Wenn hier der Wurm drin ist, werden sämtliche Analysen faulig. Alle damit verbundenen Prozesse sind nicht mehr valide und werden in Frage gestellt.

Wie können Unternehmen ihr Warehouse modernisieren?

Ab in die Cloud. Und dann hängt es natürlich wie immer von den unternehmensspezifischen Anforderungen ab, welches Warehouse geeignet ist. Das lässt sich aber unkompliziert herausfinden und testen.

Ist der Data Lake etwas für Leute, die ungern aufräumen?

Ja, auch. Aber natürlich ist er zunächst einmal eine sehr praktische und schnelle Methode, besonders umfangreiche Daten zu sammeln und zu speichern. Analysten haben mit diesen Rohdaten teils viel bessere Auswertungsmöglichkeiten als mit vorstrukturierten Daten in einem Warehouse, da sie frei wählen und kombinieren können.

Was hat es in dem Zusammenhang mit dem sogenannten Data Swamp auf sich?

Die Datenmassen können schnell so groß und unübersichtlich werden, dass der See zum Sumpf mutiert und Anwendende darin versacken. Das ist der Data Swamp. Deshalb ist ein Data Lake immer erst einmal eine gute Zwischenlösung besonders für riesige Datenmengen, ein Data Warehouse sollte für die weitere Strukturierung und Transformierung aber unbedingt angebunden werden.

Womit die Rolle des Data Lake innerhalb des Modern Data Stacks klar definiert wäre.

Wer enorm viele Daten sammelt, braucht einen Data Lake. Sammeln ist erst mal gut und es gibt einige Anwendungsszenarien für diese Rohdaten. Ich kenne bislang kein Unternehmen, das aber nicht auch strukturierte Daten benötigen würde und deren Analysten nicht die Arbeit mit BI-Tools bevorzugen. Von daher steht das Zusammenspiel von Data Lake und Date Warehouse in einem modernen Technik-Stack außer Frage.

Dann gibt es auch noch den Begriff Data Lakehouse. Was genau ist das?

Gegenfrage: Ich nenne Dir nun fünf Tiernamen. Hinter welchem der folgenden Tiernamen verbirgt sich eine Technologie: Elk, Ant, Python, Impala, GNU?

So weit ich weiß, hinter jedem Namen?

Genau. Hinter jedem der Tiernamen stehen Technologien. Viele Namen und Begriffe sind einfach Marketing. Und zurück zu unserem Data Lakehouse: Es ist alter Wein in neuen Schläuchen. Neue Software ermöglicht die Aggregierung von Daten direkt aus dem Data Lake heraus, ohne dass die Daten in ein Warehouse reinkopiert werden müssten. In manchen Szenarien kann das Sinn machen. Das Grundprinzip des Data Lakes bleibt aber dasselbe.

Wo befinden sich Data Marts innerhalb des Modern Data Stacks?

Data Marts werden innerhalb des Data Warehouse modelliert und bereitgestellt. Architektonisch ist der Data Mart vor den Business Intelligence Tools angesiedelt.

Must-have?

Sicher. Daten können so auf ideale Weise für bestimmte Nutzergruppen geclustert und dokumentiert werden. Sie decken dann einen bestimmten Themenbereich ab. Du könntest sie sogar mit Daten aus anderen Quellsystemen verknüpfen und anreichern, das sind dann hybride Data Marts. Also die Möglichkeiten zur Ausgestaltung sind wirklich umfangreich.

Data Warehouse, Data Lake und Data Mart sind essenziell für den Modern Data Stack. Wie schaffen Unternehmen die Konfiguration dieser Stack-Elemente?

Diese drei Elemente sind der Dreh- und Angelpunkt des Modern Data Stacks, das sage ich ganz deutlich und ohne Pathos. Wer bereits eine bestehende Infrastruktur hat und modernisieren will oder muss, der schafft das genauso, wie jemand ohne solide Basisstruktur: Mit einer ausführlichen Bestandsanalyse, der Auswahl und Bewertung möglicher Tools, Offenheit für Cloud-Technologien und Motivation.

Rom wurde auch nicht an einem Tag erbaut?

Rom nicht. Aber der Modern Data Stack durchaus.

No items found.
No items found.
Weitere Themen und Beratung rund um Data und Analytics
No items found.
Bleib mit unserem monatlichen Newsletter immer auf dem aktuellen Stand. Alle neuen Whitepaper, Blog-Artikel und Infos inklusive.
Newsletter abonnieren
Firmensitz Köln

taod Consulting GmbH
Oskar-Jäger-Str. 173, K4
50825 Köln‍
Standort Hamburg

taod Consulting GmbH
Alter Wall 32
20457 Hamburg
Standort Stuttgart

taod Consulting GmbH
Schelmenwasenstraße 37
70567 Stuttgart