
Kommandozentrale im Modern Data Stack
Ein Datenkatalog, oder auch Data Catalog, ist grundlegender Baustein für den Aufbau eines Modern Data Stacks. Denn er erfasst nicht nur den eigenen Datenbestand und alle damit zusammenhängenden Informationen bis ins Detail – er ist der Single Point of Entry für alle anfallenden Fragen und Herausforderungen, denen Unternehmen entlang ihrer Data Journey begegnen. Der Datenkatalog ist elementar für die gesamtheitliche Etablierung einer lebendigen und verstandenen Datenkultur.
Ein Modern Data Stack besteht aus vielen kleinen Bausteinen, die uns helfen, die Brücke zwischen Rohdaten und Data Analytics zu schlagen. Der Data Catalog ist somit Teil eines Modern Data Stacks und hilft uns dabei, diese Brücke aufzubauen. Mehr noch: der Datenkatalog unterstützt uns am Ende sogar dabei, die einzelnen Inhalte und Bausteine der Brücke zu verstehen und zu dokumentieren.
Was ist ein Datenkatalog?
Der Datenkatalog ist ein „zentralisiertes Informationsregister, das Informationen über sämtliche Unternehmensdaten enthält und damit die effiziente Datenverwaltung, -kategorisierung und -nutzung im Unternehmen ermöglicht.“ (Contiamo)
Schlicht gesprochen behalten wir mit ihm den Überblick über unser Datengeschehen. Das betrifft sowohl die Daten selbst, als auch alle mit ihnen zusammenhängenden Informationen. Zu diesen Metadaten zählen Datenquellen, Systeme, Technologien wie auch Ausprägungen der Daten, Tabellengrößen oder Abhängigkeiten zwischen verschiedenen Systemen und das unabhängig davon, ob die Daten bereits transformiert wurden oder nicht.
Wichtiges Instrument der Data Discovery
Die vollständige Dokumentation aller Quellsysteme, Transformationen und Prozesse gelingt definitiv nur mithilfe eines Datenkatalogs. Ein Data Warehouse ist durchaus in der Lage, Daten vernünftig zu strukturieren und zu transformieren. Allerdings vereinfacht der Datenkatalog den Einstieg in die Datensichtung ungemein, da durch Konnektoren vollkommen automatisiert eine erste Data Discovery der Datenquellen vorgenommen werden kann. Diese Data Discovery ermöglicht im Grunde, die Quellsysteme besser zu verstehen.
Data Wrangling, also Rohdaten bereinigen und sortieren, wird somit um ein Vielfaches schneller und einfacher. Das Data Team erhält durch diese Vorbereitung mannigfache Informationen, um beispielsweise eine Datenmodellierung oder Prozesse zu planen. Während der Umsetzung kann das Data Team immer wieder auf diese Infos zurückgreifen, um schneller und agiler zu arbeiten. Hat das Team nun die Akquisition, das Laden und die Transformationen in zum Beispiel einem Modern Data Stack durchgeführt, können die einzelnen Services wiederum in einem Data Catalog eingebunden werden. Dadurch entsteht eine sogenannte Data Lineage, die belegt, woher die Daten kommen, wie sie kombiniert und angereichert wurden.
Zentrale Funktion des Datenkatalogs
Der Datenkatalog ist somit die Kommandozentrale des Modern Data Stacks. Alle in einem Data Catalog dokumentierten Datenquellen, Prozesse und Daten können überwacht und der Modern Data Stack durch diese Informationen gesteuert und optimiert werden. Im besten Falle positioniert sich der Data Catalog innerhalb des gesamten ETL- beziehungsweise ELT-Prozesses. Sämtliche Ladevorgänge, sowie die Bewegungen der Daten zwischen verschiedenen Systemen innerhalb des Stacks, werden auf diese Weise aufgenommen und dokumentiert. Das Data Team hat somit mehr Zeit, die es in neue Analysen und Auswertungen investieren kann.
Nicht zuletzt unterstützt der Einsatz eines Datenkatalogs eine praktisch gelebte Datenkultur. Sämtliche Mitarbeitende im Unternehmen werden dazu befähigt, schneller und einfacher die Quellsysteme zu verstehen, um dieses Wissen schließlich auf die Umsetzung zu adaptieren. Dieses große Vertrauen in ein zentrales Datenregister sorgt für neu gewonnene Sicherheit im aktiven Umgang mit Daten innerhalb eines Modern Data Stack.