Ein Datenkatalog, oder auch Data Catalog, ist grundlegender Baustein für den Aufbau eines Modern Data Stack. Denn er erfasst nicht nur den eigenen Datenbestand und alle damit zusammenhängenden Informationen bis ins Detail: Er ist die Single Source of Truth eines Unternehmens und damit elementar für die Etablierung einer lebendigen Datenkultur.

Was ist ein Datenkatalog?

Sie erinnern sich: Ein Modern Data Stack besteht aus vielen kleinen Bausteinen, die uns helfen, die Brücke zwischen Rohdaten und Data Analytics zu schlagen. Der Data Katalog ist somit Teil eines Modern Data Stacks. Er hilft uns dabei, diese Brücke aufzubauen. Mehr noch: der Datenkatalog unterstützt uns am Ende sogar dabei, die einzelnen Inhalte und Bausteine der Brücke zu verstehen und zu dokumentieren.

Der Datenkatalog ist ein „zentralisiertes Informationsregister, das Informationen über sämtliche Unternehmensdaten enthält und damit die effiziente Datenverwaltung, -kategorisierung und -nutzung im Unternehmen ermöglicht.“ (Contiamo)

Schlicht gesprochen behalten wir mit ihm den Überblick über unser Datengeschehen. Das betrifft sowohl die Daten selbst, als auch alle mit ihnen zusammenhängenden Informationen. Zu diesen Metadaten zählen Datenquellen, Systeme und Technologien. Aber auch Ausprägungen der Daten, Tabellengrößen oder Abhängigkeiten zwischen verschiedenen Systemen. Und das unabhängig davon, ob die Daten bereits transformiert wurden oder nicht.

Wichtiges Instrument der Data Discovery

Die vollständige Dokumentation aller Quellsysteme, Transformationen und Prozesse gelingt definitiv nur mithilfe eines Datenkatalogs. Zwar ist ein Data Warehouse in der Lage, Daten vernünftig zu strukturieren und zu transformieren. Allerdings vereinfacht der Datenkatalog den Einstieg in die Datensichtung ungemein. Denn durch Konnektoren kann vollkommen automatisiert eine erste Data Discovery der Datenquellen vorgenommen werden. Diese Data Discovery ermöglicht im Grunde, die Quellsysteme besser zu verstehen.

Data Wrangling, also Rohdaten bereinigen und sortieren, wird somit um ein Vielfaches schneller und einfacher. Das Data Team erhält durch diese Vorbereitung mannigfache Informationen. Beispielsweise um eine Datenmodellierung oder Prozesse zu planen. Während der Umsetzung kann das Data Team immer wieder auf diese Infos zurückgreifen, um schneller und agiler zu arbeiten. Hat das Team nun die Akquisition, das Laden und die Transformationen zum Beispiel in einem Modern Data Stack durchgeführt, können die einzelnen Services wiederum in einem Data Catalog eingebunden werden. Dadurch entsteht eine sogenannte Data Lineage. Diese belegt, woher die Daten kommen, wie sie kombiniert und angereichert wurden.

Zentrale Funktion des Datenkatalogs

Der Datenkatalog ist somit die Kommandozentrale des Modern Data Stacks. Alle in einem Data Catalog dokumentierten Datenquellen, Prozesse und Daten können überwacht und der Modern Data Stack durch diese Informationen gesteuert und optimiert werden. Im besten Falle positioniert sich der Data Katalog innerhalb des gesamten ETL- bzw. ELT-Prozesses. Sämtliche Ladevorgänge, sowie die Bewegungen der Daten zwischen verschiedenen Systemen innerhalb des Stacks, werden auf diese Weise aufgenommen und dokumentiert. Das Data Team hat somit mehr Zeit, die es in neue Analysen und Auswertungen investieren kann.

Nicht zuletzt unterstützt der Einsatz eines Datenkatalogs eine praktisch gelebte Datenkultur. Sämtliche Mitarbeiter im Unternehmen werden dazu befähigt, schneller und einfacher die Quellsysteme zu verstehen, um dieses Wissen schließlich auf die Umsetzung zu adaptieren. Dieses Große Vertrauen in ein zentrales Datenregister sorgt für neu gewonnene Sicherheit im aktiven Umgang mit Daten. Verschaffen Sie sich also unbedingt einen detaillierten Überblick Ihrer Daten, wenn Sie sich mit dem Thema Modern Data Stack auseinandersetzen.

Whitepaper - Cloud Data Solutions - CTA

„Cloud Data Solutions“ ist längst kein Modebegriff mehr, sondern in vielen Unternehmen bereits Realität. Die Frage ist dann meist nicht mehr, ob Cloud-Technologien zum Einsatz kommen sollen, sondern welcher Art und wie umfangreich sie werden. Unser Whitepaper gibt einen praktischen Überblick über Cloud Modelle und Services, mit denen Ihnen die Migration in die Cloud schrittweise gelingt.