In einer datengetriebenen Welt ist der Zugriff auf zentrale Datensätze für alle Mitglieder im Unternehmen genauso praktikabel und einfach, wie Mails zu schreiben oder zu drucken. Im geschäftlichen Umfeld ist es heute nicht mehr vertretbar, auf bestimmte Daten Tage oder auch  nur Stunden warten zu müssen. Entweder, weil ein IT-zentraler Prozess erst losgetreten werden muss, oder weil zu bestimmten Peaks eine zu hohe Abfragelast die Pipeline „verstopft“. Moderne Data Pipelines haben einige unschlagbare Vorteile – hier sind unsere Top drei.

Nummer 1: Flexibilität der Cloud

Business User benötigen Daten in der Regel on demand. Allerdings stehen an der Tagesordnung aber meist zeitfressende und manchmal sogar nervenaufreibende Anfragen an die IT. Dabei sind diese nicht selten mit der Befürchtung verbunden, unvollständige oder unpassende Daten zu erhalten. Gleichzeitig sind sie von der Hoffnung getragen, wenigstens nicht allzu lange auf die Daten warten zu müssen. Denn die bestehende IT-Infrastruktur ist nicht unbedingt auf dezidierte Datenabfragen vorbereitet.

Die Qualität einer Data Pipeline hängt von ihrer Flexibilität ab. Traditionelle Pipelines laufen on premise und nutzen teure wie aufwändig zu wartende Hardware. Hinzu kommt ihre eingeschränkte Nutzbarkeit durch eine träge Performance. Sind mehrere Workloads parallel aktiv, laufen die Datenflüsse träge und konkurrieren miteinander. Zu Peak-Zeiten ist dies ein absolutes Horror-Szenario und die Abfrage von Realtime-Daten bestenfalls ein El Dorado für Datenträumer.

Modern Data Pipelines bedienen sich aktueller Cloud-Technologien, sind also skalierbar, agil und dynamisch. Sie reagieren sofort auf zu- oder abnehmende Workloads und beantworten Abfragen zu spezifizierten Datasets unverzüglich zum Zeitpunkt ihrer Anfrage. Business User sind durch cloudbasierte Data Pipelines in der Lage, selbstbestimmte und zeitnahe Datenanalysen vorzunehmen. Natürlich bringt all dies zudem kostensenkende Aspekte mit sich.

Traditional Data Pipeline vs. Modern Data Pipeline

Eine Data Pipeline ist ein automatisierter Vorgang, um Daten von einem System in ein anderes zu überführen. Sie ist essenziell für schnelle und wertschöpfende datenbasierte Arbeit.

Traditionelle Data Pipelines sind nicht flexibel und schwer anpassbar. Sie bewegen Daten zwar zwischen den Zielsystemen hin und her, arbeiten aber an den Bedürfnissen moderner Unternehmen vorbei.

Eine Modern Data Pipeline arbeitet schnell, effizient und transportiert genau die Daten, die akut benötigt werden. Sie passt sich flexibel an die jeweiligen Unternehmensbedürfnisse an.

Nummer 2: Self-Service dank ELT-Tools und Modern Data Pipelines

Bei Belastungsspitzen mal eben schnell ein spezielles Data-Set abfragen? Fehlanzeige. An dieser Stelle verbringen Business User sehr viel Zeit damit, ihre Datenabfrage an die IT-Verantwortlichen weiterzugeben und auf Output zu warten. Die IT wiederum muss die Anfrage erst einmal aufnehmen und in ihr eigenes Anforderungsprofil übersetzen – Missverständnisse sind oft vorprogrammiert.

Allerdings gilt der unverbaute und schnelle Zugang zu Daten-Pipelines für alle und rund um die Uhr als Grundlage für die Datendemokratisierung in einem Unternehmen. Zudem sollten Business User  in der Lage sein, sämtliche Datenquellen und Datenformate abfragen zu können. Ganz egal, ob es sich um strukturierte oder noch nicht annähernd transformierte Daten handelt. Besonders ETL-Prozesse setzen nicht nur den Einsatz umfangreicher externer Tools voraus. Es kann auch Monate dauern, bis ein Team aus Data Engineers entsprechende Prozesse aufgesetzt hat. Oft müssen Pipelines für spezielle Abfragen sogar neu programmiert werden. Hierdurch werden personelle und zeitliche Ressourcen unnötig lange gebunden.

Vorteil von Modern Data Pipelines ist der Einsatz eines ELT-Tools. Daten werden also extrahiert und in das Zielsystem geladen, meist in einen Data Lake oder ein Warehouse, bevor sie transformiert werden. Mit diesen sofort zugänglichen Rohdaten können Business User anschließend situativ handeln und kontextbezogen schlussfolgern.

Datentransformation mit dbt

Moderne Cloud Data Warehouses, wie zum Beispiel Snowflake, ermöglichen ELT-Pipelines ohne Verzicht. Für den Prozess der Transformation von Daten ist der Einsatz eines ELT-Tools sinnvoll. Das Data Build Tool (dbt) ermöglicht es Data Teams, mit Hilfe von nativem SQL Datentransformationen zu entwickeln, zu testen, anzuwenden und zu überwachen. Als Open Source Framework kombiniert dbt modulares SQL mit Software Engineering.  Als Partner von dbt beraten wir gerne über die individuellen Einsatzmöglichkeiten.

Nummer 3: Daten in Echtzeit UND im Bündel

Welcher Wetterbericht basiert auf „alten“ Daten? Welche Vertriebsabteilung kann tage- oder wochenlang auf Informationen über ihre Kundschaft warten, um Entscheidungsprozesse voranzutreiben? Mit stark zunehmenden Datenströmen besteht ein wachsender Bedarf nach Realtime-Daten. Besonders das Internet of Things lässt unvorstellbar werden, dass auf erfasste Daten nur zeitverzögerte Reaktionen erfolgen sollen. Wartezeiten von Stunden oder gar Tagen sind inakzeptabel. Denn die Daten müssen sofort weitergeleitet und verarbeitet werden.

Das sogenannte Near Realtime Processing gehört zu den Standardaufgaben von Modern Data Pipelines. Die Daten werden vollumfänglich und live von einem System in das andere transferiert. Die Echtzeitanalyse liefert dynamische Reportings, deren Daten selten älter als eine Minute sind.

Modern Data Pipelines sind natürlich zusätzlich in der Lage, angesammelte Daten gemeinsam im Stapel zu verarbeiten. Batch Processing ergibt nach wie vor für Reportings Sinn, die beispielsweise einmal täglich oder wöchentlich abgefragt werden. Besonders komplexe Datenabfragen werden mit der Stapelabfrage sehr gut gehandhabt. In datengetriebenen Unternehmen werden sicher beide Varianten gefragt sein und umgesetzt werden.

Wettbewerbsvorteil Modern Data Pipelines

Durch die derzeitige massive Umstellung der Unternehmen auf cloudbasierte Technologien, ist der Einsatz von Modern Data Pipelines zunächst die logische Konsequenz. Selbst Unternehmen, die überwiegend mit stapelverarbeitenden ETL-Prozessen arbeiten, werden auf Dauer nicht an ELT-basierten Analysen vorbeikommen. Innerhalb eines Modern Data Stacks können sie moderne Pipelines inkrementell implementieren, erst einmal bestimmte Daten- oder Geschäftsfelder involvieren und sich dem Thema so Stück für Stück annähern.  

Klar ist: Modern Data Pipelines bieten einen klaren Wettbewerbsvorteil, denn Entscheidungen lassen sich mit ihnen schneller und besser treffen. Wenn Sie nicht mehr länger als nötig auf dringende Daten warten wollen, wenn Sie jetzt handeln möchten und nicht morgen oder irgendwann, dann drücken Sie aufs Gaspedal. Ihnen stehen jede Menge Optionen zur Verfügung.

Achten Sie darauf, dass Ihre Pipelines kontinuierliche Datenverarbeitung zulassen. Außerdem sollten sie dynamisch und flexibel sein, sowie unabhängig von anderen Tools oder Pipelines verwendet werden können. Außerdem sollten sie auch nicht abhängig von etwaigen anderen technologischen Prozessen sein. Dann benötigen Sie natürlich den direkten Zugang zu Daten sowie Pipelines, die einfach zu konfigurieren sind. Mit komfortablen Anwendungen wie zum Beispiel Fivetran oder dbt nehmen Sie dabei ordentlich Fahrt auf. Denn diese Tools ermöglichen und erleichtern die Arbeit mit Data Pipelines um ein Vielfaches.  

Whitepaper - Modern Data Stack Deckblatt

Modern Data Stack – Technologie-Setting für Data Management Professionals

Aktuell stehen Unternehmen vor einer Mammutaufgabe. Sie müssen bewerten, wie das technische Setting aussehen soll, in dem ihre Daten sicher, zuverlässig und maximal wertschöpfend aufbewahrt sowie verarbeitet werden. Es handelt sich um eine Vielzahl von technischen Lösungen unterschiedlicher Provider, die es miteinander zu orchestrieren gilt: der Modern Data Stack.

Unser Whitepaper erläutert Ihnen, in welchen Etappen Ihrer Datennutzung und Datenanalyse welche Tools zum Einsatz kommen. Und wie diese Teilbereiche einer Data Platform durch im inneren komplexe aber für die User leicht anwendbare Technologien ineinandergreifen.