
“Das Thema Modern Data Stack wird uns noch eine ganze Weile begleiten.”
Im Webinar “Cloud Data Analytics. Was Unternehmen vom Profi-Fußball lernen können.” schildert Till Aufderheide, wie die Grundsätze der businessgetriebenen Datenanalyse am Beispiel von Football Analytics auf den Aufbau eines professionellen Modern Data Stack übertragen werden können. Warum ist Till ein so großer Fan des Modern Data Stack?
taod: Till, was haben Fußball und Datenanalyse gemeinsam?
Till Aufderheide: Zunächst einmal sind beide ganz spannende Themen! In beiden Bereichen wird außerdem ein klares Ziel verfolgt: gewinnen. Eine Mannschaft möchte Spiele gewinnen, in der Datenanalyse geht es um den Erkenntnisgewinn. Sowohl im Fußball als auch in der Datenanalyse kommt es auf die richtige Taktik und Strategie, also das richtige Vorgehen, an. Im Fußball analysieren wir Spielsituationen retrospektiv, wollen aber auch Erkenntnisse für zukünftige Spiele gewinnen. In der Datenanalyse ist es ähnlich.
Du formulierst das sehr pragmatisch.
“Grau ist im Leben alle Theorie – aber entscheidend ist auf’m Platz.” Das Zitat von Alfred Preißler, unvergessene Dortmunder Stürmerlegende, fasst es ganz schön zusammen: Im Fußball kommt es trotz aller Theorie und Vorüberlegungen dann im Spiel auf das gute Zusammenspiel der Mannschaft an. In der Datenanalyse ist es ebenfalls wichtig, das richtige technische Setup sowie ein gut funktionierendes Team zu haben – und auch einfach mal anzufangen. Letztlich also “auf dem Platz” zu zeigen, was geht.
Höre ich eine persönliche Affinität zum Fußball heraus?
Ein bisschen schon, aber vermutlich nicht so tiefgehend wie bei einigen meiner Kollegen. Das Spiel begeistert mich aber schon und ich schaue mir gerne auch Spiele an, besonders natürlich die großen Turniere. Seit meiner Kindheit halte ich zum BVB. Damals in den 90er Jahren war deren große Zeit, und da habe ich mich einfach mit begeistern lassen.
Im Webinar “Cloud Data Analytics” wirst du im Detail erklären, was genau einen Modern Data Stack definiert. Gibst du uns an dieser Stelle schon einmal einen kurzen Einblick?
Im Grunde geht es darum, Unternehmen einen einfachen, schnellen aber auch gut mitwachsenden Technologie-Stack an die Hand zu geben, mit dem sie in der Lage sind, alle relevanten datengetriebenen Fragestellungen zu beantworten. Damit können sie klein sowie auch mit wenig Budget starten und auf fertige Services zurückgreifen. Beim Aufbau eines Modern Data Stack, beziehungsweise einer einsatzfähigen Datenplattform, gibt es für jede Phase passende Tools, die jeweils ihren Fokus und ihre Stärke ausspielen können.
Welche Phasen sind das?
Das sind Datenakquisition, also wie komme ich an Daten ran, Transformation und Integration der verschiedenen Datenquellen, Speicherung beziehungsweise die Datenhaltung an sich, zum Beispiel mit Snowflake und die Bereitstellung, respektive Nutzung, der Ergebnisse zum Beispiel mit Tableau. Wichtig ist, dass der User und die Zielsetzung, oder auch der zu erreichende Mehrwert, im Fokus stehen und die Technologie nicht als Selbstzweck verwendet wird. Fertige Cloud Services sowie auch No-Code/Low-Code Tools erleichtern den Start enorm und integrieren zudem Business User in den Prozess, die somit ebenso an der Lösung bauen können.
Warum ist es empfehlenswert, dass Unternehmen den Analyseprozess ihrer Daten über eine bestimmte Auswahl von Tools organisieren?
Weil für jede Phase des Analyseprozesses fertige Tools zur Verfügung stehen, die im Rahmen einer Best-of-Breed-Strategie und von etablierten Herstellern dezidiert ausgewählt werden können. Es besteht keine Notwendigkeit, selbst zu coden, denn es kann auf Bewährtes und Fertiges zurückgegriffen werden. Die Integrationsfähigkeit ist gegeben. Das spart Zeit und Geld.
Ist der Modern Data Stack noch modern oder schon Mainstream?
Ganz neu ist das Thema sicherlich nicht. Der Modern Data Stack ist in einigen Unternehmen schon verbreitet oder sogar fest etabliert. Eine größere Verbreitung ist aber eher im US-amerikanischen Raum und generell eher in Start-ups oder in Unternehmen mit flexiblen Organisationsstrukturen vorzufinden.
Würdest du sagen, deutsche Unternehmen handeln zögerlicher?
Besonders in Deutschland liegt noch viel Potenzial brach, denn Unternehmen setzen hier gerne noch auf Legacy-Lösungen.
Woran liegt das?
Vielleicht traut man sich hier nicht, einfach mal den nächsten Schritt zu machen und Neuland zu betreten.
Du wirst nicht müde zu betonen, wie wichtig cloudbasierte Tools innerhalb des Stack sind. Warum ist das so?
Cloudbasierte Tools bringen so viele Vorteile mit sich. Es entsteht kein Aufwand, um die Infrastruktur zu verwalten und auch die Administration ist mit relativ geringem Aufwand zu bewerkstelligen. Tools sind ready-to-run, da ist keine Installation und Ähnliches notwendig. Unternehmen können klein anfangen, mit wenig Budget, dann aber beliebig skalieren. Compute-Ressourcen und Storage sind flexibel ergänzend buchbar und werden nur dann genutzt, wenn sie wirklich gebraucht werden. Das ist mit On-Prem-Lösungen schwierig. Viele Tools laufen auf den drei großen Hyperscalern Microsoft Azure, Google und AWS. Im Notfall ist der zugrunde liegende Anbieter einfach zu wechseln. Zudem werden viele moderne Tools und Ansätze nur noch cloudbasiert entwickelt, da habe ich als Nutzer häufig gar keine andere Möglichkeit mehr, als auf die Cloud zu setzen.
Im Webinar schlägst du exemplarische Tools als Basis-Komponenten im Stack vor. Wie meistern Unternehmen die Auswahl der für sie geeigneten Tools?
Zunächst sollten sich Unternehmen über ihre Use Cases klar werden, gegebenenfalls unter Einsatz der Data Thinking Methode. Wichtige Punkte für die Priorisierung sind hier wieder der generierte Mehrwert und die Komplexität in der Umsetzung. Dann kommen noch verschiedene andere Punkte für die Entscheidung hinzu: Wie viele verschiedene Datenquellen möchte ich anbinden? Wie groß ist mein Datenvolumen? Wer arbeitet später mit der Lösung? Wie viel technisches Know-how und Personal habe ich? Hier kommen Überlegungen in Richtung No-Code/Low-Code ins Spiel. Dann weiter: Bin ich schon auf einen Cloud-Anbieter festgelegt, auf dessen Infrastruktur die Services auch laufen sollen? Gibt es spezifische Security-Anforderungen?
Was rätst du Unternehmen, die ihre Datenanalyse zwar modernisieren, aber dennoch aus bestimmten Gründen weiterhin auf On-Premises setzen möchten?
Unternehmen sollten sich fragen, warum sie an ihrer On-Prem-Struktur festhalten wollen. Häufig geht es um Sicherheits- oder Datenschutzbedenken. Diese sind aber oft gar nicht mehr haltbar, da sich die meisten Anbieter genau mit diesen Punkten auseinandergesetzt haben und Lösungen anbieten. Stichworte sind hier Private Cloud, Einhaltung der DSGVO, Deutschland oder Europa als Server-Standort, Customer Managed Keys für Datenverschlüsselung. Meine Empfehlung an Unternehmen lautet: Schaut wirklich mal, ob die Vorteile der On-Prem-Strukturen noch gegeben sind, was das Ganze kostet und evaluiert ernsthaft die Vorteile einer Cloud-Lösung. Wenn es gar nicht anders geht und gewisse Lösungen On-Prem verbleiben müssen, ist auch ein hybrider Ansatz mit gesicherten Tunneln denkbar.
Viele Unternehmen stellen die Kostenfrage in den Vordergrund. Welche Investitionen sind für Cloud Computing notwendig?
Das kommt natürlich ganz auf die Lösung und die jeweiligen eingesetzten Komponenten und Ausbaustufen an. Grundsätzlich kann man sagen, jeder Investition steht einem direkten Gewinn an Mehrwert entgegen. Je mehr Leistung, zumeist Compute-Leistung, und Storage benötigt werden – oder je mehr Datenquellen angebunden werden sollen – desto hochpreisiger und leistungsfähiger. Die Anzahl der User ist natürlich häufig auch noch so ein Kriterium. Das Schöne ist aber: Bei fast allen Anbietern kann man ganz klein anfangen und erstmal Erfahrungen sammeln. Bei den meisten Services gilt zudem: Läuft der Service nicht, zum Beispiel in der Nacht, dann kostet er auch nichts.
Es ist noch nicht lange her, dass sich der ELT-Ansatz für die Transformation von Daten durchgesetzt hat und sich das Data Warehouse als Single Source of Truth etabliert hat. Eine erweiterte Möglichkeit, Daten möglichst zeitnah und kontextbezogen zu analysieren, ist Reverse ETL. Rohdaten werden aus dem Warehouse weiter in ein operatives SaaS-Tool, wie zum Beispiel Salesforce, geleitet. Dort können sie nach Bedarf angepasst werden. Für welche Unternehmen ist eine solche Lösung interessant?
Reverse ETL ist eine sinnvolle Erweiterung des bestehenden Ansatzes, wobei die Nutzung von aufbereiteten Daten und Analyse-Ergebnissen jetzt auch nicht per se neu ist. Es bestehen nur jetzt endlich die Möglichkeiten, dies auch sehr einfach zu tun und sich zeitlich endlich auch mal diesem Thema zu widmen.
Für welche Unternehmen ist Reverse ETL interessant?
Eigentlich für alle Unternehmen, die gewonnene Erkenntnisse oder Analyse-Ergebnisse mit weiteren Stakeholdern teilen beziehungsweise diese in Unternehmensprozesse einfließen zu lassen. Marketing ist hier natürlich ein sehr interessanter Case. Alle Infos über einen Kunden oder eine Kundin und deren Touchpoints werden gesammelt, im DWH zusammengeführt, gegebenenfalls gibt es ein Scoring und Profiling. Die Ergebnisse, eventuell Clusterings, werden dann zum Beispiel im CRM- oder Mailing-System zurückgespielt und dort für Selektionen oder anderes genutzt. Beachtet werden sollte natürlich der Gesamtkreislauf, der sogenannte Closed Loop. Ist der Prozess eine Einbahnstraße oder werden auch wiederum Daten an das Data Warehouse zurückgespielt?
Was kommt nach dem Modern Data Stack?
Ich glaube das Thema Modern Data Stack wird uns noch eine ganze Weile begleiten, auch wenn er dann vielleicht nicht mehr so “modern” sein wird, sondern hoffentlich zum Standard wird. Ich hoffe, dass die Unternehmen durch die Flexibilität und Schnelligkeit beim Aufbau von Datenplattformen endlich auch dazu kommen, die gewonnenen Erkenntnisse wirklich zu nutzen und sich auch auf abgeleitete Maßnahmen konzentrieren können, um wirklich einen Mehrwert für ihr Business zu heben. Wichtig werden in der Zukunft auch nochmal die Themen Metadaten-Management und Data Governance und unter anderem der Data Catalog sein. Nur wer den Überblick über seine ganzen Data Assets wahrt, kann diese auch sinnvoll nutzen.
So, wie es in der Sportanalyse teilweise schon sehr beeindruckend stattfindet. Aber passen Vorhersehbarkeit und Sport überhaupt gut zusammen, treibt nicht das Unbekannte oft den Adrenalinspiegel der Fans angenehm hoch?
Ich bin als “alter” Basketballer sehr geprägt durch den US-Sport, wo Datenanalyse und das Arbeiten mit Statistiken schon sehr lange eine große Bedeutung haben. Ich finde es faszinierend, wenn man das Spiel durch Daten und Analysen transparent machen kann. Wobei ich glaube, dass wir nur bis zu einem gewissen Punkt das Spielgeschehen und die Entwicklung durch Datenanalyse planbar und steuerbar machen können. Der Film “Moneyball” erzählt hier natürlich eine interessante Geschichte. Letztlich ist es hier doch auch schön, dass “auf dem Platz” dann doch manches spontan passiert und es spannend bleibt.
Über Till Aufderheide
Till Aufderheide ist Managing Director und mit über zehn Jahren Erfahrung passionierter Consultant für Business Intelligence, Data Analytics und Datenstrategien. Als Allrounder mit breitem Branchenwissen ist er mit sämtlichen Anforderungsbereichen der Konzeption und Umsetzung von Analytics-Initiativen vertraut. Außerdem ist Till ausgewiesener Tableau-Experte und berät Unternehmen unter anderem mit Data Thinking Workshops beim Aufbau eigener Data Teams.