Datenanalyse mit Big Data: Ohne Use-Case kein Value (Teil II)

by Philipp Kremer
5 Monaten ago
628 Views

Ohne Use-Case kein Value: Datenanalyse mit Big Data! (Teil II)

Um mit Datenanalyse erfolgreich zu sein, sollte weniger Aufwand für den Aufbau komplexer und anspruchsvoller Modelle und IT-Infrastrukturen betrieben werden, sondern vielmehr Ergebnisse in die bestehende Unternehmensorganisation und Prozesse integriert werden.

Während sich der erste Teil dieses Insights-Artikels mit den potentiellen Ausgangssituationen von Unternehmen für eine Datenanalyse beschäftigt, wenden wir uns nun dem konkreten Analyseprozess zu. Hier stehen Methodiken aus dem Data Thinking im Vordergrund, deren Ausrichtung sich im ersten Schritt nicht auf die technische Lösungen fokussiert, sondern den Business-Value an konkreten Anwendungsfälle für das Unternehmen koppelt.

Der Analyseprozess: Von der Idee zur konkreten Datenanalyse

Um mit Datenanalyse erfolgreich zu sein, muss der Prozess von den Daten bis zum Erkenntniswert für das Unternehmen strukturiert und in die bestehende Unternehmensorganisation integriert werden. Dieser Insights-Artikel stellt einen auf dem Ansatz des Data Thinking basierenden Prozess mit vier Phasen vor. Er steuert den Analyseprozess von der Idee über den Umfang und die Identifizierung eines Datensatzes bis hin zur Wertschöpfung. Ausgehend vom klassischen Innovationstrichter gliedert sich dieser Prozess in vier Teile: 1) Ideengenerierung, 2) Proof of Concept (PoCs) werden durchgeführt, um diese Ideen zu testen, 3) die erfolgreichen PoCs werden implementiert und getestet und werden schließlich 4) als Analysevorgehen etabliert. Basierend auf einer ersten Idee oder Anforderung wird der Prozess initialisiert, während die Anzahl der Ideen möglicher Projekte in jeder Phase reduziert wird. Jede Phase hat Aufgaben sowie Barrieren oder Filter, die durchlaufen werden müssen, um in der Prozesskette fortzufahren.

Die im ersten Teil des Artikels beschriebenen Szenarien werden hinsichtlich ihres Status unterschiedlich bewertet, wie der Prozess in der folgenden Abbildung zeigt. Szenario 1 befindet sich in einem sehr frühen Stadium der Ideenfindung und viele offene Fragen müssen geklärt werden. Szenario 2 ist konkreter und es werden viel mehr Probleme gelöst als in Szenario 1. Allerdings müssen vor der Durchführung eines PoCs Fragen zur Einleitung entwickelt werden. Szenario 3 baut auf einem laufenden System auf, so dass es sich in der Phase des Testens und der Operationalisierung (Phase 3) befindet. Für jede Phase ergeben sich unterschiedliche Herausforderungen.

Data Thinking Funnel

Neben dem portfoliobasierten Auswahlprozess werden Ideen in der ersten Phase gefiltert, z.B. weil keine Daten zur Lösung des Problems verfügbar sind, die Daten zuerst erhoben werden müssen (z.B. Implementierung zusätzlicher Sensoren) oder der Zugang geregelt werden muss (z.B. interne Richtlinien, gesetzliche Einschränkungen). Daher müssen geeignete Datenquellen identifiziert und deren Anbindung gewährt werden. Nur so kann eine zuverlässige und effiziente Bewertung der Geschäftsanforderungen und der Datenverwendbarkeit ermöglicht werden.

Als organisatorische Aufgabe müssen die richtigen Mitarbeiter identifiziert und ihre Arbeitsaufteilung auf das Analyseprojekte angepasst werden. Während des Ideenprozesses ist die richtige Balance zwischen Kreativität und Fokussierung wichtig. Ebenso der Wissenstransfer unter den Mitarbeitern, um unterschiedliche Wissensstände auszugleichen und einen einheitlichen Frage- und Erkenntishorizont aufzubauen.

Das Ergebnis dieser ersten Phase sind definierte Ideen samt der dafür benötigten Datenquellen, auf deren Grundlage die Problemstellungen untersucht werden können; eine Zuordnung von Problemen oder Ideen und Datenquellen ist erforderlich. In der ersten Phase werden starke Moderatoren benötigt, die durch den Prozess führen. Darüber hinaus ist jemand mit methodischer Expertise zur Überprüfung der technischen Machbarkeit der betrachteten Ideen sowie des Geschäftsverständnisses wichtig. Die Ideen und Daten werden nur diskutiert, es findet keine Evaluation statt. Dies geschieht im nächsten Schritt.

Phase 1 der Datenanalyse: Die Ideenfindung

Jedes Analyseprojekte beginnt mit einer Ideenphase. Hier besteht die zentrale Herausforderung darin, Ideen zu sammeln und relevante Probleme und Fragestellungen zu finden. Ziel ist also die Identifikation von möglichen Use-Cases, die einen konkreten Business Value bilden. Die Ideengenerierung spielt eine Schlüsselrolle bei der Entwicklung eines gemeinsamen Verständnisses, der Infragestellung bestehender Annahmen, der Ausrichtung großer Dateninitiativen und der Identifizierung von Aspekten, die mit einer Datenanalyse gelöst werden können. Probleme beispielsweise eines Fachbereichs werden gesammelt und nach Komplexität der dafür erforderlichen Datenanalyse gestaffelt. Diese Ideenphase ist dabei hochgradig iterativ. Die allgemeinen Projektziele bestimmen zunächst die erste Ideenrunde, die einen Überblick über die aktuellen Herausforderungen und Bedürfnisse des Fachbereichs geben soll. Dies geschieht z. B. entlang der Identifizierung geeigneter Datensätze. Anschließend muss die Umsetzbarkeit der Ideen überprüft und geeignete Ideen für das Prototyping ausgewählt werden.

Aus organisatorischer Sicht ist die Einbeziehung von Entscheidungsträgern aller Hierarchieebenen ein Muss. Das Top-Management ist gefordert, Interessenkonflikte zu lösen und ein Gefühl der Verbindlichkeit für das Analyseprojekt zu schaffen. Das mittlere Management ist gefordert, die Anwender für diese Projektphase von anderen Arbeitsaufwänden zu entlasten und das Onboarding für Stakeholder zu bewerkstelligen. Das Expertenwissen der operativen Spezialisten unter den Mitarbeitern ist hingegen entscheidend, um die Leitfrage zu detaillieren und um die Umsetzbarkeit zu überprüfen.

Der Data Thinking Prozess sieht im nächsten Schritt die Erstellung eines Portfolios (beispielsweise mittels eine Data Thinking Canvas) vor, um die Ideen auszuwählen, die in der PoC-Phase berücksichtigt werden. Für den exemplarischen Fall wie in der nachfolgenden Abbildung dargestellt, werden die Ideen nach drei Kategorien bewertet und ausgewählt: Umsetzbarkeit (x-Achse), Wertschöpfung (y-Achse) und Gesamtrelevanz (Größe des Knotens):

  • Die Umsetzbarkeit umfasst Aspekte wie Datenverfügbarkeit, Aufwand der Datenintegration oder die generell erwartete Komplexität der anfallenden Aufgaben.
  • Die Wertschöpfung adressiert den prognostizierten Business-Value und identifiziert Ideen mit einem hohen erwarteten Beitrag.
  • Die Gesamtrelevanz wird genutzt, um zu betonen, welche Ideen sich voraussichtlich stärker auf das jeweilige Problem auswirken werden.

So hat beispielsweise die Idee 3 eine hohe erwartete Umsetzbarkeit, aber der geschaffene Wert wird voraussichtlich gering sein. Idee 4 und Idee 8 sind dagegen an eine höhere Erwartung an die Wertschöpfung gebunden und sollten daher in der nächsten Phase priorisiert werden. Ideen 1 und 10 haben aufgrund kaum zu bewerkstelligender Umsetzbarkeit keine Relevanz.

Use-Case Matrix Datenanalyse

Phase 2 der Datenanalyse: Proof of Concepts

Um die Ideen zu testen, werden Prototypen gebaut und mit Proof-of-Concepts entwickelt. PoCs sind eine erste Untersuchung des Datensatzes, um zu sehen, ob eine aufgeworfene Frage basierend auf den verfügbaren Daten beantwortet werden kann oder nicht: Basierend auf dem definierten Projektumfang der vorherigen Phase muss der Zugriff auf die Daten gewährt werden, die Daten werden untersucht und analysiert und die Ergebnisse schließlich kommuniziert und diskutiert

Wie bereits beschrieben, beginnt diese Phase mit einem Projektziel oder einer Problembeschreibung (Business Need). Während die klassische IT-Entwicklung mit Anforderungen beginnt, startet Data Thinking oft explorativ mit einem Datensatz und einer Hypothese. Erst während des Analyseprozesses werden spezifische Anforderungen generiert. Die PoC-Phase kann also nur mit Daten beginnen oder wenn Daten verfügbar sind. Die Verfügbarkeit von Daten oder das Abrufen aus bestehenden Systemen gehört zu den ersten Schritten in einem PoC.

Als nächstes werden die Daten für ein tieferes Verständnis untersucht. Hier werden die Daten in ein geeignetes Format zur weiteren Analyse transformiert. Dieser Schritt beinhaltet die Datenaufbereitung und -bereinigung und die erste Durchführung einer deskriptiven Analyse.

Die Daten werden dann während der Modellierungsphase auf Muster und Abhängigkeiten analysiert, um die gestellten Fragen zu beantworten. Verschiedene Methoden und Algorithmen werden getestet und die Ergebnisse in einem iterativen Prozess aus Variablenauswahl, Modellauswahl, Modellanpassung und Validierung geprüft.

Abschließend werden die Ergebnisse kommuniziert. Ein PoC gibt eine erste Orientierung über das Potenzial der Daten mit Schwerpunkt auf Stärken und Schwächen. Mögliche Ergebnisse sind, dass verschiedene Modellierungstechniken kein gültiges Ergebnis liefern, die Datenqualität keine Modellierung erlaubt oder es nicht genügend Daten für eine signifikante Aussage gibt. Dies ist schließlich die Grundlage für die Planung und Kommunikation der nächsten Schritte und die Koordination der weiteren Maßnahmen.

Proof of Concepts und Operationalisierung

Bei der Präsentation der Ergebnisse können verschiedene Tools wie Tableau oder Power BI eingesetzt werden. Insbesondere um ein Verständnis der Daten zu entwickeln, ist eine deskriptive Datenanalyse hilfreich. Dennoch liefern viele Modelle und Techniken aus der fortgeschrittenen Analyse Zahlen, die durch intuitive Visualisierungen nicht erfasst werden können.

PoCs haben eine kurze Dauer von maximale 4 Wochen. Neben dem Zugriff auf die notwendigen Daten oder der Extraktion von Daten aus relevanten Quellen gehören Datenqualität, Datenkonsolidierung und Datenverständnis zu den wichtigsten Herausforderungen in dieser Phase. Weitere Hürden sind die Bereinigung und Verfeinerung der Daten auf ein verarbeitbares Format und die Anwendung der richtigen Modelle. Darüber hinaus ist Geschäftsverständnis der Schlüssel, um wertvolle Erkenntnisse aus den Daten zu gewinnen und Ergebnisse zu erzielen, die nicht nur plausibel, sondern auch für das Unternehmen relevant sind. Ein weiteres Problem ist die mangelnde Erfahrung mit Datenanalyse und die erforderliche Agilität bei der Umsetzung der Ergebnisse.

Phasen 3 & 4 der Datenanalyse: Die Operationalisierung

Anschließend werden die PoC-Ergebnisse in eine professionelle IT-Infrastruktur integriert. Prototypisierte Ergebnisse müssen für die Operationalisierung vorbereitet und in eine Anwendung umgesetzt werden. Die Hauptfrage ist: Ist das Modell skalierbar und lassen sich die bisher erzielten Ergebnisse auf einen größeren Datensatz übertragen? Es müssen Anpassungen vorgenommen werden, damit eine resultierende Anwendung von einer IT-Abteilung ohne weitere Unterstützung externer Data Scientists und Engineers gepflegt werden kann. Dabei geht es um den Wechsel von einem agilen, iterativen Arbeitsmodell zu einem stabilen Betrieb und um die Skalierung des Analysemodells.

Generell liegt die Herausforderung für Unternehmen darin, aus der großen Menge an verfügbaren Datensätzen Strategien zur Wertschöpfung zu definieren. In diesem Artikel haben wir diskutiert, wie man Wert aus Daten gewinnt und mit Data Thinking einen systematischen Ansatz eingeführt, der die Identifikation relevanter Use-Cases voranstellt. Zunächst haben wir die grundlegenden Bausteine für die Wertschöpfung beschrieben: Geschäftsbedarf, Daten, Infrastruktur und Analyse. Anschließend haben wir den Prozess von der Idee bis zur Anwendung strukturiert. Je nach Reifegrad des Analyseprojekts kann der Prozess in verschiedenen Phasen begonnen werden. Die vier Phasen dieses Prozesses wurden mit Fokus auf die gegebenen Zugangshürden beschrieben.

Analysen und große Datenmengen sind nicht nur eine technische Herausforderung, sondern beeinflussen das gesamte Unternehmen und seine Prozesse. Damit die Datenanalyse im Unternehmen institutionalisiert werden kann, müssen die Ergebnisse akzeptiert und verstanden werden und die Fachbereiche sollten kontinuierlich in den Prozess eingebunden werden. Darüber hinaus wird nur dann Wert aus Daten generiert, wenn die Analyse in einen Gesamtrahmen von Fähigkeiten und Kompetenzen integriert ist und die Analytikinitiative in eine Geschäftsanwendung eingebettet ist.

Die Kernpunkte dieses Artikels können auf Unternehmen unterschiedlicher Größe und Erfahrung beim Aufbau von Analysefunktionen übertragen werden. Der beschriebene Prozess führt iterativ durch Analyseprojekte und veranschaulicht die Unterschiede zu bekannten IT-bezogenen Ansätzen. Durch die Betonung der Bedeutung von Innovations- und Ideenzyklen für die Datenanalyse, soll dieser Artikel vor allem ein Grundverständnis der essentiellen Abfolgeschritte im Kontext von Data Thinking vermitteln.

Besuchen Sie unser Data Think-Up Event!