Datenanalyse mit Big Data: Ohne Use-Case kein Value (Teil II)

by Philipp Kremer
12 Monaten ago
1175 Views

Ohne Use-Case kein Value: Datenanalyse mit Big Data! (Teil II)

Um mit Datenanalyse erfolgreich zu sein, sollte man weniger Aufwand für den Aufbau komplexer und anspruchsvoller Modelle und IT-Infrastrukturen betreiben. Bei der Datenanalyse mit Big Data gilt es vielmehr, Ergebnisse in die bestehende Unternehmensorganisation und Prozesse zu integrieren.

Während sich der erste Teil dieses Insights-Artikels mit den potentiellen Ausgangssituationen von Unternehmen für eine Datenanalyse beschäftigt, wenden wir uns nun dem konkreten Analyseprozess zu. Hier stehen Methodiken aus dem Data Thinking im Vordergrund. Deren Ausrichtung fokussiert sich im ersten Schritt nicht auf die technische Lösungen, sondern koppelt den Business-Value an konkrete Anwendungsfälle für das Unternehmen.

Der Analyseprozess: Von der Idee zur konkreten Datenanalyse mit Big Data

Um mit Datenanalyse erfolgreich zu sein, muss der Prozess von den Daten bis zum Erkenntniswert für das Unternehmen strukturiert und in die bestehende Unternehmensorganisation integriert sein. Daher stellt dieser Teil des Artikels einen auf dem Ansatz des Data Thinking basierenden Prozess mit vier Phasen vor. Das heißt, dass der Prozess die Analyse von der Idee über den Umfang und die Identifizierung eines Datensatzes bis hin zur Wertschöpfung steuert. Ausgehend vom klassischen Innovationstrichter gliedert sich dieser Prozess in vier Teile

1) Ideengenerierung
2) Proof of Concept (PoCs)
3) Implementierung und Test der erfolgreichen PoCs und schließlich
4) Etablierung des Analysevorgehen.

Basierend auf einer ersten Idee oder Anforderung wird der Prozess initialisiert. Zudem wird die Anzahl der Ideen möglicher Projekte in jeder Phase reduziert. Jede Phase hat Aufgaben sowie Barrieren oder Filter zu durchlaufen, um in der Prozesskette fortzufahren.

Verschiedene Szenarien der Datenanalyse

Die im ersten Teil des Artikels beschriebenen Szenarien muss man hinsichtlich ihres Status unterschiedlich bewerten. Szenario 1 befindet sich in einem sehr frühen Stadium der Ideenfindung. Viele Fragen sind offen und nicht geklärt. Szenario 2 ist konkreter und es werden viel mehr Probleme gelöst als in Szenario 1. Allerdings steht die Entwicklung von Fragen zur Einleitung vor der Durchführung eines PoCs noch an. Szenario 3 baut auf einem laufenden System auf, so dass es sich in der Phase des Testens und der Operationalisierung (Phase 3) befindet. Für jede Phase ergeben sich unterschiedliche Herausforderungen.

Data Thinking Funnel

Neben dem portfoliobasierten Auswahlprozess steht die Filterung der Ideen in der ersten Phase an. Zum Beispiel weil keine Daten zur Lösung des Problems verfügbar sind. Oder weil die Daten zuerst erhoben werden müssen (z.B. Implementierung zusätzlicher Sensoren) oder der Zugang geregelt werden muss (z.B. interne Richtlinien, gesetzliche Einschränkungen). Daher ist es notwendig, geeignete Datenquellen zu identifizieren und deren Anbindung zu gewähren. Nur so wird eine zuverlässige und effiziente Bewertung der Geschäftsanforderungen und der Datenverwendbarkeit ermöglicht.

Als organisatorische Aufgabe ist es wichtig, die richtigen Mitarbeiter zu identifizieren und ihre Arbeitsaufteilung auf das Analyseprojekte anzupassen. Während des Ideenprozesses ist die richtige Balance zwischen Kreativität und Fokussierung notwendig. Ebenso der Wissenstransfer unter den Mitarbeitern, um unterschiedliche Wissensstände auszugleichen und einen einheitlichen Frage- und Erkenntishorizont aufzubauen.

Das Ergebnis dieser ersten Phase sind definierte Ideen samt der dafür benötigten Datenquellen. Auf deren Grundlage untersucht man dann die einzelnen Problemstellungen. Dazu ist eine Zuordnung von Problemen oder Ideen und Datenquellen erforderlich. Die erste Phase benötigt starke Moderatoren, die durch den Prozess führen. Darüber hinaus ist jemand mit methodischer Expertise zur Überprüfung der technischen Machbarkeit der betrachteten Ideen sowie des Geschäftsverständnisses wichtig. Die Ideen und Daten werden nur diskutiert, es findet keine Evaluation statt. Dies geschieht im nächsten Schritt.

Phase 1 der Datenanalyse mit Big Data: Die Ideenfindung

Jedes Analyseprojekte beginnt mit einer Ideenphase. Hier besteht die zentrale Herausforderung darin, Ideen zu sammeln und relevante Probleme und Fragestellungen zu finden. Ziel ist also die Identifikation von möglichen Use-Cases, die einen konkreten Business Value bilden. Die Ideengenerierung spielt eine Schlüsselrolle bei der Entwicklung eines gemeinsamen Verständnisses für verschiedene Parameter des Projekts. Die Infragestellung bestehender Annahmen, die Ausrichtung großer Dateninitiativen und der Identifizierung von Aspekten, die eine Datenanalyse lösen soll. So kann ein Fachbereich Ideen sammeln und nach Komplexität der dafür erforderlichen Datenanalyse staffeln.

Diese Ideenphase ist dabei hochgradig iterativ. Die allgemeinen Projektziele bestimmen zunächst die erste Ideenrunde, die einen Überblick über die aktuellen Herausforderungen und Bedürfnisse des Fachbereichs geben soll. Dies geschieht z. B. entlang der Identifizierung geeigneter Datensätze. Anschließend erfolgt die Einordnung zur Umsetzbarkeit der Ideen, um geeignete Ideen für das Prototyping auszuwählen.

Aus organisatorischer Sicht ist die Einbeziehung von Entscheidungsträgern aller Hierarchieebenen ein Muss. Das Top-Management ist gefordert, Interessenkonflikte zu lösen und ein Gefühl der Verbindlichkeit für das Analyseprojekt zu schaffen. Das mittlere Management ist gefordert, die Anwender für diese Projektphase von anderen Arbeitsaufwänden zu entlasten und das Onboarding für Stakeholder zu bewerkstelligen. Das Expertenwissen der operativen Spezialisten unter den Mitarbeitern ist hingegen entscheidend, um die Leitfrage zu detaillieren und um die Umsetzbarkeit zu überprüfen.

Besuchen Sie unser Data Think-Up Event!

Umsetzbarkeit vs Output: Die Ideenmatrix

Der Data Thinking Prozess sieht im nächsten Schritt die Erstellung eines Portfolios (beispielsweise mittels eine Data Thinking Canvas) vor, um die Ideen auszuwählen, die in der PoC-Phase berücksichtigt werden. Für den exemplarischen Fall wie in der nachfolgenden Abbildung dargestellt, lassen sich die Ideen nach drei Kategorien bewerten und auswählen: Umsetzbarkeit (x-Achse), Wertschöpfung (y-Achse) und Gesamtrelevanz (Größe des Knotens):

  • Die Umsetzbarkeit umfasst Aspekte wie Datenverfügbarkeit, Aufwand der Datenintegration oder die generell erwartete Komplexität der anfallenden Aufgaben.
  • Die Wertschöpfung adressiert den prognostizierten Business-Value und identifiziert Ideen mit einem hohen erwarteten Beitrag.
  • Die Gesamtrelevanz betont, welche Ideen sich voraussichtlich stärker auf das jeweilige Problem auswirken.

So hat beispielsweise die Idee 3 eine hohe erwartete Umsetzbarkeit, aber der geschaffene Wert wird voraussichtlich gering sein. Idee 4 und Idee 8 sind dagegen an eine höhere Erwartung an die Wertschöpfung gebunden und sollten daher in der nächsten Phase priorisiert werden. Ideen 1 und 10 haben aufgrund kaum zu bewerkstelligender Umsetzbarkeit keine Relevanz.

Use-Case Matrix Datenanalyse

Phase 2 der Datenanalyse mit Big Data: Proof of Concepts

Die Entwicklung von Proof-of-Concepts ist der nächste Schritt, um die priorisierten Ideen zu testen. PoCs sind eine erste Untersuchung des Datensatzes. Hierbei testet man basierend auf den verfügbaren Daten, ob auf eine aufgeworfene Frage eine Antwort findet oder nicht: Basierend auf dem definierten Projektumfang der vorherigen Phase muss der Zugriff auf die Daten gewährt werden, die Daten  untersucht und analysiert und die Ergebnisse schließlich kommuniziert und diskutiert werden.

Wie bereits beschrieben, beginnt diese Phase mit einem Projektziel oder einer Problembeschreibung (Business Need). Während die klassische IT-Entwicklung mit Anforderungen beginnt, startet Data Thinking oft explorativ mit einem Datensatz und einer Hypothese. Erst während des Analyseprozesses werden spezifische Anforderungen generiert. Die PoC-Phase kann also nur mit Daten beginnen oder wenn Daten verfügbar sind. Die Verfügbarkeit von Daten oder das Abrufen aus bestehenden Systemen gehört zu den ersten Schritten in einem PoC.

Als nächstes muss man die Daten für ein tieferes Verständnis untersuchen. Hier transformiert man die Daten zur weiteren Analyse in ein geeignetes Format. Dieser Schritt beinhaltet die Datenaufbereitung und -bereinigung und die erste Durchführung einer deskriptiven Analyse.

Eine erste Analyse, erste Ergebnisse

In der Modellierungsphase untersucht man die Daten dann auf Muster und Abhängigkeiten, um die gestellten Fragen zu beantworten. Verschiedene Methoden und Algorithmen lassen sich testen und die Ergebnisse in einem iterativen Prozess aus Variablenauswahl, Modellauswahl, Modellanpassung und Validierung prüfen.

Abschließend gilt es erneut die Ergebnisse zu kommunizieren. Ein PoC gibt eine erste Orientierung über das Potenzial der Daten mit Schwerpunkt auf Stärken und Schwächen. Mögliche Ergebnisse sind, dass verschiedene Modellierungstechniken kein gültiges Ergebnis liefern. Oder aber die Datenqualität erlaubt keine Modellierung, weil es nicht genügend Daten für eine signifikante Aussage gibt. Dies ist schließlich die Grundlage für die Planung und Kommunikation der nächsten Schritte und die Koordination der weiteren Maßnahmen.

Proof of Concepts und Operationalisierung

Bei der Präsentation der Ergebnisse ist der Einsatz verschiedener Tools wie Tableau oder Power BI möglich. Insbesondere um ein Verständnis der Daten zu entwickeln, ist eine deskriptive Datenanalyse hilfreich. Dennoch liefern viele Modelle und Techniken aus der fortgeschrittenen Analyse Zahlen, die sich durch intuitive Visualisierungen nicht erfassen lassen.

PoCs haben eine kurze Dauer von maximale 4 Wochen. Neben dem Zugriff auf die notwendigen Daten oder der Extraktion von Daten aus relevanten Quellen gehören Datenqualität, Datenkonsolidierung und Datenverständnis zu den wichtigsten Herausforderungen in dieser Phase. Weitere Hürden sind die Bereinigung und Verfeinerung der Daten auf ein verarbeitbares Format und die Anwendung der richtigen Modelle. Darüber hinaus ist Geschäftsverständnis der Schlüssel, um wertvolle Erkenntnisse aus den Daten zu gewinnen und Ergebnisse zu erzielen, die nicht nur plausibel, sondern auch für das Unternehmen relevant sind. Ein weiteres Problem ist die mangelnde Erfahrung mit Datenanalyse und die erforderliche Agilität bei der Umsetzung der Ergebnisse.

Phasen 3 & 4 der Datenanalyse mit Big Data: Die Operationalisierung

Anschließend integriert das Unternehmen die PoC-Ergebnisse in eine professionelle IT-Infrastruktur. Prototypisierte Ergebnisse müssen für die Operationalisierung vorbereitet und in eine Anwendung umgesetzt werden. Die Hauptfrage ist: Ist das Modell skalierbar und lassen sich die bisher erzielten Ergebnisse auf einen größeren Datensatz übertragen? Es müssen Anpassungen möglich sein, damit eine resultierende Anwendung von einer IT-Abteilung auch ohne weitere Unterstützung externer Data Scientists und Engineers gepflegt wird. Dabei geht es um den Wechsel von einem agilen, iterativen Arbeitsmodell zu einem stabilen Betrieb und um die Skalierung des Analysemodells.

Generell liegt die Herausforderung für Unternehmen darin, aus der großen Menge an verfügbaren Datensätzen Strategien zur Wertschöpfung zu definieren. In diesem Artikel haben wir diskutiert, wie man Wert aus Daten gewinnt und mit Data Thinking einen systematischen Ansatz eingeführt, der die Identifikation relevanter Use-Cases voranstellt. Zunächst haben wir die grundlegenden Bausteine für die Wertschöpfung beschrieben: Geschäftsbedarf, Daten, Infrastruktur und Analyse. Anschließend haben wir den Prozess von der Idee bis zur Anwendung strukturiert. Je nach Reifegrad des Analyseprojekts wird mit dem Prozess in verschiedenen Phasen begonnen. Die vier Phasen dieses Prozesses sind mit Fokus auf die gegebenen Zugangshürden beschrieben.

Fazit: Nur ganzheitlich erfolgreich

Analysen und große Datenmengen sind nicht nur eine technische Herausforderung. Sie beeinflussen das gesamte Unternehmen und seine Prozesse. Damit die Etablierung der Datenanalyse im Unternehmen gelingt, sind zwei Faktoren entscheiden: Die Kommunikation und Akzeptanz der Ergebnisse und die kontinuierliche Einbindung der Fachbereiche in den Prozess. Darüber hinaus wird nur dann Wert aus Daten generiert, wenn die Analyse in einen Gesamtrahmen von Fähigkeiten und Kompetenzen integriert und die Analytikinitiative in eine Geschäftsanwendung eingebettet ist.

Die Kernpunkte dieses Artikels lassen sich auf Unternehmen unterschiedlicher Größe und Erfahrungsstand beim Aufbau von Analysefunktionen übertragen. Der beschriebene Prozess führt iterativ durch Analyseprojekte und veranschaulicht die Unterschiede zu bekannten IT-bezogenen Ansätzen. Durch die Betonung der Bedeutung von Innovations- und Ideenzyklen für die Datenanalyse, soll dieser Artikel vor allem ein Grundverständnis der essentiellen Abfolgeschritte im Kontext von Data Thinking vermitteln.