Datenanalyse von Big Data: Ohne Use-Case kein Value! (Teil I)

by Philipp Kremer
3 Monaten ago
902 Views

Datenanalyse von Big Data: Ohne Use-Case kein Value! (Teil I)

Die Datenanalyse von Big Data birgt ein enormes Potenzial. Allein der genaue Geschäftswert einzelner großer Datenanwendungen ist oft unklar. Dann zielt die Umsetzung ins Leere. Aus praktischer Sicht haben Unternehmen immer noch Schwierigkeiten, Daten sinnvoll zu nutzen und einen geeigneten Ansatz zu finden.

Die kontinuierliche Weiterentwicklung von Tools und Technologien hat in den letzten Jahren ein neues Ökosystem voller Möglichkeiten für datengesteuerte Innovationen geschaffen. Mit der Menge der verfügbaren Daten steigt auch die Komplexität. Unternehmen sind gefordert, die richtigen Zusammenhänge zu schaffen. Indem sie Schnittstellen und Prozesse gestalten und die richtigen Fragen formulieren, um die Datenanalyse zu steuern. Die zugrunde liegende Herausforderung liegt darin, als Unternehmen einen Prozess zu etablieren, der sinnvollen Nutzen aus Big Data generiert.

Wie können Unternehmen aus Big Data erkenntnisreiche Daten, also „Smart Data“ generieren? In diesem zweiteiligen Beitrag stellen wir Ihnen einen Analyseprozess vor, mit dem taod den Ansatz des Data-Thinking verfolgt. So steuern sie Datenanalyseprojekte von der Idee bis zur Wertschöpfung. Im zweiten Teil unseres Artikels werden wir den Analyseprozess in vier Phasen unterteilen und auf die Bedeutung des Data Thinking Ansatzes weiter eingehen.

Datenanalyse von Big Data: Ein falscher Fokus, viele Fehlstarts!

Verständlicherweise werden große Anstrengungen unternommen, um „Big Data“ zu analysieren und um dessen potenziell enormen Geschäftswert zu entfalten. Neue neue Techniken zur Speicherung und Analyse großer Datensätze ermöglichen viele neue Anwendungsmöglichkeiten. Welche Fragen einzelne große Datenanwendungen beantworten sollen, ist oft unklar oder gar nicht definiert. Aus praktischer Sicht stehen Unternehmen immer noch vor großen Schwierigkeiten.

Wie Sie beispielsweise ihre Daten sinnvoll nutzen und einen geeigneten Ansatz finden sollen. Insbesondere da in einem organisatorischen Kontext verschiedene Arten von Analyseproblemen entstehen. Und diese können in ihren Anforderungen sehr unterschiedlich sein. Beispielsweise weil es trotz konkreter Fragestellung einer Fachabteilung an den erforderlichen Kompetenzen fehlt. Oder weil keine eigene Infrastruktur und keine methodische Erfahrung vorhanden ist. Bisher fehlen oft klare Strategien, Prozesse und das richtige Wissen zur erfolgreichen Wertschöpfung aus Unternehmensdaten.

Anteil gescheiterter Datenprojekte

Zu oft rückt zudem die technische Umsetzung und die Annahme eines eigenen Aufbaus von IT-Strukturen in den Fokus. Oft auch andere Managementfragen technischer Natur. Und zu gering fällt die Bedeutung des eigentlichen Transformationsprozesses aus, der sich von der ersten Idee bis zur anwendbaren analytischen Kompetenz erstreckt.

taod setzt auf einen definierten Prozess, um Datenanalyseprojekte gemeinsam mit Unternehmen umzusetzen. Das Fehlen spezifischer Anforderungen und definierter Projektziele in einem (Big Data) Analytics Projekt erschwert es Unternehmen, den Analyseprozess zu strukturieren. Für die erfolgreiche Integration und Implementierung großer Datenmengen sind in einem Unternehmen einerseits klare und wiederholbare Prozesse erforderlich. Gleichzeitig ist jedes Projekt anders, weshalb der Prozess verhältnismäßig flexibel sein muss. Im Innovationsmanagement gibt es einige Methodiken, aus denen sich auch für Analyseprojekte wichtige Grundregeln und Vorgehensmodelle ableiten lassen.

Jetzt mit einem Data Thinking Workshop starten!

Datenanalyse: Kein Projekt ist wie das andere!

Projekte in der Datenanalyse haben mehrere einzigartige Merkmale. Sie erfordern daher zuallererst einen explorativen Ansatz. Die Analyse beginnt nicht wie in anderen Projekten mit spezifischen Anforderungen oder Direktiven, sondern meist mit einer Idee oder einem Datensatz. Zweitens sind Projekte der Datenanalyse in ihrer Frühphase an ein komplexes Zusammenspiel verschiedener Interessengruppen, Kompetenzen und Standpunkte gebunden. Lernen ist dabei ein integraler Bestandteil dieser Projekte. Um Erfahrung und Kompetenz in der Analytik aufzubauen und gemeinsame Fragen und Erkenntnisbedürfnisse zu identifizieren.

Auf technischer Ebene sollte man aufgrund eines fehlenden eindimensionalen End-to-End Prozesses Daten nicht nur extrahieren, transformieren und integrieren.  Man muss sie auch identifizieren, klassifizieren und teilweise strukturieren, um auch im weiteren Verlauf präzise und verlässlich mit ihnen arbeiten zu können. Daher gilt es zusätzlich einen allgemeiner Prozess zur Wertschöpfung mitzudenken und parallel zu etablieren. Vor allem um Analyseprojekte nachhaltig zu steuern und flexibel auf neue Anforderungen reagieren zu können.

taod verfolgt den aus dem Design Thinking stammenden Ansatz des Data Thinkings. Dieser stellt nicht die technischen Herausforderungen und Lösungen in den Vordergrund. Er fokussiert die Identifizierung und systematische Erschließung von für das Unternehmen relevanten Use-Cases. In diesem Part unseres zweiteiligen Artikels geht es um die Definition von Big Data und Analytics. Im weiteren Verlauf wird im Sinne von Data Thinking ein Prozess für einen strukturierten Ansatz zur Datennutzung vorgestellt.

Große Datenmengen und ihre Analyse

In diesem Abschnitt gehen wir auf die elementaren Aspekte ein, aus denen die Wertschöpfungskette betrachtet werden sollte: Daten, Infrastruktur und Analyse. Wert wird durch die Analyse von Daten in einem bestimmten Kontext geschaffen. Indem also eine Problemstellung im Zusammenhang mit einer Unternehmensanforderung den Innovationsbedarf erhöht. Neben der Expertise in der Durchführung von Daten- und Analyseprojekten erfordert dieser Prozess eine funktionierende Infrastruktur. Insbesondere wenn Volumen oder Vielfalt der zu analysierenden Daten bestimmte Grenzen überschreiten. Im Folgenden werden die drei technischen Aspekte näher beschrieben.

Anforderungen von Projekten zur Datenanalyse

Was ist Big an Big Data?

Big Data wird oft mit Volumen (wie viele Daten), Geschwindigkeit (Geschwindigkeit der Datengenerierung) und Vielfalt (als die Vielfalt der Datentypen) definiert. Big Data beschreibt Datensammlungen von einer Größe, die mit herkömmlichen Techniken des Datenmanagements nur schwer zu verarbeiten sind. Während sich viele Definitionen von Big Data auf den Aspekt des Volumens konzentrieren, der sich auf die Größenordnung der verfügbaren Daten bezieht, bringt eine große Datenmenge insbesondere heterogene Formate und ein breites Spektrum möglicher Datenquellen mit sich. Beispiele sind strukturierte numerische Daten oder unstrukturierte Daten wie Text oder sogar Bilder oder Videos. Diese Vielfalt und die breite Varianz der Datenquellen bietet viele Möglichkeiten, Erkenntnisse zu gewinnen.

Neueste technische Verbesserungen (z.B. Cloud Computing) ermöglichen es, Daten in großem Umfang zu analysieren und zu speichern. Für viele (neue) Datentypen ist ihr genauer Geschäftswert bisher unklar und erfordert eine systematische Erforschung. Die verfügbaren Daten sind oft chaotisch und selbst wenn man sie bereinigt, können sie überwältigend und zu komplex sein, dass selbst professionelle Data Scientists sie verstehen. Der Beitrag der Daten ist natürlich kontextspezifisch und variiert je nach Geschäftsfall und Anwendung. Eine der größten Herausforderungen besteht darin, Daten zu identifizieren, die den Geschäftsanforderungen am besten entsprechen. Zu viele Projekte im Kontext von Big Data werden daher auch von der falschen Perspektive aus gedacht: Nicht die Datenmenge an sich entscheidet über die Erkenntnisfragen. Die Frage nach relevanten Use-Cases und unternehmensbezogenem Value der benötigten Antworten entscheidet über die Strukturierung und Integration der Daten und das Analysevorgehen.

Analyse

Die Datenanalyse befasst sich mit der Befragung und Erforschung von Datensätzen mit Hilfe verschiedener quantitativer Methoden. Diese sind zum Teil durch statistische Modellierung oder maschinelles Lernen motiviert. Methoden aus verschiedenen Disziplinen wie Statistik, Wirtschaft oder Informatik finden Anwendung, um Muster, Einflussfaktoren oder Abhängigkeiten zu identifizieren. Im Gegensatz zu Business Intelligence reicht die Datenanalyse über die deskriptive Analytik hinaus und hat oft eine prädiktive Komponente. Welche Methode anzuwenden ist, hängt sowohl  vom konkreten Business Case ab als auch von der Datenqualität und Verfügbarkeit ab.

Die Datenanalyse lässt sich wie folgt kategorisieren:

  • Verbesserte Analyse der internen Daten. Ein Beispiel sind Prognoseverfahren, die expertenbasierte Planungsansätze um zusätzliche Kennzahlen ergänzen. Diese Methoden bauen auf bestehenden Datenbanken wie Business Intelligence Systemen auf und tragen neue oder weitere Erkenntnisse in die internen Unternehmensprozesse ein.
  • Neue Kombinationen von Datensätzen bieten neue Erkenntnisse, zum Beispiel durch die Kombination von Sensordaten und Benutzerprofilen.
  • Erschließung neuer oder (bisher) ungenutzter Datenquellen (z.B. Websites, offene Daten), um Potenziale für die Generierung neuer Erkenntnisse zu identifizieren. Für die Verwendung der Daten ist jedoch ein Kontext oder eine vordefinierte Anwendung erforderlich. Ein Beispiel in diesem Kontext sind Social-Media-Daten, die sich zur Marktbeobachtung verwendet lassen.

Das Kernproblematik in der Datenanalyse besteht jedoch darin, die richtigen Leitfragen zu erarbeiten. Es gilt hierin eine Übereinstimmung zwischen Geschäftsbedarf, potentiellen Datenquellen und Analysevorgehen zu erreichen, wie später im Artikel erläutert wird.

IT-Infrastruktur

Im ersten Schritt nicht zwingend notwendig, aber im weiteren Verlauf wichtig, ist die Anpassung der IT-Infrastruktur an die Einbettung von Analytics-Lösungen und die Integration verschiedener Datenquellen. Die IT-Infrastruktur besteht aus folgenden Kernschichten:

Data ingestion layer: Diese Ebene umfasst den Datentransfer von einem Quellsystem in eine Analyseumgebung. Daher ist es notwendig, ein Tool und ein entsprechender Prozess zu definieren. Traditionelle Extraktions-, Transformations-, Lade-(ETL)-Tools und relationale Datenbanken werden mit Hadoop/großen Datensätzen kombiniert. Sie decken insbesondere Szenarien ab, die durch weniger strukturierte, hochvolumige oder gestreamte Daten verursacht werden. Anwendungsfälle für Analysen basieren auf Daten aus Data Warehouses bis hin zu völlig unstrukturierten Daten. Diese Bandbreite stellt klassische Architekturen in Frage und erfordert anpassungsfähige Schemata. Welche Datenquellen zu integrieren sind, hängt von der jeweiligen Anwendung ab.

Data value exploration layer: Basierend auf den Geschäftsanforderungen und dem entsprechenden Anwendungsfall untersucht, testet und sampelt man in dieser Schicht Daten. Je nach Komplexität und betriebswirtschaftlicher Fragestellung entwickelt man ein geeignetes Analyseschema. Geschäfts- und explorative Analysen, auf der Grundlage von OLAP-Modellen (Online Analytical Processing) in Speichertechnologien, werden durch den Einsatz fortschrittlicher Analysemethoden und Integration (z.B. R- oder Python-Plugins) ergänzt oder erweitert.

Data consumption layer: Hier verwendet man die Ergebnisse z.B. zur Visualisierung. Der Endanwender kann die Daten ohne tiefes technisches Verständnis (z.B. für Self-Service Business Intelligence) nutzen.

Data Thinking: Daten zu Werten machen

Unternehmen haben immer noch Schwierigkeiten, Daten sinnvoll zu nutzen oder meinen nicht die richtigen Kompetenzen zu besitzen. Eine der wichtigsten und vor allem die allererste Herausforderung in Analyseprojekten ist jedoch die Identifizierung des Geschäftsbedarfs und der Leitfragen, die den eigenen Erkenntnisgewinn definieren sollen. Der Ansatz des Data Thinking impliziert unterschiedliche Ausgangspunkte für den Analyseprozess und unterschiedliche Innovationspfade, die meist in drei Standardsituationen oder Szenarios zusammengefasst werden. Diese Szenarien werden durch die bereits definierten Kernbereiche der Analyseanforderungen Geschäftsbedarf, Daten, Analyse und Infrastruktur bestimmt.

Was definiert den Ausgangspunkt der Datenanalyse von Big Data?

Wie bereits angeführt ist der Ausgangspunkt für jedes Analyseprojekt unterschiedlich. Um das Potential der Datenanalyse abschätzen zu können, muss eine Untersuchung der vier Kernbereiche Unternehmensbedarf, Datenlage, Datenanalyse und (IT-)Infrastruktur erfolgen:

Geschäftsbedarf: Von Fall zu Fall variiert die Genauigkeit der Problembeschreibung und des -umfangs. In einigen Fällen werden die Leitfragen und Umfänge, die die Analysephase leiten, sehr genau formuliert, in anderen Fällen müssen sie im Laufe des Prozesses ausgearbeitet und verfeinert werden.

Daten: Die im Projekt zu verwendenden Daten können bereits definiert sein oder eine geeignete Quelle ist noch nicht klar. Der Umfang und die Qualität der Daten bestimmt im Wesentlichen den Fortschritt des weiteren Prozesses. Parameter sind z.B. die Struktur (d.h. der Grad der Aufbereitung) oder die Größe des Datensatzes (handelt es um eine CSV-Datei oder eine komplexe große Datenbank).

Analyse: Welche Methoden zur Anwendung kommen ist von Fall zu Fall unterschiedlich und muss getestet und untersucht werden. In den meisten Fällen wird eine erste Datenexploration den Anfang bilden, bevor die Granularität in Bezug auf die der Analyse zugrunde liegenden Fragen zunimmt.

Infrastruktur: Der aktuelle (technische) Stand des Fachbereichs (z.B. eigenes Data Warehouse, Berichtssystem) oder eigene Ressourcen und Kompetenzen sind ein weiterer wichtiger Aspekt.

Ausgangslage vor Datenanalyse

Verschiedene Szenarien vor der Datenanalyse von Big Data

Diese vier Perspektiven kann man in Bezug auf den Anforderungsgrad des Analyseprojekts unterschiedlich bewerten. Abhängig von dieser Bewertungsmatrix ergeben sich zwangsläufig verschiedene Anfangspunkte für Analyticsprojekte. Basierend auf den Erfahrungen aus unseren vielfältigen Kundenprojekten unterscheiden wir drei Szenarien:

  • In Szenario 1 wird die Datenanalyse durch eine definierte Anforderung motiviert, wie z.B. die Marktbeobachtung beim Rollout einer neuen Website, App oder vergleichbarem. Die geeignete Datenquelle gilte es zu identifizieren, weshalb durch die fehlenden Daten die genaue Analyse nicht definiert ist und es keine bestehende Infrastruktur hinsichtlich bestehender Datenquellen oder -banken gibt. Es müssen Ideen entwickelt werden, welche Datenquellen relevant sein könnten und welche Probleme auf dieser Grundlage gelöst werden können. Anschließend setzt man verschiedene Methoden der Datenanalyse ein, um neue Erkenntnisse zu generieren.
  • In Szenario 2 sind die Datenquelle und die Infrastruktur klar definiert und die spezifischen Fragen müssen identifiziert werden. Ein Ansatz ist die Bewertung des Erkenntniswertes einer bestimmten Datenquelle, die bisher noch nicht konkret analysiert wurde. So verfügt ein Fachbereich beispielsweise über eine interne Datenbank und will ein Business-Intelligence System um eine Prognosekomponente erweitern. In diesem Fall ist der Umfang klarer als im ersten Szenario und eine explorative Datenanalyse kann bereits umgesetzt werden.
  • In Szenario 3 gibt es ein präzises analytisches Problem, das  man professionalisieren möchte. Ein erster Analyse-Entwurf auf Basis verfügbarer Daten zeigt vielversprechende Ergebnisse und die Lösung kann im nächsten Schritt skaliert und auf Ebene der Infrastruktur institutionalisiert werden. Dazu ist eine Orientierungshilfe bei architektonischen Entscheidungen erforderlich, um beispielsweise in der weiteren Skalierung die Datenqualität und -integration zu gewährleisten.

Im zweiten Teil unseres Artikels werden wir den Analyseprozess in vier Phasen unterteilen und auf die Bedeutung des Data Thinking Ansatzes auch für Datenanalyse von Big Data weiter eingehen.

Schlagwörter: