Data Analytics & Data Science: Was ist was? Eine kurze Einordnung.

by Philipp Kremer
5 Monaten ago
53 Views

Data Analytics & Data Science: Was ist was?

Vor allem im unternehmerischen Kontext haben sich durch den Metaprozess der Digitalisierung zahlreiche Begriffe rund um die Datenanalyse etabliert. Deren konkrete Bedeutung und Abgrenzung zu benennen, ist bei näherer Betrachtung aber nicht immer so leicht, wie man auf den ersten Blick meint.

Data Engineering, Big Data, Data Science oder Data Analytics? Viele neue Begriffe und einiges an Erklärungsbedarf. Wir möchten ein wenig Licht ins Dunkel bringen und die Unterschiede und Gemeinsamkeiten eines häufig vorkommenden Begriffspaar erläutern: Data Analytics und Data Science! Mit der Entstehung von neuen Branchen und Industriezweigen wächst die Notwendigkeit, Prozesse, Berufsfelder und Technologien mit neuen Begriffen vermittelbar zu machen. Data Science und Data Analytics als einzelne, eigenständige Bereiche zu verstehen, ist bereits das erste Missverständnis, das ausgeräumt werden sollte. Diese Fehlannahme kann damit begründet werden, dass der Begriff „Datenanalyse“ im Deutschen als generalisierende Überkategorie für die allgemeine Untersuchung von Daten Verwendung findet. Data Science ist jedoch konkret ein Teilbereich von Data Analytics und natürlich befragen beide Daten nach Korrelationen, Kausalitäten sowie Mustern und daraus ableitbaren Erkenntnissen.

Was ist „Data Analytics“, wie arbeitet ein „Data Analyst“?

Ein Data Analyst setzt sich mit wohldefinierten und somit dedizierten Datensätzen auseinander, die von ihm visualisiert, analysiert und auf Muster, Fehler und Besonderheiten hin untersucht werden. Dabei geht es fast immer um historische Daten: Welche Website wurde in welchem Zeitraum wie oft von wie viele Unique Usern besucht? Welche Produkte wurden von welcher demografischen Gruppen wann gekauft? In welchem Zeitraum wurden die meisten Sensorwerte gemessen? Aus diesen Daten werden umfangreiche Statistiken gewonnen und Visualisierungen erstellt, um beispielsweise Abhängigkeiten und Verhältnisse abzubilden.

Data Analysts besitzen oftmals ausgeprägte Kenntnisse der mathematischen Statistik. Die wichtigsten Kompetenzbereiche und Werkzeuge umfassen Datenbanken und ihre Verwaltung, SQL als Teil davon, und statistische Programmiersprachen wie R und SAS. Hinzu kommt ein fundiertes Fachwissen im Umgang mit großen Datenmengen, wie es beispielsweise für Analysen von Big Data Projekten benötigt wird, um Daten zu verstehen und vermittelbar zu machen. Es handelt sich um einen sehr anwendungsbezogenen Arbeitsbereich, der in weiten Teilen einer Tätigkeit als Consultant gleicht.

Was ist „Data Science“, was macht ein „Data Scientist“?

In Abgrenzung dazu befasst sich die Teildisziplin Data Science mehr mit den wissenschaftlichen Grundlagen der Mustererkennung und Klassifizierung. Oft ist hier die zugrunde liegende Datenbasis noch indifferent und alles andere als wohldefiniert. Datensätze verschiedener Untersuchungsbereich fließen in die statistische Auswertung mit ein. Regressionsanalyen und Klassifizierungsverfahren werden genutzt, um Vorhersagen für die Zukunft zu ermöglichen. Diese Vorhersagen beruhen in der Regel nicht auf analytischen Methoden, sondern auf der statistischen Auswertung großer Datenmengen.  Data Scientists verbinden wissenschaftliche Grundlagen mit Erfahrung in der Entwicklung und Programmierung. Hier geht es wirklich um Datenverarbeitung in großem Stil und der Data Scientist wird sich bemühen, möglichst viel davon zu automatisieren, um sich auf seine Ergebnisse konzentrieren zu können. Das Ziel ist, aus Daten der Vergangenheit Schlüsse für die Zukunft zu ziehen. Sinnvoll funktioniert das nur dann, wenn die Daten ordentlich aufbereitet, gefiltert, strukturiert und verstanden sind. Umgesetzt werden Data Science Projekte auf mathematischer Basis in Form von Algorithmen. Neben verschiedensten anderen Programmiersprachen hat besonders Python eine große Bedeutung im Bereich Data Science.

Kongruenzen zwischen Data Analytics und Data Science

Oft überschneiden sich die Arbeitsbereiche von Data Analytics und Data Science. Für beide ist die Erschließung von Datenquellen, die Konsolidierung und Bereinigung sowie die Integration in Tools essentiell, um valide mit den Datensätzen arbeiten zu können. Der Data Scientist verwendet ebenso wie der Data Analyst Methoden der Visualisierung, um beispielsweise statistische Annahmen abzubilden. Beide Fachbereiche setzen umfassende Kenntnisse in den untersuchten Themengebieten voraus, um erkennbare Zusammenhänge auch zu erfassen. Sowohl der Data Analyst als auch der Data Scientist wird sich daher mit den Grundlagen des jeweiligen Arbeitsbereichs befassen, um ein besseres Verständnis dafür zu erhalten, was die Daten aussagen und wie sie zu interpretieren sein können. Nur durch dieses Fachwissen sind die aus den Daten ermittelten Aussagen richtig einzuordnen.

Ein gelegentlich übersehener, aber sehr wesentlicher Arbeitsbereich, den sich beide teilen, ist die Kommunikation im Team und mit Stakeholdern. Data Science findet an der Schnittstelle von Technik und Management statt und mit beiden Ebenen muss kommuniziert werden. Die wenigsten Manager werden wirklich verstehen wollen, was eine Support Vector Machine oder ein Neuronales Netzwerk ist und wie genau das funktioniert. Wie zuverlässig die Ergebnisse sind und was sie für die Entscheidungsträger bedeuten, ist dagegen sehr wichtig.

Eine ausgeglichene Balance zwischen technischer Grundlage und Beratungsleistung zu finden, ist dabei vor allem für Data Scientists aufgrund ihres meist technischen Backgrounds oft eine Herausforderung. Die Ergebnisse müssen argumentativ präsentiert oder veröffentlicht werden, ohne den technischen Fokus in den Vordergrund zu stellen. Diese Aufgaben übernehmen häufig Data Analysts, die im direkten Austausch mit Führungskräften und Kunden beispielsweise Reportings und Berichte vermitteln.  Die optimale Teamaufstellung in Datenanalyseprojekten vereint daher Data Analysts und Data Scientists, um Kundenprojekte zielorientiert aufzusetzen, eine valide Analyse zu gewährleisten und eine erfolgreiche Kundenkommunikation zu gewährleisten.