Definition der Gemeinsamkeiten und Unterschiede
Vor allem im unternehmerischen Kontext haben sich durch den Prozess der Digitalisierung zahlreiche Begriffe rund um die Datenanalyse etabliert. Deren konkrete Bedeutung und Abgrenzung zu benennen ist bei näherer Betrachtung aber nicht immer so leicht, wie es auf den ersten Blick wirkt.
Analytics Engineering, Big Data, Data Science oder Data Analytics? Viele neue Begriffe bringen einiges an Erklärungsbedarf mit sich. Wir bringen ein wenig Licht ins Dunkel und erläutern die Unterschiede und Gemeinsamkeiten eines häufig vorkommenden Begriffspaars: Data Analytics und Data Science. Mit der Entstehung neuer Branchen und neuen Industriezweigen wächst die Notwendigkeit, Prozesse, Berufsfelder und Technologien mit entsprechenden Begriffen vermittelbar zu machen.
Data Science und Data Analytics als einzelne, eigenständige Bereiche zu verstehen, ist bereits das erste Missverständnis, das ausgeräumt werden sollte. Diese Fehlannahme ist damit begründet, dass der Begriff „Datenanalyse“ im Deutschen als generalisierende Überkategorie für die allgemeine Untersuchung von Daten Verwendung findet. Data Science ist jedoch konkret ein Teilbereich von Data Analytics. Und natürlich werden in beiden Bereichen Daten nach Korrelationen, Kausalitäten sowie Mustern und daraus ableitbaren Erkenntnissen befragt.
Was ist Data Analytics und wie arbeitet ein Data Analyst?
Ein Data Analyst setzt sich mit wohldefinierten und somit dedizierten Datensätzen auseinander. Diese werden von ihm visualisiert, analysiert und auf Muster, Fehler und Besonderheiten hin untersucht. Dabei geht es fast immer um historische Daten. Welche Webseiten besuchten in welchem Zeitraum wie viele Unique User? Welche Produkte wurden von welcher demografischen Gruppen wann gekauft? In welchem Zeitraum wurden die meisten Sensorwerte gemessen? Aus diesen Daten lassen sich umfangreiche Statistiken gewinnen und Visualisierungen erstellen, um beispielsweise Abhängigkeiten und Verhältnisse abzubilden.
Data Analysts besitzen oftmals ausgeprägte Kenntnisse der mathematischen Statistik. Die wichtigsten Kompetenzbereiche und Werkzeuge umfassen Datenbanken und ihre Verwaltung, SQL als Teil davon, und statistische Programmiersprachen wie R und SAS. Hinzu kommt ein fundiertes Fachwissen im Umgang mit großen Datenmengen, das für Analysen von Big Data Projekten benötigt wird, um Daten zu verstehen und vermittelbar zu machen. Es handelt sich um einen sehr anwendungsbezogenen Arbeitsbereich, der in weiten Teilen einer Tätigkeit als Consultant gleicht.
Was ist Data Science und was macht ein Data Scientist?
In Abgrenzung dazu befasst sich die Teildisziplin Data Science mehr mit den wissenschaftlichen Grundlagen der Mustererkennung und Klassifizierung. Oft ist hier die zugrunde liegende Datenbasis noch indifferent und alles andere als wohldefiniert. Datensätze verschiedener Untersuchungsbereiche fließen in die statistische Auswertung mit ein. Data Scientists nutzen Regressionsanalysen und Klassifizierungsverfahren, um Vorhersagen für die Zukunft zu ermöglichen. Diese Vorhersagen beruhen in der Regel nicht auf analytischen Methoden, sondern vielmehr auf der statistischen Auswertung großer Datenmengen. Data Scientists verbinden wissenschaftliche Grundlagen mit Erfahrung in der Entwicklung und Programmierung. Hier geht es wirklich um Datenverarbeitung in großem Stil und der Data Scientist wird sich bemühen, möglichst viel davon zu automatisieren, um sich auf seine Ergebnisse konzentrieren zu können.
Das Ziel ist, aus Daten der Vergangenheit Schlüsse für die Zukunft zu ziehen. Sinnvoll funktioniert das nur dann, wenn die Daten ordentlich aufbereitet, gefiltert, strukturiert und verstanden sind. Umgesetzt werden Data-Science-Projekte auf mathematischer Basis in Form von Algorithmen. Neben verschiedensten anderen Programmiersprachen hat besonders Python eine große Bedeutung im Bereich Data Science.
Kongruenzen zwischen Data Analytics und Data Science
Oft überschneiden sich die Arbeitsbereiche von Data Analytics und Data Science. Für beide ist die Erschließung von Datenquellen, die Konsolidierung und Bereinigung sowie die Integration in Tools essenziell, um valide mit den Datensätzen arbeiten zu können. Der Data Scientist verwendet ebenso wie der Data Analyst Methoden der Visualisierung, um beispielsweise statistische Annahmen abzubilden. Beide Fachbereiche setzen umfassende Kenntnisse in den untersuchten Themengebieten voraus, um erkennbare Zusammenhänge auch zu erfassen. Sowohl der Data Analyst als auch der Data Scientist wird sich daher mit den Grundlagen des jeweiligen Arbeitsbereichs befassen, um ein besseres Verständnis dafür zu erhalten, was die Daten aussagen. Insofern natürlich auch, wie sie zu interpretieren sind. Nur durch dieses Fachwissen sind die aus den Daten ermittelten Aussagen richtig einzuordnen.
Ein gelegentlich übersehener, aber sehr wesentlicher Arbeitsbereich beider Bereiche, ist die Kommunikation im Team und mit Stakeholdern. Data Science findet an der Schnittstelle von Technik und Management statt und muss mit beiden Ebenen kommunizieren. Die wenigsten Manager wollen wirklich verstehen, was eine Support Vector Machine oder ein Neuronales Netzwerk ist und wie genau das funktioniert. Wie zuverlässig die Ergebnisse sind und was sie für die Entscheidungsträger bedeuten, ist dagegen sehr wichtig.
Balance zwischen Technologie und Consulting
Eine ausgeglichene Balance zwischen technischer Grundlage und Beratungsleistung zu finden, ist dabei vor allem für Data Scientists aufgrund ihres meist technischen Backgrounds oft eine Herausforderung. Die Ergebnisse müssen argumentativ präsentiert oder veröffentlicht sein, ohne den technischen Fokus in den Vordergrund zu stellen. Diese Aufgaben übernehmen häufig Data Analysts, die im direkten Austausch mit Führungskräften und Kunden oder Kundinnen beispielsweise Reportings und Berichte vermitteln. Die optimale Team-Aufstellung in Datenanalyse-Projekten vereint daher Data Analysts und Data Scientists, um Kundenprojekte zielorientiert aufzusetzen, eine valide Analyse zu gewährleisten und eine erfolgreiche Kundenkommunikation zu gewährleisten.