Moderne Analytics-Projekte müssen auf ganzheitliche Datengrundlagen aufbauen können. Unstrukturierte sowie starre Datenvorkommen behindern ambitionierte Datenprojekte, die naturgemäß stetig wachsende Datenvolumen involvieren müssen. Cloudbasierte Technologien sind somit die Grundvoraussetzung, um datengetriebene Projekte zügig wie erfolgreich voranzutreiben. Innerhalb des Modern Data Stack funktioniert das Cloud Data Warehouse als Single Source of Truth und ist technologischer Ausgangspunkt für die Verarbeitung von Daten.
Schnelle Bereitstellung
Gesteigerte Abfrageleistung bei großen Datenmengen
Horizontale Skalierung der Rechen- und Speicheranforderungen
Einsparung von finanziellen Ressourcen
Bessere Performance als On-Site Warehouse
Wie entstehen große automatisierte Reporting-Landschaften unter Einbezug von flexiblen und cloudbasierten Technologien? Mit dem finalen cloudbasierten, automatisierten Vertriebs-Controlling steuern mittlerweile rund 150 Angestellte diverse Fachbereiche von SKF-Deutschland Analysen und Reportings. Das Herzstück bildet dabei das in Power BI erstellte KPI Dashboard, dass den Arbeitsaufwand für die Reportings signifikant reduziert hat.
Johannes Hüttner
Key Account Manager/ SKF
Ein Data Warehouse ist ein relationales Datenbanksystem für analytische Abfragen. Innerhalb dieser Datenbank werden mehrere meist heterogene Quellen zusammengeführt. Hier werden alle Daten strukturiert „gelagert“, die jederzeit für die weitere Verarbeitung abgerufen werden können.
Der Data Lake ist die Vorstufe eines Data Warehouse. Es handelt sich um ein Datenlager, das eine riesige Menge von unstrukturierten wie auch strukturierten Daten jeglicher Form aufbewahrt.
Ein Data Lakehouse kombiniert die besten Elemente von Data Lakes und Data Warehouses. Datenstrukturen und Datenverwaltungsfunktionen werden ähnlich wie im Warehouse implementiert, und zwar auf kostengünstigem Speicher, der üblicherweise für Data Lakes verwendet wird.
Hinter dem Kürzel ETL steckt die Abfolge von klassischen Data Pipelines: Extraction – Transform – Load. Rohdaten werden abgerufen, transformiert und dann in Datenbanken eingespeist. Die meisten cloudbasierten Datenbanken folgen aber dem ELT-Ansatz: Extraction – Load – Transform. Dabei werden Datenquellen direkt in das Zielsystem übertragen und erst dort transformiert. Bei besonders großen Datenmengen ist dies von Vorteil, da es die Skalierbarkeit unterstützt und weniger Ressourcen verbraucht.
Die einzelnen Cloud Services sind unterschiedlich aufgestellt. Die meisten Cloud-Anbieter stellen ein freies Kontingent zur Verfügung, um den Use Case in der jeweiligen Cloud zu testen. Es empfiehlt sich die Aufstellung eines Prototyps, der die realen Bedingungen bestmöglich abbildet. Anhand der Ergebnisse kann dann eine Entscheidung gefällt werden.