„Datensilos in Data Lakes und Data Warehouses gehören der Vergangenheit an“

0

Mit einem Lakehouse sind Unternehmen in der Lage, strukturierte Informationen und Big Data aufzuspalten und sie getrennt für BI- und Machine-Learning-Anwendungen einzusetzen. Roman Pritzkow, Regional Vice President Enterprise Sales Germany bei Databricks, verdeutlicht im Interview mit line-of.biz (LoB) die Vorteile.

LoB: Welchen Nutzen bringen die Neuerungen, die Sie für Ihre Unified Data Analytics Plattform vorgestellt haben?
Pritzkow: Unsere beiden bisherigen Kernprodukte waren MLflow und Delta Lakes. Mit MLflow vereinfachen wir die Dokumentation von Machine-Learning-Projekten und Delta Lake bringt Struktur in die über die Jahre mit Daten angefüllten Data Lakes. Mit Lakehouse fügen wir ein Datenmanagement-Paradigma hinzu: Unternehmen können nun strukturierte Informationen und Big Data aufspalten und getrennt für BI- und Machine-Learning-Anwendungen einsetzen.

Anzeige

LoB: Was bedeutet das in der Praxis?
Pritzkow: Datensilos in Data Lakes und Data Warehouses gehören damit der Vergangenheit an. Mit Lakehouse erreichen wir eine Kombination aus der Zuverlässigkeit von Data Warehouses mit der Größe von Data Lakes, um jede Art von Anwendungsfall zu unterstützen. Damit diese Architektur gut funktioniert, muss sich jede Art von Daten einfach einbeziehen lassen und dies ist mit uns möglich.

LoB: Warum brauche ich ein Data Lakehouse, um Data Warehouses und BI beziehungsweise Data Warehouses und Data Lakes zusammenzuführen? Denn die Daten aus einem Data Warehouse liegen doch in der Regel sehr strukturiert vor, so dass sich aus diesen Daten recht gute Aktionen ausführen lassen. In den Data Lakes geht es dagegen eher ungeordnet zu – oder sehen Sie das anders?
Pritzkow: In der Vergangenheit war es so, dass die Data Lakes eher wenig zur Profitabilität beigetragen haben, doch inzwischen hat sich das geändert. Es gibt zwei parallele Entwicklungen, die wir im Laufe der Zeit gesehen haben: Zum einen wachsen die Kosten für bestehende Warehouse und deshalb werden Cloud-Migrationen in Betracht gezogen. Zum anderen steigt die Bedeutung von Data Lakes signifikant in den Unternehmen. Es werden nämlich immer mehr Datenquellen angebunden, die eben nicht einem Data Warehouse entstammen. Bei genauerer Betrachtung muss man sich auch eingestehen, dass sie dort gar nicht hingehören, weil das die Größe des Warehouses sprengen würde und dementsprechend teuer wäre.

LoB Was sieht dann die Konsequenz für die Anwender aus?
Pritzkow: Unternehmen müssen sich für ein führendes System entscheiden und da kommt eben das Lakehouse-Konzept ins Spiel. Es klärt Fragen wie: Wo fahre ich meine Analysen, wo setze Machine Learning ein, etc. Denn es geht darum, am Ende des Tages geschäftsrelevante Daten zu erhalten, um fundierte Entscheidungen treffen zu können.

LoB: Welche technologischen Partnerschaften – sprich Integrationsoptionen – fassen Sie ins Auge?
Pritzkow: Mit Databricks Ingest können Unternehmen zahlreiche Integrationen von unseren Partnerunternehmen vornehmen, um deren Daten in das Lakehouse zu übertragen und dort auszuwerten. Zu diesen Partnern zählen: Fivetran, Qlik, Streamsets, Infoworks und Syncsort, weitere sind Informatica, Segment und Talend. Dazu kommen dann noch Anwendungsdaten etwa von Salesforce, Marketo, Zendesk, SAP oder Google Analytics, sowie Datenbanken wie Kafka, Cassandra, Oracle, MySQL und Mongo, Mainframe-Daten, Dateien und Cloud-Speicher.

LoB: Wird dieses Ökosystem weiter wachsen?
Pritzkow: Auf alle Fälle werden wir es im Laufe der Zeit noch erweitern, je nachdem wie die Marktsituation dies erfordert bzw. unsere Kunden benötigen.

LoB: Im Kontext der neuen Funktionen sind auch noch Schlagworte wie „Cloud-native“, Sicherheit, „proaktive Verwaltung“ und Automatisierung aufgetaucht? Speziell bei den Themen „Cloud-native“ und „Sicherheit“ tauchen hier Fragezeichen auf, ob sich das überhaupt miteinander vereinbaren lässt?
Pritzkow: Zum Thema Cloud-native Sicherheit: Momentan konzentrieren wir uns auf Microsoft Azure und AWS, weil beide ein GEO-Locationing ermöglichen. Die Datenzentren befinden sich hier in Europa bzw. sogar in Deutschland. Sicherheit bedeutet hier einerseits Datenstandort, andererseits haben wir viel investiert, um die Sicherheit zu erhöhen: Stichworte sind „Bring your own Key“, oder die sehr granulare Zugriffssteuerung in Delta Lake.

LoB: Wie einfach lässt sich das „konsumieren“?
Pritzkow: Unternehmen können einen vollständig verwalteten SaaS-Service nutzen, ohne die Kontrolle über ihre Daten zu verlieren, indem sie Databricks-Cluster innerhalb ihres Cloud-Accounts betreiben. Fügen sie auch noch kundeneigene Schlüssel für die Datenverschlüsselung und angepasste private Netzwerke zum Betrieb dieser Cluster hinzu, sind sie in der Lage, den Service noch besser auf ihre individuellen Unternehmens- und Compliance-Anforderungen zuzuschneiden.

LoB: Und wie sieht es beim Thema einfache und proaktive Verwaltung aus?
Pritzkow: Zur Unterstützung von Hunderten von Teams mit Tausenden von Benutzern, die Hunderttausende von Rechen-Instanzen erstellen, sind Transparenz und Kontrolle von entscheidender Bedeutung. Für eine vollständige Transparenz können Unternehmen jetzt alle Aktivitäten in ihrem Konto prüfen und analysieren und Richtlinien zur Verwaltung von Benutzern, zur Kontrolle des Budgets und zur Verwaltung der Infrastruktur festlegen.

LoB: Das Thema Automatisierung wird sehr gerne ins Feld geführt – wie setzen Sie das um?
Pritzkow: Mit einem API-gesteuerten Ansatz ermöglichen wir unseren Kunden die schnelle Produktion von Analysen und Machine Learning – ML – mit „Continuous Integration and Continuous Delivery“ – CI/CD. Mit der zusätzlichen Unterstützung von git, APIs für alle relevanten Bereiche – von der Benutzerverwaltung, der Bereitstellung von Arbeitsbereichen, Cluster-Richtlinien bis hin zur Anwendungs- und Infrastruktur-Überwachung, können DevOps-Teams den gesamten Daten- und ML-Lebenszyklus automatisieren. Data Warehouse-Plattformen tun sich beispielsweise sehr schwer mit Streaming-Funktionen.

LoB: Welche Auswirkungen wird die COVID-Pandemie auf den Bereich Big Data haben?
Pritzkow: Für viele Unternehmen könnte es eine interessante Zeit sein, um sich Gedanken darüber zu machen, welche Schätze sie in den Data Lakes über die Jahre angehäuft haben und welche Schlüsse die einzelnen Unternehmen durch Data Science daraus für die Zeit nach der Krise ziehen können. Es gibt sicherlich zahlreiche Herausforderungen, die sich in den Branchen unterscheiden. Aber letztlich haben sie eines gemeinsam: Sie lassen sich mit gut gemanagten Big Data-Analysen lösen – es braucht oft nur den richtigen Impuls oder die richtige Plattform. Data Science-Projekte können im Ergebnis dann den Verlust, den viele Unternehmen derzeit einfahren vielleicht sogar ausgleichen – hier bieten sich vielleicht einmalige Chancen.

LoB: Wie sieht es denn mit den bisherigen Geschäftsmodellen aus, werden die nach wie vor funktionieren oder braucht es komplett neue?
Pritzkow: Wo das Offline-Geschäft zusammenbricht, gehen viele Unternehmen dazu über, neue Daten-getriebene Geschäftsmodelle zu implementieren. Einerseits passiert das, weil es nun die erforderlichen Ressourcen gibt, andererseits da nun die finanziellen Mittel zur Verfügung gestellt werden.

Rainer Huttenloher

Databricks