„Extra für komplexe Architekturen: Delta Engine“

0

Für den Spark+AI Summit Ende Juni 2020 waren mehr als 60.000 Teilnehmer aus über 100 Ländern registriert. Die Veranstaltung brachte die Apache Spark Community zusammen und informierte sie zunächst über die Neuerungen von Spark 3.0 aber auch wie Databricks Machine Learning einsetzt, um die aktuelle COVID-19-Krise zu bewältigen. Im Interview mit dem BI-Themenhub (BIT) erklärt Roman Pritzkow, Regional Vice President für die Region DACH bei Databricks, welche weiteren Entwicklungen geplant sind.

BIT: Welche Trends hat die Veranstaltung aufgezeigt?
Pritzkow: Apache Spark hat seinen 10. Geburtstag bereits hinter sich: 2009 an der University of California, Berkeley, gegründet, wurde Apache Spark ein Jahr später zu Open Source. Von 2012 bis 2015 wurde der Zugang durch die Einführung von Sprachen wie Python, R und SQL stark erweitert. Inzwischen stammen 68 Prozent der Notebook-Befehle von Python. 90 Prozent der API-Aufrufe von Spark stammen von SQL. Eine weitere beeindruckende Zahl ist, dass 5 Billionen Datensätze pro Tag für Streaming gezählt werden. Im Vordergrund der weiteren Entwicklung von Spark sollen nun Benutzerfreundlichkeit sowohl in der Exploration als auch in der Produktion sowie APIs, die eine Verbindung zu einem großen Software-Ökosystem herstellen, stehen.

Anzeige

BIT: Was ist die Delta Engine und können Sie den Zusammenhang mit Lakehouse und Delta Lake erklären?
Pritzkow: Herkömmliche Datenanalysen bei strukturierten und halbstrukturierten Daten erfordern eine sehr schnelle Performance, um mit dem Betriebstempo Schritt zu halten. In der Vergangenheit haben Unternehmen die Daten in ihren Data Lakes über eine Vielzahl von Data Warehouses und Betriebssystemen dupliziert, da die Tools zur Abfrage und Analyse von Daten für eine schnelle Abfrageausführung nicht gut geeignet sind. Die Bewältigung dieser Komplexität in der Architektur bringt jedoch Herausforderungen mit sich, wie beispielsweise fragmentierte und inkonsistente Datensilos und erheblich höhere Kosten.

Roman Pritzkow, Regional Vice President DACH bei Databricks; Quelle: Databricks

BIT: Wie lautet die Lösung für dieses Problem?
Pritzkow: Databricks hat auf dem Summit die neue Delta Engine für Delta Lake vorgestellt. Sie wurde in C++ programmiert und ermöglicht eine schnelle Abfrageausführung für Datenanalyse und Data Science, ohne die Daten aus dem Data Lake zu verschieben. Die Abfrage-Engine mit niedriger Latenz wurde von Grund auf neu entwickelt, um die Vorteile moderner Cloud-Hardware für eine beschleunigte Abfrageleistung zu nutzen. Mit dieser Leistung sind Databricks-Anwender in der Lage, auf eine einheitliche Datenanalyse-Plattform umzusteigen, die jeden Daten-Anwendungsfall unterstützt, die Betriebseffizienz steigert und Kosten spart.
BIT: Wie passt „Redash“ in diese Umgebung und warum wurde das Unternehmen akquiriert?
Pritzkow: Das Open-Source-Projekt Redash wurde 2015 ins Leben gerufen, um Data Teams dabei zu unterstützen, ihre Daten sinnvoll zu nutzen. Data Scientists und SQL-Analysten können problemlos eine Vielzahl von Datenquellen, einschließlich operativer Datenbanken, Data Lakes und Delta Lake, in thematischen Dashboards zusammenführen. Die Ergebnisse können in einer Vielzahl von Formaten wie Diagrammen visualisiert werden und sind leicht zugänglich, sowohl innerhalb einer Organisation als auch für externe Benutzer. Das Projekt wird nun als Open Source-Projekt als Teil von Databricks weiterentwickelt. Teilweise gibt es auch schon gemeinsame Projekte.

BIT: Welche Rolle spielt die Partnerschaft mit Avanade und welche Auswirkungen hat sie für Databricks?
Pritzkow: Die beiden Unternehmen kooperieren ab sofort miteinander. Diese Partnerschaft ermöglicht es Kunden, ihre Investitionen in Azure Data und künstliche Intelligenz zu skalieren und positive Geschäftsergebnisse zu erzielen. Zusätzlich zu den Hunderten von geschulten Microsoft Azure Databricks-Spezialisten verfügt Avanade über eine Reihe von Lösungsbeschleunigern, mit denen Data Engineering, Data Science und maschinelles Lernen auf Azure-Cloud-Lösungen operationalisiert werden können. Die Kombination der Fachkenntnisse beider Unternehmen, insbesondere in Bezug auf Azure, erleichtert es gemeinsamen Kunden Advanced Analytics mit Azure Databricks zu modernisieren und zu implementieren.

BIT: Für welche Anwendungsbereiche ist das gedacht?
Pritzkow: Es gibt dafür drei Anwendungsbereiche. Zum einen die Modernisierung und Cloud-Migration. Einschränkungen bei vor-Ort-Datensystemen wie Hadoop zwingen Data Teams, neue Cloud-Computing-Alternativen zu erforschen. Die Planung und Migration von Geschäftsanwendungen von einer Umgebung in eine andere ist jedoch keine leichte Aufgabe. Es erfordert viel Zeit und technisches Fachwissen, um einen geeigneten Migrationsplan zu entwickeln, die Datenarchitektur zu refaktorisieren und die Ergebnisse mit den gewünschten Ergebnissen zu validieren. Durch die Zusammenarbeit von Databricks und Avanade wird Unternehmen ein reibungsloser Migrationspfad von alten Datensystemen zu modernen Daten Architekturen ermöglicht.

BIT: Und der zweite?
Pritzkow: Produktionsreifes maschinelles Lernen – jedes Unternehmen hat die Möglichkeit, Innovationen zu beschleunigen, indem es Data Science und maschinelles Lernen in sein Unternehmen einbaut. Wenn es an der Zeit ist, die Vorbereitung großer Datensätze für die Analytik zu automatisieren und zu steuern und Prozesse und Automatisierung für die Überführung von Modellen von der Entwicklung in die Produktion zu etablieren, wird das Ausmaß dessen, was benötigt wird, deutlich. Der gesamte Lebenszyklus des maschinellen Lernens lässt sich mit einem Repository von branchenspezifischen ML-Modellen und Pipeline-Vorlagen rationalisieren, um die Datenvorbereitung zu automatisieren und die Wiederverwendung von Datentransformations-Skripten zu fördern.

BIT: Wie steht es um den Bereich Data Science?
Pritzkow: Das ist die dritte Option: Die Möglichkeit, Daten über Geschäftseinheiten und Systeme hinweg zusammenzuführen, verschafft Unternehmen einen Wettbewerbsvorteil, erfordert aber oft monatelange Infrastruktur- und DevOps-Arbeit. Außerdem erfordert es mehrere Übergaben zwischen Data Engineering und Data Science, was fehleranfällig ist und das Risiko erhöht. Entscheider sollten eine Unternehmensanalyse-Strategie entwickeln, die speziell auf die Branche und das Unternehmen zugeschnitten ist. Darüber hinaus sollten sie die Qualifikationslücke in der tiefgreifenden fortgeschrittenen Analytik überbrücken, und die Skalierbarkeit und Nachhaltigkeit durch integrierte Sicherheit und Wartung sicherstellen.

BIT: Was bedeuten die Produktneuerungen für die Kunden und Partner in der DACH-Region und wohin führt der Weg von Databricks?
Pritzkow: Das Potenzial von KI- und ML-Lösungen in DACH und insbesondere in Deutschland ist enorm, und die derzeit schwierige Marktsituation ist eine Chance für eine Veränderung innerhalb so vieler Organisationen in der Region. Transformationsprojekte und neue digitale Geschäftsmodelle werden während der Pandemie noch schneller entwickelt, und wir sehen einen wachsenden Bedarf an der Verbesserung der Intelligenz zur Analyse der enormen Datenmengen, die in unzähligen Data Lakes warten. Wir wollen den Schwung nutzen, um den Bedürfnissen gerecht zu werden, Geschäftsfälle rasch zu ändern und zu Marktstrategien überzugehen. (rhh)

Databricks