Delta Engine: Leistung und Benutzerfreundlichkeit für Cloud Data Lakes

0

Bei der Delta Engine handelt es sich um eine Abfrage-Engine für Cloud Data Lake. Ihre Funktionalitäten erleichtern den Data Teams die Nutzung der Unified Data Analytics-Plattform für Data Science, Machine Learning und eine breite Palette von Anwendungsfällen der Datenanalyse.

Delta Engine ist auf die Nutzung mit Delta Lake zugeschnitten, der strukturierten Transaktionsebene auf Open-Source-Basis, die Qualität und Zuverlässigkeit in Data Lakes bringt. Organisationen können nun kuratierte Data Lakes erstellen, die strukturierte und halbstrukturierte Daten enthalten, und alle ihre Analysen auf qualitativ hochwertigen, aktuellen Daten in der Cloud ausführen.

Anzeige

Zudem hat Databricks angekündigt, das Unternehmen Redash zu übernehmen. Es betreut federführend das Open-Source-Projekt Redash. Mit Redash können Data Scientists und SQL-Analysten die Komplexität des Transfers von Daten zur Analyse in andere Systeme reduzieren.

Zusammen ermöglichen diese Verbesserungen Unternehmen die Einführung einer einzigen, vereinfachten Cloud-Architektur für das Datenmanagement, wodurch sie Kosten und Komplexität erheblich reduzieren und die Produktivität ihrer Data Teams optimieren können. Sie sind auch eine Antwort auf das aufkommende „Lakehouse“-Designmuster, das viele Unternehmen übernommen haben, um strukturierte Transaktionen, Qualität und Leistung in ihre Cloud Data Lakes zu bringen. Die Ankündigungen wurden heute auf dem Spark + AI Summit bekannt gegeben, der diese Woche virtuell mit über 50.000 Teilnehmern der Daten-Community aus über 100 Ländern stattfindet.

Delta Engine ermöglicht schnelle Abfrage-Performance

Herkömmliche Datenanalysen bei strukturierten und halbstrukturierten Daten erfordern eine sehr schnelle Performance, um mit dem Betriebstempo Schritt zu halten. In der Vergangenheit haben Organisationen die Daten in ihren Data Lakes über eine Vielzahl von Data Warehouses und Betriebssystemen dupliziert, da die Tools zur Abfrage und Analyse von Daten für eine schnelle Abfrageausführung nicht gut geeignet sind. Die Bewältigung dieser Komplexität in der Architektur bringt jedoch Herausforderungen mit sich, wie beispielsweise fragmentierte und inkonsistente Datensilos und erheblich höhere Kosten.

Die neue Delta Engine für Delta Lake ermöglicht eine schnelle Abfrageausführung für Datenanalyse und Data Science, ohne die Daten aus dem Data Lake zu verschieben. Die Abfrage-Engine mit niedriger Latenz wurde von Grund auf neu entwickelt, um die Vorteile moderner Cloud-Hardware für eine beschleunigte Abfrageleistung zu nutzen. Damit sind Databricks-Anwender in der Lage, auf eine einheitliche Datenanalyse-Plattform umzusteigen, die jeden Daten-Anwendungsfall unterstützt, die Betriebseffizienz steigert und Kosten spart.

Delta Lake wurde 2017 von Databricks veröffentlicht und 2019 an die Linux Foundation übergeben. Seit seiner Einführung wurde Delta Lake von Comcast, Condé Nast, Nielsen, FINRA, Shell und Tausenden von anderen Organisationen eingesetzt. Die heutigen Ankündigungen bauen auf dem Erfolg des Delta Lake-Projekts auf und gehen über das Speichern und Verwalten von Daten hinaus, um die Nutzung und den Einsatz von Daten miteinzubeziehen. (rhh)

Databricks