Mit Hilfe von Databricks Ingest und Partner-Integrationen können Data Teams Data Lakehouses für BI-Anwendungen und Machine Learning einfacher aufbauen.
Datenmanagement, Business Intelligence (BI) und maschinelles Lernen (ML) auf einer Plattform zu vereinen – mit diesem Versprechen tritt das Data Ingestion Network für Partner an. Diese Plattform kombiniert die besten Elemente von Data Lakes sowie Data Warehouses und soll somit das Beste aus BI und ML auf allen Daten eines Unternehmens herausholen.
In der Vergangenheit waren Unternehmen gezwungen, ihre Daten in herkömmliche strukturierte Daten und Big Data aufzuspalten und diese getrennt für BI- und ML-Anwendungsfälle zu verwenden. Dies führt zu Datensilos in Data Lakes und Data Warehouses, zu langsamer Verarbeitung und zu Teilergebnissen, die zu spät oder zu unvollständig sind, um effektiv genutzt zu werden.
Durch Datenintegrationen strategischer Partner mit Fivetran, Qlik, Streamsets, Infoworks und Syncsort können Anwender jetzt Daten aus Hunderten von Quellen über eine benutzerfreundliche grafische Oberfläche in ein Data Lakehouse übertragen, ohne dass sie zu jeder dieser Datenquellen Verbindungen aufbauen und diese pflegen und sichern müssen. Kunden von Azure Databricks profitieren bereits von der nativen Integration mit Azure Data Factory, um Daten aus vielen Quellen aufzunehmen.
Integration aus vielfältigen Quellen
Data Teams können nun alle ihre Anwendungsdaten – liegen sie in Salesforce, Marketo, Zendesk, SAP und Google Analytics—aber auch Datenspeicherdaten (in Strukturen wie Kafka, Cassandra, Oracle, MySQL und Mongo, Mainframe-Daten, Dateidaten) und Dateispeicher wie Amazon S3, Azure Data Lake Storage, Google Cloud Storage in Data Lakehouse für alle ihre BI- und ML-Anwendungsfälle zusammenführen. Dieses Partner-Ökosystem wird weiter ausgebaut, wobei Partner wie Informatica, Segment und Talend in einer kommenden Version verfügbar sein werden.
„Das Lakehouse-Paradigma strebt danach, die Zuverlässigkeit von Data Warehouses mit der Größe von Data Lakes zu kombinieren, um jede Art von Anwendungsfall zu unterstützen. Damit diese Architektur gut funktionieren kann, muss es einfach zu bedienen sein jede Art von Daten einzubeziehen. Databricks Ingest ist ein wichtiger Schritt, um dies zu ermöglichen,“ sagt Ali Ghodsi, Mitbegründer und CEO von Databricks.
Darüber hinaus ermöglichen die automatischen Ladefunktionen einen kontinuierlichen Datenfluss in ein Data Lakehouse, ohne dass Job-Trigger oder Zeitpläne eingerichtet und gepflegt werden müssen. Wenn Unternehmensdaten aus verschiedenen Quellen in der Cloud gespeichert werden, zieht Databricks Ingest diese neuen Daten automatisch und effizient in ein Data Lakehouse.
Dadurch werden die Silos aufgelöst, so dass die Daten von Teams im gesamten Unternehmen verwendet werden können, um datengesteuerte Innovationen und Geschäftswert mit Hilfe von Data Science, Machine Learning und Business Analytics zu liefern. (rhh)