Partner-Ökosystem für Anwendungen, Datenbanken und große Datenintegrationen in Delta Lake

0

Unternehmen verfügen über eine Fülle von Informationen, die in verschiedenen Quellen gespeichert sind. Diese Daten für Reportings, Business Intelligence und Machine Learning zusammenzuführen, ist eine der größten Herausforderungen, wenn es darum geht, Geschäftsnutzen aus Daten zu ziehen. Das Data Ingestion Network führt alles zusammen.

Die Datenquellen variieren von operativen Datenbanken wie Oracle, MySQL usw. bis hin zu SaaS-Anwendungen wie beispielsweise Salesforce und Marketo. Das Einfügen all dieser Daten in ein zentrales Lake House ist oft schwierig und erfordert in vielen Fällen eine benutzerdefinierte Entwicklung und Dutzende von Konnektoren oder APIs, die sich im Laufe der Zeit ändern und dann den Datenladeprozess unterbrechen. Viele Unternehmen verwenden unterschiedliche Datenintegrations-Tools, die von den Data Engineers das Schreiben von Skripten und die Planung von Aufträgen, die Planung von Triggern und die Behandlung von Auftragsausfällen erfordern, was nicht skaliert und einen massiven betrieblichen Aufwand verursacht.

Anzeige

Data Ingestion Network

Um dieses Problem zu lösen, wurde das Data Ingestion Network gestartet, das eine einfache und automatisierte Möglichkeit bietet, ein Lake House aus Hunderten von Datenquellen in Delta Lake zu füllen. Integrationen in Data Ingest wie von Fivetran, Qlik, Infoworks, StreamSets und Syncsort bieten Hunderte von Anwendungs-, Datenbank-, Mainframe-, Dateisystem- und Großdatensystem-Konnektoren und ermöglichen eine Automatisierung, um diese uneinheitlichen Daten schnell und zuverlässig in ein offenes, skalierbares Lake House zu übertragen. Kunden, die Azure verwenden, profitieren bereits von der nativen Integration mit Azure Data Factory, um Daten aus vielen Quellen aufzunehmen.

Als Vorteile des Data Ingestion Network gelten:

  • Automatisierte Datenübertragung in Echtzeit: Der Ingest-Prozess ist für die Erfassung von Änderungsdaten (Change Data Capture – CDC) optimiert und ermöglicht eine einfache Automatisierung zum Laden neuer oder aktualisierter Datensätze in Delta Lake. Dateningenieure müssen nicht länger Zeit für die Entwicklung dieser komplexen Logik aufwenden oder die Datensätze jedes Mal manuell verarbeiten. Die Daten in Delta Lake können automatisch mit Änderungen synchronisiert und auf dem neuesten Stand gehalten werden.
  • Sofort einsatzbereite Konnektoren: Data Engineers, Data Scientists und Data Analytics haben über das Data Ingest Network von Partnern Zugang zu sofort einsatzbereiten Konnektoren für SaaS-Anwendungen wie Salesforce, Marketo, Google Analytics und Datenbanken wie Oracle, MySQL und Teradata sowie für Dateisysteme und Mainframes. Dies erleichtert die Einrichtung, Konfiguration und Wartung der Datenverbindungen zu Hunderten von verschiedenen Quellen erheblich.
  • Zuverlässigkeit der Daten: Die Datenaufnahme in Delta Lake unterstützt ACID-Transaktionen, die die Daten zur Abfrage und Analyse bereit machen. Dadurch werden mehr Unternehmensdaten für Reportings, Business Intelligence, Data Science und Machine Learning verfügbar, um bessere Entscheidungen und Geschäftsergebnisse zu erzielen.

Einrichtung von Data Ingestion in drei Schritten

Endnutzer können die Integrationseinrichtung des Data Ingestion Network von Partnern über die Partner Gallery entdecken und darauf zugreifen. Mit drei Schritten lässt sich die nötige Umgebung einrichten.

  • Partner: Navigieren Sie zum Menü Partner-Integrationen, um das Data Ingestion Network der Partner zu sehen. Wir nennen dies die Partner-Galerie. Folgen Sie den Anweisungen des Leitfadens für die Einrichtung des gewählten Partners.
  • Einrichten von Databricks: Als nächstes folgt die Einrichtung des Workspaces, um Partnerintegrationen zu ermöglichen und Daten in Delta Lake zu integrieren. Dazu ist zunächst ein Token zu erstellen, der für die Authentifizierung durch das Partnerprodukt verwendet wird. Danach muss man von der Cluster-Seite in die JDBC/ODBC-URL kopieren.
  • Nach dem Wählen der Datenquellen ist Databricks als Ziel anzugeben: Selektieren Sie mit dem Partnerprodukt die Datenquellen aus, aus denen Sie Daten beziehen möchten, und wählen Sie Databricks als Ziel. Geben Sie das Token und die JDBC-Informationen aus Schritt 2 ein und richten Sie den Job ein, der dann Daten aus Ihrer Datenquelle abruft und sie im Delta-Lake-Format einfügt.

Ein leistungsfähiges Datenquellen-Ökosystem zur Datenaufnahme

Das Data Ingestion Network ist ein verwaltetes Angebot, das es Datenteams ermöglicht, Daten aus Hunderten von Datenquellen zu kopieren und zu synchronisieren, wobei automatische Lade- und Aktualisierungsfunktionen zum Einsatz kommen.

Fivetran, Qlik, Infoworks, StreamSets und Syncsort sind ab sofort verfügbar, zusammen mit Azure Data Factory, die bereits eine native Integration für Azure Databricks-Kunden zur Aufnahme von Daten aus vielen Quellen bietet. Zusammen ermöglichen diese Partner den Zugang zu einer umfangreichen Sammlung von Datenquellen, die sowohl Cloud-basiert als auch vor Ort verfügbar sind.

Bharath Gowda ist Vice President of Product Marketing bei Databricks.

Databricks