Bereitstellung und Verwaltung von Cloud-skalierten Datenplattformen

0

Datenmengen wachsen exponentiell, gleichzeitig entwickeln Unternehmen Produkte, um diese Daten zu nutzen und ihren Kunden bessere Dienstleistungen anzubieten. Dieses exponentielle Wachstum kann jedoch nicht einfach durch ein ähnliches Wachstum von Ausgaben in Infrastruktur und Personal aufrechterhalten werden.

Heute stehen in jeder der großen Clouds (AWS, Azure) über hundert Dienste zur Verfügung, die zum Aufbau einer Datenplattform genutzt werden können. Weiterhin gibt es Hunderte von Unternehmensdiensten, die ebenfalls in eine Datenplattform integriert werden müssen. Datenverantwortliche und Plattform-Administratoren haben die Aufgabe, die richtigen Dienste und Produkte bereitzustellen, um die Datenanforderungen ihres Unternehmens zu erfüllen. Diese Dienste müssen skalierbar, zuverlässig, richtlinienkonform und innerhalb des Budgets verfügbar sein.

Anzeige

Unternehmen sind immer stärker datengesteuert, deshalb versuchen Teams in jedem Geschäftsbereich, die Kraft der Daten für die Innovation ihrer Produkte und Dienstleistungen zu nutzen. Doch wie erstellt man eine unternehmensweite Daten-, Analyse- und ML-Plattform, die für Benutzer einfach zu verwenden ist und gleichzeitig die richtige Transparenz und Kontrolle für Admins bietet?

Heterogene Teams haben heterogene Abläufe

Produkt- und Dienstleistungsteams wollen einsatzbereite Analysewerkzeuge, damit sie sich darauf konzentrieren können, die wesentlichen Probleme zu lösen. Data Scientists verwenden Datensätze zur Erstellung von analytischen Modellen, um schwierige Fragen zum Unternehmen zu beantworten. Sie verwenden Notebooks, verbinden sie mit Datenbanken oder Data Lakes, lesen Log-Dateien, die möglicherweise in einer Cloud oder in lokalen Datenspeichern und Event-Streams gespeichert sind. Sie verwenden häufig Tools, die auf ihren Laptops am einfachsten verfügbar sind, und arbeiten mit einem repräsentativen Datensatz, um ihre Modelle zu validieren.

Richtlinien für die Benutzerverwaltung festlegen; Quelle: Databricks

Data Engineers versuchen hingegen, diese Modelle in die Produktion zu übernehmen, damit die Erkenntnisse aus den Modellen und Anwendungen rund um die Uhr für das Unternehmen verfügbar sind. Sie brauchen eine Infrastruktur, die sich an ihre Bedürfnisse anpassen lässt. Sie brauchen die richtige Test- und Bereitstellung der Infrastruktur, um ihre Pipelines vor der Bereitstellung für die Produktion zu testen.

Unzusammenhängende Lösungen sind schwer zu handhaben

Verschiedene Teams erarbeiten schließlich maßgeschneiderte Lösungen, um ihre Probleme so schnell wie möglich zu lösen. Sie setzen eine Infrastruktur ein, die möglicherweise nicht für die Bedürfnisse ihrer Arbeitsbelastung geeignet ist und die entweder zu einer Einschränkung der Workloads (Unterversorgung) oder zu unkontrollierbaren Kosten (Überversorgung) führen kann.

Die Infrastruktur und die Tools sind möglicherweise nicht richtig konfiguriert, um die von der Organisation festgelegten Richtlinien für die Einhaltung, Sicherheit und Verwaltung zu erfüllen, und die Verwaltungsteams haben keinen Einblick in diese. Diese Teams verfügen zwar über das richtige Fachwissen, um dies für die traditionelle Anwendungsentwicklung zu tun, aber sie verfügen möglicherweise nicht über das richtige Fachwissen oder die richtigen Tools, um dies in dem sich schnell verändernden Daten-Ökosystem zu tun. Das Endergebnis ist ein Potpourri von Lösungen, das über die gesamte Organisation verstreut sind und denen es an Transparenz und Kontrolle fehlt, die für eine Skalierung in der gesamten Organisation erforderlich sind.

Was wäre also nötig, um eine Plattform für die Leiter von Datenplattformen aufzubauen, die es einem ermöglicht, Datenumgebungen für die analytischen Bedürfnisse von Produkt- und Dienstleistungsteams bereitzustellen und gleichzeitig die Sichtbarkeit, Kontrolle und Skalierbarkeit zu erhalten, die es ermöglicht, nachts gut zu schlafen? Der Ansatz von Databricks konzentriert sich auf Sichtbarkeit, Kontrolle und Skalierbarkeit als Hauptpfeiler der Plattform.

Sichtbarkeit – Prüfen und analysieren Sie alle Aktivitäten in Ihrem Konto für volle Transparenz

In der Regel beginnt das Datenplattform-Engineering-Team mit dem Onboarding seiner Workloads direkt auf der Datenplattform, die es verwaltet. Zunächst überschattet die Euphorie, mit diesen Workloads in einen funktionierenden Zustand zu gelangen, die anfallenden Kosten. Mit der Anzahl und dem Umfang dieser Workloads steigen jedoch auch die benötigten Ressourcen und die Kosten für die Verarbeitung der Daten. Gewissenhafte Administratoren der Datenplattform suchen nach Möglichkeiten, die Nutzung auf der Plattform zu visualisieren. Sie können die bisherige Nutzung visualisieren und ein empirisches Verständnis der Nutzungstrends auf der Plattform erhalten.

Arbeitsbereiche für Teams in der gesamten Organisation, Quelle: Databricks

Da immer mehr Produkt- und Dienstleistungsteams an Bord sind, übersteigt die daraus resultierende explosionsartige Nutzung schnell das zugewiesene Budget. Die einzige praktikable Möglichkeit für die Admins der Datenplattform, das Geschäft zu betreiben, sind die Nutzungsdaten für Produktionsteams. Dazu benötigt der Administrator Zugang zu den Nutzungsprotokollen, die mit den richtigen Nutzungskennzeichen versehen sind.

Im Laufe der Nutzung der Ressourcen kann es temporär zu Spitzenwerten kommen. Es ist schwer zu bestimmen, ob diese Spitzen auf erwartete Änderungen der Arbeitsbelastung oder auf ein unbeabsichtigtes Verhalten zurückzuführen sind – beispielsweise bei einem Fehler, der eine unerwartete Nutzung der Ressourcen verursacht. Detaillierte Nutzungsprotokolle helfen, die Workloads und Teams zu identifizieren, die die anormale Nutzung verursacht haben. Verwaltungsteams können dann detaillierte Audit-Protokolle verwenden, um die Ereignisse zu analysieren, die zu dieser Nutzung geführt haben.

Sie können mit dem jeweiligen Team zusammenarbeiten, um qualitative Informationen über diese Nutzung zu erhalten und eine Bestimmung der Anomalie vorzunehmen. Falls es sich um eine Änderung der Nutzungsmuster der Workloads handelt, können sie automatisierte Mittel einrichten, um diese Nutzung in Zukunft als „normal“ zu klassifizieren. Wenn es sich bei dieser Nutzung tatsächlich um eine Anomalie handelt, können sie auch eine Überwachung und Warnungen einrichten, um solche Anomalien in Zukunft in Echtzeit zu erfassen. Wenn die Leiter der Datenplattformen Budgets planen, können detaillierte Nutzungsdaten aus der Vergangenheit verwendet werden, um genauere Prognosen zu Kosten, Nutzung und Rentabilität zu erstellen.

Kontrolle – Festlegung von Richtlinien

Bei der Verwaltung einer Vielzahl von Teams ist Transparenz gut, doch Kontrolle ist besser – besonders wenn es darum geht die richtlinienkonforme Nutzung der Plattform sicherzustellen. Wenn neue Data Scientists an Bord geholt werden, haben sie möglicherweise kein gutes Verständnis für die zugrunde liegende Infrastruktur, auf der ihre Modelle laufen. Ihnen können Umgebungen zur Verfügung gestellt werden, die mit den richtigen richtliniengesteuerten Clustern, den richtigen Zugangskontrollen und der Möglichkeit, die Ergebnisse ihrer Experimente anzuzeigen und zu analysieren, ausgestattet sind.

In ähnlicher Weise erstellen Data Engineers im Rahmen der Automatisierung von Datenpipelines bei Bedarf Cluster und schalten sie ab, wenn sie nicht benötigt werden, so dass die Infrastruktur optimal genutzt wird. Es kann jedoch sein, dass sie recht große Cluster erstellen, die nicht mit den IT-Richtlinien der Organisation übereinstimmen. Der Administrator kann Cluster-Richtlinien für dieses Team so anwenden, dass die von den Benutzern erstellten Cluster den vorgeschriebenen IT-Richtlinien automatisch entsprechen. Dadurch kann das Team die Ressourcen selbstständig und richtlinienkonform aufstocken, ohne sich dabei jedes Mal mit den Admins absprechen zu müssen.

Darüber hinaus können Admins Grenzen für die genutzte Infrastruktur festlegen, indem sie Infrastrukturpools zuweisen, die sich für das Team dynamisch und automatisch skalieren lassen. Dadurch wird sichergestellt, dass das Team nur innerhalb der Grenzen des Pools Ressourcen aufstocken kann. Außerdem können die Ressourcen im Pool bei Nichtbenutzung ausgegliedert werden, wodurch die Gesamtnutzung der Infrastruktur optimiert wird.

Skalieren – Erweiterung und Skalierung der Plattform

Da Hunderte von Teams an die Datenplattform angeschlossen sind, werden Arbeitsbereiche benötigt, um die Teams zu isolieren. Dadurch können sie innerhalb ihrer Gruppe zusammenarbeiten, ohne von anderen Teams, die auf der Plattform arbeiten, abgelenkt oder beeinträchtigt zu werden. Der Arbeitsbereich kann vollständig für die Nutzung durch das Team konfiguriert werden, beispielsweise mit Notebooks, Datenquellen, Infrastruktur, Laufzeiten und Integration mit DevOps-Tools.

Mit der Benutzerbereitstellung und den Berechtigungen für Nutzer, die von vertrauenswürdigen Identitätsanbietern (IdPs) verwaltet werden, kann der Administrator sicherstellen, dass die richtige Gruppe von Benutzern auf die richtigen Arbeitsbereiche zugreifen kann, indem er unternehmensweite Single-Sign-On-Funktionen verwendet. Dieser Isolations- und Zugriffsmechanismus stellt sicher, dass Hunderte von Teams systematisch auf derselben Datenplattform koexistieren können, so dass der Administrator sie einfach verwalten und die Plattform weltweit skalieren kann.

Alle oben genannten Funktionen der Plattform sollten den Admins sowohl in einer einfach zu bedienenden Benutzeroberfläche als auch über eine reichhaltige Reihe von REST-APIs zur Verfügung stehen. Die APIs ermöglichen es dem Admin, die Onboarding-Teams effizient und schnell zu automatisieren und zu gestalten.

David Meyer ist Senior Vice President Produktmarketing bei Databricks.

Databricks