„Daten-Unternehmen“ gelten als die künftig marktführenden Unternehmen – und zwar in jedem Segment. Dies erfordert eine Datenplattform, die die Entscheidungen jedes Mitarbeiters steuert und, was ebenso wichtig ist, Datenprodukte antreibt. Dazu ist eine Unified Analytics Plattform nötig, die in jeder Abteilung und jedem Team skalierbar ist.
Wie sehen die Datenprodukte aus? Eine Kreditkarte mit einem Kreditlimit, kann zu einem Datenprodukt werden. Einen Wettbewerbsvorteil erhält es dann, wenn das Kreditkartenunternehmen durch die Analyse enormer Datenmengen die Transaktionen schneller und sicherer durchführen kann als andere Anbieter. Die genomische Sequenzierung ist ein Datenprodukt.
Um die massive Datentransformation zu ermöglichen, müssen Unternehmen alle ihre Benutzer und alle ihre Daten zusammenfügen. Außerdem müssen sie dann die Werkzeuge und die Infrastruktur zur Verfügung stellen, um die wichtigen Erkenntnisse aus den Daten zu gewinnen. Die Mitarbeiter sollten jedoch bei der Datenauswertung den Sicherheitsvorschriften des Unternehmens folgen. Sie benötigen eine Unified Analytics Plattform, die in jeder Abteilung und jedem Team skalierbar ist.
Folgende Trends prägen den alltäglichen Umgang mit den Daten:
- Die Daten sind sensibler geworden: Der Umfang der Daten nimmt exponentiell zu, aber sie sind in verschiedenen Systemen in verschiedenen Abteilungen gespeichert. Wie stellen Unternehmen nun sicher, dass die richtigen Benutzer Zugriff auf die richtigen Daten haben und dass alles zentral überwacht und geprüft wird? Und gleichzeitig, wie halten sie die internationalen Vorschriften ein?
- Die Kosten dafür sind schwer zu kontrollieren: Jede Organisation steht unter dem Druck, mit weniger Geld mehr zu erreichen. Ein exponentielles Wachstum der Daten rechtfertigt nicht das exponentielle Wachstum der Daten-Infrastrukturkosten. Wenn Firmen keinen Überblick darüber haben, wer was mit welchen Daten macht, führt dies zu unkontrollierten Kosten – Infrastrukturkosten, Datenkosten und Arbeitskosten.
- Datenprojekte sind schwierig zu verwalten: Wie verfolgen Unternehmen eine Initiative von Anfang bis Ende, wenn unterschiedliche Teams – Business Intelligence, Data Scientists und Data Engineers – unterschiedliche Technologien einsetzen, die von der IT, der Sicherheit und den DevOps verwaltet werden? Welche Projekte sind in Produktion? Wie monetarisieren wir sie? Was passiert, wenn eine Anwendung ausfällt?
- Die Komplexität beim Übergang vom kleinen Erfolg zur unternehmensweiten Datentransformation ist enorm. Eine Umfrage von McKinsey zeigt, dass nur acht Prozent der Unternehmen erfolgreich ihre Daten- und Analyse-Praktiken im gesamten Unternehmen skalieren konnten.
Daher benötigen Führungskräfte eine ganzheitliche Strategie zur Skalierung von Daten im gesamten Unternehmen. Wer sich diesen Herausforderungen nicht stellt, kann einen inkrementellen Ansatz wählen oder lokale Lösungen übernehmen und in die Cloud verlagern. Aber ohne einen ganzheitlichen Ansatz wird damit eine veraltete Architektur durch eine andere ersetzt werden, die der Herausforderung auf lange Sicht nicht gewachsen ist.
Die folgenden fünf Schritte können sicherstellen, dass Entscheider auf dem Weg zu einem System vorankommen, das den aktuellen und künftigen Anforderungen gewachsen ist.
Schritt 1: Alle Daten zusammenbringen
Data Warehouses werden seit Jahrzehnten zur Aggregation strukturierter Geschäftsdaten und zur Entscheidungsfindung durch die Erstellung von BI-Dashboards auf Visualisierungs-Tools verwendet. Die Einführung von Data Lakes – mit ihren attraktiven Skalierungs-Eigenschaften und ihrer Eignung für unstrukturierte Daten – war für die Ermöglichung der Data Science und des Machine Learnings von entscheidender Bedeutung.
Heute kombiniert das Data Lakehouse-Modell die Zuverlässigkeit von Data Warehouses mit der Skalierbarkeit von Data Lakes unter Verwendung eines offenen Formats wie Delta Lake. Unabhängig von der Wahl ihrer spezifischen Architektur wählen Unternehmen eine Struktur, die alle ihre Daten – strukturierte und unstrukturierte – in offenen Formaten zur langfristigen Kontrolle speichern kann, die für die Verarbeitung durch eine sich schnell entwickelnde Reihe von Technologien geeignet sind.
Schritt 2: Sicherer Zugriff für alle Benutzer
Unternehmen sollten sicherstellen, dass jedes Mitglied ihres Data Teams (Data Engineers, Data Scientists, ML-Ingenieure, BI-Analysten und Entscheider) über verschiedene Rollen und Geschäftsbereiche hinweg Zugriff auf die Daten hat, die sie benötigen. Auf der anderen Seite sollten sie jedoch nicht auf Daten zugreifen können, auf die sie nicht zugreifen dürfen. Dies ist gleichbedeutend mit der Einhaltung verschiedener Vorschriften, einschließlich DSGVO und PCI.
Es ist wichtig, dass alle Daten – und alle Menschen, die mit ihnen interagieren – an einem Ort zusammenbleiben. Wenn die Daten fragmentiert werden, indem sie für eine Untergruppe von Benutzern in ein neues System kopiert werden (z.B. ein Data Warehouse für Ihre BI-Benutzer), kommt es zu einem Data Drift (eine Anzahl von Datenveränderungen durch verschiedenste Prozesse etc.), der zu Problemen in Schritt 3 führt.
Es bedeutet auch einen Drift der „Wahrheit“, bei der einige Informationen in der Organisation veraltet oder von anderer Qualität sind, was (bestenfalls) zu organisatorischem Misstrauen und (noch wahrscheinlicher) schlechten Umsatzentwicklungen führt.
Schritt 3: Datenplattform gleichermaßen verwalten, wie das Unternehmen selbst
Wenn ein neuer Mitarbeiter an Bord kommt, gibt es genaue Onboarding-Prozesse. Er erhält einen Computer, Zugang zu den richtigen Systemen usw. bei der Einführung einer Datenplattform sollte dieser Prozess genauso sein.
Da sich alle Daten an einem Ort befinden, kann jeder Mitarbeiter je nach seiner Rolle und Verantwortung eine andere Facette der Daten sehen. Dieser Datenzugriff muss genauso abgestimmt werden, wie das Onboarding neuer Mitarbeiter verwaltet wird, er muss über die angebundenen Systeme automatisiert und überprüft werden.
Schritt 4: Hebelwirkung auf die native Sicherheit
Cloud Computing ist de facto zum Ziel massiver Datenverarbeitung und ML geworden, deshalb wurden die wichtigsten Sicherheitsprinzipien für die Cloud-Native Sicherheit umformuliert. Die DMZ- und Perimeter-Sicherheit der „Vor-Ort“-Sicherheit wird durch „Zero-Trust“ und „Software-definierte Vernetzung“ ersetzt. Schlösser an physischen Türen haben sich in moderne Kryptographie verwandelt. Unternehmen müssen also sicherstellen, dass ihre Datenverarbeitungs-Plattform für die Cloud konzipiert ist und die besten Cloud-Nativen Kontrollen nutzt.
Darüber hinaus bieten die Cloud-Audits und die Telemetrie eine Aufzeichnung des Datenzugriffs und der Datenänderung durch die cloud-nativen Tools, da jeder Benutzer mit seiner eigenen Identität auf die Daten zugreift. Dies macht Schritt 3 möglich – die Gruppen, mit denen das Unternehmen verwaltet werden, werden bis hinunter zu den nativen Sicherheits-Primitives und -werkzeugen der Cloud durchgesetzt und überprüfbar.
Schritt 5: Skalieren durch Automatisieren
Egal, ob Unternehmen ihre Plattform für Hunderte von Geschäftsbereichen oder viele tausend Kunden ausrollen, sie muss von Grund auf automatisiert werden. Dies setzt voraus, dass die Datenplattform ohne manuelle Interaktion eingesetzt werden kann.
Außerdem müssen für jeden Arbeitsbereich (Umgebung für eine Geschäftseinheit) Datenzugriff, maschinelle Lernmodelle und andere Vorlagen automatisch konfiguriert werden, um für ihr Unternehmen bereit zu sein.
Aber die Leistung dieser Skala erfordert auch leistungsstarke Steuerungen. Mit der Berechnung von Millionen von Maschinen, die zur Verfügung stehen, ist es leicht, eine entsprechend umfangreiche Rechnung durchzuführen. Um die Abteilungen im gesamten Unternehmen mit den richtigen Ausgabe-Richtlinien und Rückbuchungen zu versorgen, müssen die richtigen Richtlinien und Rückvergütungen entwickelt werden, um sicherzustellen, dass die Leistung so eingesetzt wird, wie das Unternehmen es erwartet.
APIs können alles automatisieren, von der Bereitstellung von Benutzern und Teamarbeits-Bereichen bis hin zur Automatisierung von Produktions-Pipelines, Kostenkontrolle und Messung von Geschäftsergebnissen. Eine vollständig automatisierbare Plattform ist notwendig, um das Unternehmen zu versorgen.
Jetzt zum Daten-Unternehmen werden
Wer in Zukunft als Daten-Unternehmen konkurrieren möchte, muss nun die Weichen stellen. Hier hilft Databricks: Als Beispiel wird bei einer großen und modernen Bank die Unified Analytics Plattform zur Verarbeitung von 20 Millionen Transaktionen bei 13 Millionen Endbenutzern täglich verwendet, um Kreditkartenbetrug und viele andere Anwendungsfälle aufzudecken.
Sie konnten den Datenzugriff „demokratisieren“, so dass 5.000 Mitarbeiter datenbasierte Entscheidungen treffen können. Einer der größten Lebensmittel- und Getränkehändler der Welt betreibt mehr als 220 Produktions-Pipelines mit 667 Terabyte an Daten und mehr als 70 veröffentlichten Daten-Produkten auf der Databricks-Plattform. Unabhängig von der Wahl der Plattform, sollten Unternehmen die oben aufgeführten fünf Schritte befolgen, um sicherzustellen, dass sie eine Plattform entwerfen, die auch in den kommenden Jahren noch funktioniert.
David Meyer ist Senior Vice President of Product Management bei Databricks.