Best Practices zur Absicherung einer Datenplattform

0

Beim Auflösen von Datensilos schieben viele Unternehmen alle ihre Daten aus verschiedenen Quellen in einen Data Lake, in dem Data Engineers, Data Scientists und Business Analysten die Daten verarbeiten und abfragen können. Es geht darum, Daten für die Benutzer verfügbar zu machen, aber es entsteht eine neue Herausforderung. Denn diese verschiedene Datenklassen sind vor den Benutzern zu schützen und zu isolieren, die keinen Zugriff auf diese Daten haben.

Die Skalierung von der Operationalisierung eines einzelnen Anwendungsfalles in der Produktion bis hin zur Operationalisierung einer Plattform, die jedes Team im Unternehmen nutzen könnte, wirft eine Menge Sicherheitsfragen auf:

Anzeige
  • Wie können Unternehmen sicherstellen, dass jede Computing Umgebung, die auf den Data Lake zugreift, sicher ist und den Richtlinien der Unternehmensleitung entspricht?
  • Wie stellen wir sicher, dass jeder Benutzer nur auf die Daten zugreifen kann, zu denen er berechtigt ist?
  • Wie prüfen wir, wer auf den Data Lake zugreift und welche Daten gelesen und bearbeitet werden?
  • Wie können wir eine richtliniengesteuerte Umgebung schaffen, ohne uns darauf zu verlassen, dass die Benutzer Best Practice zum Schutz der sensibelsten Daten unseres Unternehmens befolgen?

Diese Fragen sind für ein kleines Team oder kleine Datensätze für einen bestimmten Anwendungsfall einfach zu beantworten und zu implementieren. Es ist jedoch wirklich schwierig, Daten in einem solchen Umfang zu operationalisieren, dass jeder Data Scientist, Engineer und Analytiker die Daten optimal nutzen kann. Dabei muss eine Reihe von Anforderungen erfüllt werden:

Cloud-native Kontrollen für die Sicherheit

Unternehmen geben viel Geld und Ressourcen für die Einrichtung und Pflege eines Data Lake aus, in der Hoffnung, dass die Daten für eine Vielzahl von Produkten und Dienstleistungen im gesamten Unternehmen genutzt werden können. Keine einzige Plattform kann alle Bedürfnisse des Unternehmens erfüllen, was bedeutet, dass diese Daten von verschiedenen Produkten verwendet werden, sei es von eigenen Produkten, von erworbenen oder von Cloud-nativen.

Aus diesem Grund müssen die Daten in einem offenen Format vereinheitlicht und, wo möglich, mit Cloud-nativen Kontrollen gesichert werden. Das gebietet sich wegen zwei Gründen:

  • Weil Cloud-Anbieter herausgefunden haben, wie sie ihre wichtigsten Sicherheitskontrollen skalieren können.
  • Wenn der Schutz von und der Zugriff auf Daten proprietäre Tools erfordert, dann müssen Unternehmen diese Tools mit allem, was auf die Daten zugreift, integrieren. Was die Skalierung betrifft, kann das ein Albtraum sein. Im Zweifel gilt es also, auf Cloud-native Ansätze zu vertrauen.

Eine Möglichkeit dies zu tun, ist die Databricks Unfied Analytics Plattform zu nutzen. Sie lässt sich mit IAM und AAD für die Identität und KMS/Key Vault für die Verschlüsselung von Daten sowie mit STS für Zugriffstoken und Sicherheitsgruppen/NSGs für Firewalls integrieren. Dadurch erhalten Unternehmen die Kontrolle über das, was vertrauensrelevant ist und können ihre Zugriffskontrollrichtlinien an einer Stelle zentralisieren und nahtlos erweitern.

Die Trennung von Berechnung und Speicherung ist ein übliches Architekturmuster zur Speicherung und Verarbeitung großer Datenmengen. Die Absicherung und der Schutz der Computerumgebung, die auf die Daten zugreifen kann, ist der wichtigste Schritt, wenn es darum geht, die Gesamtangriffsfläche zu reduzieren. Doch wie sichert man die Computerumgebung? Das Ziel ist es, Data Scientists und Engineers in die Lage zu versetzen, neue Datenprojekte in Minutenschnelle weltweit und in großem Maßstab implementieren zu können. Der Schlüssel hierfür: Isolierung. Dazu sind drei Schritte nötig.

  • Schritt 1: Unternehmen müssen sicherstellen, dass die Cloud-Workspaces für ihre Analysen nur von ihrem gesicherten Unternehmensumfeld aus zugänglich sind. Wenn Mitarbeiter von externen Standorten aus arbeiten, ist es wichtig mittels VPN auf das Unternehmensnetzwerk zuzugreifen. Dadurch kann die Unternehmens-IT die Richtlinien für jeden Zugriff auf Arbeitsbereiche in der Cloud überwachen, prüfen und durchsetzen.
  • Schritt 2: Sie müssen sich unsichtbar machen – genauer gesagt, sollten Unternehmen Azure Private Link oder AWS privateLink implementieren. Sie sollten sicherstellen, dass der gesamte Datenverkehr zwischen den Benutzern ihrer Plattform, den Notebooks und den Rechen-Clustern, die Anfragen verarbeiten, verschlüsselt und über das Netzwerk des Cloud-Providers übertragen wird, so dass er für die Außenwelt unzugänglich ist. Dies wirkt auch dem Datendiebstahl entgegen, da böswillige Benutzer keine Daten nach außen senden können. VPC/VNET-Peering erfüllt eine ähnliche Anforderung, ist aber operativ intensiver und kann weniger gut skaliert werden.
  • Schritt 3: Unternehmen sollten ihre Rechenprozesse beschränken und überwachen. Die Rechen-Cluster, die die Abfragen ausführen, sollten durch Einschränkung des ssh- und Netzwerkzugriffs geschützt werden. Dies verhindert die Installation willkürlicher Pakete und stellt sicher, dass sie nur Images verwenden, die regelmäßig auf Schwachstellen gescannt und kontinuierlich überwacht werden. Dies kann mit Databricks durch einen einfachen Klick erreicht werden: „Cluster starten“.

Dynamische IP-Zugriffslisten ermöglichen es Admins, ausschließlich von ihren Unternehmensnetzwerken aus auf Arbeitsbereiche zuzugreifen. Darüber hinaus stellt Private Link sicher, dass der gesamte Netzwerkverkehr zwischen „Benutzer-Datenbanken-Cluster-Daten“ innerhalb der Netzwerke von Cloud-Providern bleibt. Jedes gestartete Cluster läuft über Images, die auf Schwachstellen gescannt und abgesichert werden, so dass Änderungen, die gegen die Compliance verstoßen, eingeschränkt werden können. All dies ist in die Erstellung des Workspace und den Start des Clusters integriert.

Bild 2. Daten absichern und das Netzwerk isolieren; Quelle: Databricks

Die Herausforderung bei der Datensicherheit und dem Schutz eines Data Lake besteht darin, dass er große Datenmengen enthält, die unterschiedliche Klassifizierungs- und Empfindlichkeitsstufen haben können. Häufig werden diese Daten von den Benutzern über verschiedene Produkte und Dienstleistungen abgerufen und können PII-Daten enthalten. Wie kann man hunderten oder gar tausenden Engineers Datenzugriff gewähren und gleichzeitig sicherstellen, dass sie nur auf die Daten zugreifen können, die ihnen erlaubt sind?

PII-Daten entfernen

Bevor die Daten in den Data Lake gelangen, sollten die PII-Daten entfernt werden. Dies müsste in vielen Fällen möglich sein, und hat sich als der erfolgreichste Weg erwiesen, um den Umfang der Konformität zu minimieren und sicherzustellen, dass Benutzer nicht versehentlich PII-Daten verwenden oder verlieren.

Es gibt verschiedene Möglichkeiten, dies zu erreichen, aber die beste Methode ist eine Entfernung im Rahmen der Datenaufnahme. Dennoch müssen sie mit Daten arbeiten, die als PII im Datenspeicher klassifiziert werden können. Dann müssen sie die Möglichkeit der Abfrage und gegebenenfalls der Löschung dieser Daten einbauen.

Starke Zugriffskontrolle

Unternehmen verfügen meistens über irgendeine Form der Datenklassifizierung. Die Zugriffskontrollstrategie hängt davon ab, wie die Daten im Data Lake gespeichert werden. Wenn Daten, die unter verschiedenen Klassifikationen kategorisiert wurden, in verschiedene Ordner aufgeteilt werden, ermöglicht die Zuordnung von IAM-Rollen zu dem getrennten Speicher eine saubere Trennung. Benutzer bzw. Gruppen können mit einer oder mehrerer dieser Rollen verbunden werden. Wenn dieser Ansatz ausreicht, ist er einfacher zu skalieren als die Implementierung einer granularen Zugriffskontrolle.

Wenn die Klassifizierung auf Datenobjektebene definiert wird oder die Zugriffskontrolle auf Zeilen-, Spalten- und Datensatzebene implementiert werden muss, erfordert die Architektur eine zentralisierte Zugriffskontrollschicht, die bei jeder Abfrage granulare Zugriffskontrollrichtlinien durchsetzen kann.

Der Grund dafür, dass dies zentralisiert werden sollte, liegt darin, dass es verschiedene Tools und Produkte geben kann, die auf den Data Lake zugreifen, und dass für jede unterschiedliche Lösungen vorhanden sein können, was die Einhaltung von Richtlinien an mehreren Stellen erfordert. Es gibt Produkte, die reichhaltige Funktionen in diesem Bereich der attributbasierten Zugriffskontrolle bieten, und auch die Cloud-Anbieter implementieren diese Funktionalität. Gewinner ist, wer die richtige Kombination aus Benutzerfreundlichkeit und Skalierbarkeit bieten kann.

In jedem Fall ist es wichtig, dass Unternehmen den Zugriff auf einen einzelnen Benutzer zurückverfolgen können. Eine von einem Benutzer ausgeführte Abfrage sollte vor dem Zugriff auf die Daten die Identität und die Rolle dieses Benutzers annehmen, wodurch sie nicht nur eine granulare Zugriffskontrolle erhalten, sondern auch einen erforderlichen Prüf-Pfad für die Einhaltung der Compliance-Vorschriften erhalten.

Verschlüsselung

Die Verschlüsselung dient nicht nur als Möglichkeit, auch auf der Infrastruktur Dritter weiterhin als „Eigentümer“ von Daten zu verbleiben, sondern kann auch als zusätzliche Ebene der Zugriffskontrolle verwendet werden. Unternehmen sollten dabei Cloud-Provider-Schlüsselverwaltungssysteme über Dritte verwalten, da diese eng in alle Dienste integriert sind. Es ist nahezu unmöglich, für alle Cloud-Dienste, die sie mit Verschlüsselungen von Drittanbietern nutzen möchten, das gleiche Maß an Integration zu erreichen.

Unternehmen, die in Sachen Sicherheit noch einen Schritt weiter gehen wollen, sollten Richtlinien für vom Kunden verwaltete Schlüssel konfigurieren, die zur Ver- und Entschlüsselung von Daten verwendet werden, und dies mit der Zugriffskontrolle für den Speicherordner selbst kombinieren.

Dieser Ansatz gewährleistet eine Trennung der Aufgaben zwischen Benutzern, die Speicherumgebungen verwalten, und denen, die auf die Daten in der Speicherumgebung zugreifen müssen. Selbst wenn neue IAM-Rollen für den Zugriff auf Daten erstellt werden, sind sie nicht berechtigt, auf den KMS-Schlüssel zuzugreifen, um ihn zu entschlüsseln, wodurch eine zweite Kontrollebene geschaffen wird.

Das komplette Potenzial des Data Lake entfalten

Das wahre Potenzial von Data Lakes kann nur dann ausgeschöpft werden, wenn die Daten im Data Lake allen Engineers und Scientists, die sie nutzen wollen, zur Verfügung stehen. Um dies zu erreichen, ist ein starkes Sicherheitsgewebe erforderlich, das in die Datenplattform eingebunden wird.

Der Aufbau einer solchen Datenplattform, die auch für alle Nutzer auf der ganzen Welt skalierbar ist, ist ein komplexes Unterfangen. Databricks liefert dafür eine Plattform, der einige der größten Unternehmen der Welt als Grundlage ihrer KI-gesteuerten Zukunft vertrauen.

Bharath Gowda ist VP of Product Marketing bei Databricks.

Databricks