Datenqualität sucht Datenverwaltung: Ein intelligenterer Ansatz ist gefragt

0

Daten entscheiden über den Geschäftserfolg, das ist ohne Zweifel der Fall. Doch ist ihre Qualität nur schwer zu fassen. Fortschritte im Datenmanagement und ein pragmatischerer Ansatz können jedoch dabei helfen, diese Schwierigkeiten zu überwinden und gleichzeitig die Qualität der Daten zu erhöhen.

Fast könnte man den Eindruck gewinnen, Änderungen in den Definitionen, in der Syntax, den Strukturen, Quellen und Verwendungsarten der Daten hätten sich geradezu verschworen, um deren Nutzen für die Unternehmen zu begrenzen. Allein ihre schiere Menge und Komplexität scheinen Unternehmen und Organisationen in vielen Fällen zu überfordern.

Anzeige

Die Datenqualität im Unternehmen lässt sich nicht mit einer Applikation sicherstellen. Man braucht dafür eine Kombination aus Metadaten-, Stammdaten- und Referenzdaten-Management, aus Daten-Governance, -katalog und -integration.

Traditionell waren diese Lösungen unabhängig voneinander und erforderten die Koordination zwischen Daten und ihren Metadaten über eine Vielzahl verschiedener Werkzeuge hinweg. Zudem waren die älteren Generationen von Datenmanagementsystemen für technisch versierte Anwender designt, die jedoch nicht über die notwendige fachliche Expertise verfügen, um Maßnahmen zur Optimierung der Datenqualität zum Erfolg zu führen.

Angesichts dieser Einschränkungen benötigen Unternehmen eine neue Art von Datenmanagementlösungen, mit deren Hilfe sich die einstmals getrennten Komponenten in eine einzige Umgebung integrieren lassen. Dadurch können Fach- und technische Anwender über den gesamten Lebenszyklus der Qualitätssicherung von Kundendaten hinweg zusammenarbeiten.

Datenvirtualisierung statt -kopien

Laut Angaben der International Data Corporation (IDC) verdoppelt sich die Menge der Unternehmensdaten alle drei Jahre. Es ist das Volumen dieser Daten, das die Aufgabe, für ihre Qualität zu sorgen, so komplex macht. Dabei kann man davon ausgehen, dass 85 Prozent dieser Daten nur Kopien sind.

Der Grund für diese Situation ist die Art und Weise, wie die traditionelle Integration mit dem Data Warehouse üblicherweise gemacht wird. Dabei werden die Originaldaten aus transaktionalen Applikationen einmal in die Staging-Datenbank kopiert und dann noch einmal in das Data Warehouse. Data Marts, die auf Basis des Data Warehouse erstellt werden, führen zu weiteren Kopien. Kommen noch Data Lakes hinzu, ist die „wundersame Vermehrung“ von Datenkopien komplett. Diese Vielzahl an Datenkopien, die auf verschiedene Speicherorte verteilt sind, macht es schwer, die Genauigkeit und Konsistenz der Daten aufrechtzuerhalten. Im Ergebnis leidet die Datenqualität.

Die logische Antwort auf diese Situation lautet aus Sicht der Unternehmen, die Entstehung von Datenkopien möglichst zu vermeiden. Dafür bietet sich unter anderem der Ansatz der Datenvirtualisierung an, die den direkten Zugriff auf die Quellsysteme zulässt. Dadurch können Unternehmen auf viele ihrer Data Marts verzichten und trotzdem die Qualität der Daten verbessern. Gleichzeitig können sie damit Kosten sparen. Darüber hinaus nutzen alle Anwender dieselben Definitionen zu den Daten aus den vorgelagerten Systemen und gewinnen dadurch eine konsistente Sicht auf die Daten sowohl hinsichtlich ihrer Qualität als auch ihres Ursprungs.

KI-gestützte Qualitätssicherung

Unternehmen sollten aber nicht nur integrierte Datenmanagementlösungen einführen und weniger Datenkopien anfertigen, sondern auch auf künstliche Intelligenz (KI) zurückgreifen, um Probleme mit der Datenqualität automatisch zu identifizieren und zu beheben.

IDC hat die Verfahren auf Basis von künstlicher Intelligenz und maschinellem Lernen, die Datenmanagementanbieter aktuell in ihren Produktportfolien zur Verbesserung der Datenqualität führen, in fünf Kategorien eingeteilt:

  • manuell gesteuert,
  • manuell gesteuert und maschinengestützt,
  • maschinengesteuert und manuell unterstützt,
  • maschinengesteuert und manuell überwacht, sowie
  • maschinengesteuert und maschinenüberwacht.

Untersuchungen des Marktforschungsunternehmens zufolge nutzen über 65 Prozent der befragten Unternehmen KI, um Probleme mit der Datenqualität automatisch anzuzeigen. Von diesen Unternehmen wiederum wenden 55 Prozent KI-gestützte Vorschläge für Korrekturen an. Offenbar liefert diese Technologie aus Sicht der Anwender mittlerweile die erforderlichen praktischen Anwendungsmöglichkeiten, um die Datenqualität zu verbessern. Vielleicht noch aussagekräftiger ist in diesem Zusammenhang der Befund, dass die Unternehmen zu mehr als 90 Prozent den KI-gestützten Empfehlungen vertrauen und rund 35 Prozent davon praktisch unverändert annehmen.

Pragmatische Qualitätssicherung: Ausgangspunkt ist das jeweilige Problem

Das letzte Teil in diesem Puzzle besteht in dem als pragmatisch zu bezeichnenden Ansatz, jeweils nur von dem konkreten Problem auszugehen, das ein Unternehmen zu lösen versucht. Zwar ist das Ziel perfekter Datenqualität ein nobles Ansinnen. Oftmals reicht jedoch der notwendige Grad an Datenqualität völlig aus, um eine geschäftliche Anforderung zu erfüllen.

Versucht ein Unternehmen zum Beispiel, das Kundenerlebnis zu verbessern, wird es alles über die Kundeninteraktionen wissen wollen. Typischerweise sind dafür Daten aus verschiedenen Systemen mit teilweise unterschiedlichen Kennungen notwendig. So könnte ein und derselbe Kunde unterschiedlich in den Systemen angelegt sein, zum Beispiel als

  • Stefan Schmidt im Vertriebsautomatisierungssystem,
  • S. Schmidt im Servicemanagement-System,
  • S. E. Schmidt im Marketing-System oder als
  • Stephan Schmidt im Auftrags- und Rechnungssystem.

Die nicht übereinstimmenden Primärschlüssel machen es schwer, die Datensätze richtig zusammenzufügen und ein komplettes Bild vom Kunden zu erstellen. Unter dem Gesichtspunkt der Integration reicht die Datenqualität nicht aus, um das aktuelle Problem zu lösen. Leider geht das Integrationsproblem über das Thema eindeutiger Kundennummern hinaus und erstreckt sich auf jede primäre Stammdaten-Entität zu Kunden, Partnern, Produkten, Orten etc.

Deshalb ist ein intelligenteres Stammdaten-Managementsystem erforderlich, das diese Abweichungen automatisch erkennen und beheben kann. Mit dessen Hilfe können Unternehmen leichter einen „Golden Record“ erstellen, anhand dessen sich die Probleme mit den Primärschlüsseln beseitigen lassen. Als Folge davon lassen sich mittels Datenvirtualisierung sämtliche Details abfragen, die notwendig sind, um eine vollständige Sicht auf den Kunden zu erhalten und auf dieser Basis beispielsweise den Kundenservice zu verbessern.

Ein weiteres Beispiel: Unternehmen suchen permanent nach Mitteln und Wegen, um das Cross-Selling-Umsatzpotenzial zu erschließen. Zu diesem Zweck könnte ein Datenwissenschaftler versuchen, auf Basis historischer Verkaufszahlen beliebte Produktkombinationen zu entdecken und auf dieser Grundlage einen Algorithmus für personalisierte Produktempfehlungen zu entwickeln. Untersucht der Datenwissenschaftler die Verkaufszahlen und ihre Verteilung, wird er zahlreiche belastbare Korrelationen finden, von einigen Ausreißern abgesehen, die immer auftreten.

Wenn Unternehmen gerade mit Modellen für maschinelles Lernen zu arbeiten beginnen, dann konzentrieren sie sich auf die Modelle, die das Gros der Kunden und die Produkte mit dem höchsten Umsatzpotenzial widerspiegeln. Die Ausreißer werden erst einmal ignoriert, damit sich das Modell rascher implementieren lässt und der Nutzen schneller sichtbar wird. Später hat der Datenwissenschaftler noch genug Zeit, die Ausreißer näher zu untersuchen und sie besser zu verstehen.

Alternativ kann sich ein Unternehmen entscheiden, ob sich der Data Scientist nur auf den Teil der Kundenbasis und die Produkte mit dem höchsten Umsatzpotenzial konzentrieren sollte. Dann kann sich der Datenwissenschaftler mehr um die kontinuierliche Verfeinerung und Verbesserung des ursprünglichen Modells kümmern, ohne das Thema der Ausreißer anzugehen.

Unabhängig von dem gewählten Weg gilt jedoch für die Unternehmen: Sich der kontinuierlichen Verbesserung der Qualität ihrer Daten zu widmen, ist ein lohnendes Geschäft. Denn dadurch können sie ihr Geschäft besser verstehen und damit fundiertere Entscheidungen fällen, die ihnen dabei helfen, erfolgreicher zu werden.

Bob Eve ist Senior Data Management Strategist bei TIBCO Software.

TIBCO Software