Automatisierung verändert Data Science: klarere Erkenntnisse und höhere Produktivität

0

Ein Hauptziel der visuellen Analyse und Datenwissenschaft ist es, umsetzbare Erkenntnisse zu gewinnen, die sich direkt auf die Geschäftsprozesse auswirken – zur Steigerung der Einnahmen, zur Verbesserung der Produktivität oder zur Minderung der Risiken. Automatisierte künstliche Intelligenz, genauer gesagt automatisiertes maschinelles Lernen für die Datenwissenschaft, kann helfen, dieses Ziel zu erreichen.

Automatisiertes maschinelles Lernen (kurz AutoML) automatisiert die eher alltäglichen Aufgaben, setzt Zeit für innovative Aufgaben frei und kann so die Produktivität von Datenwissenschaftlern deutlich steigern. Transparentes AutoML kann auch Benutzer schulen, wie sie das Beste aus ihrer Daten- und datenwissenschaftlichen Umgebung herausholen und gleichzeitig Best-Practice-Ansätze umsetzen können.
Die Rolle der Datenwissenschaftler wird immer wichtiger – genauso wie ihre Funktion. Sie sind zu den „ultimativen Disruptoren“ geworden: Datenwissenschaftler tun, was nötig ist, um ihre Arbeit zu erledigen. Das kann beispielsweise bedeuten, End-to-End-Systeme für statistische Modelle und Inferenzen – für Batch-Jobs, die zu einer gewissen Uhrzeit oder nach einem bestimmten Auslöser starten – sowie für Echtzeit-Ereignisverarbeitung zu entwerfen und bereitzustellen.

Anzeige

Solche durchgängigen Systeme umfassen in der Regel Datenzugriff und -föderation, Caching-Strategien, Funktionserstellung, maschinelles Lernen und Modelloperationen. Letztere können Containerisierungs-Modelle umfassen, inklusive RESTful-Schnittstellen und Einsatz in operativen Systemen – in hybriden und manchmal auch in Multi-Cloud-Umgebungen.

Höhere Produktivität dank AutoML

Entscheidend ist, dass Datenwissenschaftler nichts mehr anstreben als eine höhere Produktivität. Automatisiertes maschinelles Lernen hilft ihnen dabei. Denn es unterstützt Analysten bei Vorbereitung und Bereinigung der Daten, bei Auswahl, Erstellung und Modellierung der Funktionen sowie bei der Erklärbarkeit der Zusammenhänge. Derzeit wird die digitale Unterstützung durch AutoML immer mehr auf Data-Science-Plattformen ausgeweitet, die über hybride Cloud-Umgebungen hinweg skalieren und in ereignisbasierten Architekturen eingesetzt werden.

Im Idealfall sollten AutoML-Systeme automatische Abläufe generieren, die editierbar sind und die aufzeigen, wie die Software funktioniert. Dabei sollten auch die einzelnen Schritte oder Knoten im Workflow sichtbar werden – ebenso die Art, wie sie für die Analyse erstellt und konfiguriert werden. Die generierten Flows sollten einem Datenwissenschaftler zeigen, wie er die Software optimal nutzen kann, und können das auch.

Die Automatisierung des Alltäglichen

Ein System für automatisiertes maschinelles Lernen ist außerdem eine Möglichkeit, Best-Practice-Ansätze durchzusetzen – sowohl für erfahrene professionelle Datenwissenschaftler als auch für Fachanwender. Während sich die Benutzer durch eine Data-Science-Pipeline bewegen, hilft die Umgebung bei der Verbindung, Bereinigung und Vorbereitung von Daten ebenso wie bei der Erstellung von Funktionen für das Modell-Design. Und schließlich sollte das System im Idealfall die Anwender bei Testverfahren wie beispielsweise der Holdout-Validierung (bei diesem Verfahren wird ein Datensatz in der Regel in zwei disjunkte Teildatensätze aufgeteilt), Funktions- und Modellkombinationen sowie der Erklärbarkeit von Modellen unterstützen.

An dieser Stelle ist ein „Sicherheitshinweis“ nötig: Wir teilen die bisweilen geäußerte Auffassung nicht, dass das Ziel die vollständige Automatisierung von allem ist, was es in der Datenwissenschaft gibt. Das Ziel ist es nicht, eine Umgebung mit vollständiger Automatisierung zu schaffen, in der man durch das Drücken eines großen roten Knopfes sagen kann: „Auftrag ausgeführt“. Vielmehr ist das Ziel, den Fachanwender zu einem digital versierten Assistenten auszubilden und dabei die alltäglicheren Aufgaben zu automatisieren, den Benutzer zu schulen und gute wissenschaftliche Verfahrensweisen durchzusetzen.

Das so beschriebene ideale AutoML-Software-System hilft Geschäftsanalysten, Datenwissenschaftlern und Entwicklern gleichermaßen, denn es beseitigt die Komplexität und beschleunigt den Einsatz in Live-Produktionsumgebungen. Diese Fähigkeiten wiederum sind im Begriff, die Konversation zwischen Geschäftsanalysten, Datenwissenschaftlern, Entwicklern und Führungskräften zu verlagern, um sich auf das Lösen der vorliegenden Probleme mit den besten verfügbaren Lösungen zu konzentrieren. Durch die „Automatisierung des Alltäglichen“ wird Zeit frei für die Entwicklung innovativer Ansätze, die zur Umsatzsteigerung, Risikoreduzierung und Beseitigung unnötiger Kosten beitragen.

Automatisierte KI als „Allgemeingut“

Die große Anzahl der Beteiligten an einem datenwissenschaftlichen Projekt macht es zu einer echten Herausforderung, den Prozess zu vereinfachen. Ein System, das beispielsweise von einem Geschäftsanalytiker für Datenvisualisierung zu einem Datenwissenschaftler für Schulung und Einsatz übergeht, umfasst mehrere Arbeitsabläufe: für die Bereinigung der Daten, die Entwicklung der Funktionen und die Erstellung der Modelle, die die Vorhersagen erstellen – in Batch-Jobs und beim Daten-Streaming in operativen Systemen.

Produktivitätsgewinne ergeben sich aus der automatischen Generierung dieser zahlreichen unterschiedlichen Workflows für Aufgaben wie Vorbereitung der Daten, Auswahl und Erstellen der Funktionen und Modellierung. Durch die Automatisierung der Prozesse – von der Vorbereitung bis zur Modellabstimmung – entstehen transparente, editierbare Workflows, die sich schneller in produktionsreife Versionen in operativen Systemen überführen lassen.

Wenn ein Datenwissenschaftler ein Prognosemodell erstellt, kann die Entwicklung der vielen verschiedenen Workflows, die bei der Datenvorbereitung und Datenwissenschaft erforderlich sind, sehr arbeitsintensiv sein. Werden diese Arbeitsabläufe automatisch generiert, kann es zu erheblichen Zeiteinsparungen, genaueren Modellen und dem durchgängigen Einsatz von Best-Practice-Verfahren kommen.

Mehr Produktivität, aufschlussreichere Ergebnisse

Die automatisierte Datenvorbereitung und das maschinelle Lernen können erhebliche Produktivitätssteigerungen für Geschäftsanalysten und Datenwissenschaftler schaffen. Durch die Automatisierung der verschiedenen Phasen des Workflows – vom Geschäftsanalysten über den Datenwissenschaftler bis hin zur Produktion – werden Modelle erstellt, abgestimmt und als Cloud-native Produktionsumgebungen bereitgestellt.

Um komplexere Probleme anzugehen, lassen sich maschinelle Lernmodelle immer einfacher bereitstellen und mit Daten-Feeds verbinden, um schnellere und intelligentere Echtzeit-Entscheidungen zu unterstützen. Es geht nicht darum, eine „Black Box“ zu bauen. Ob das gewünschte Ergebnis darin besteht, die genauere Betrugserkennung in der Finanzdienstleistungsbranche zu unterstützen oder die Produktionsmenge eines Ölfelds zu überwachen – Analysten, Wissenschaftler und Entwickler nutzen automatisierte Arbeitsabläufe für Erkenntnisse, um schnellere und intelligentere Modelle zu erstellen.

Ein Schlüsselbereich der Datenwissenschaft liegt in der Erstellung genauer Vorhersagen in Live-Betriebsumgebungen. So wie automatisierte Produktionsstraßen das moderne, analoge Industriezeitalter geschaffen haben – man denke nur an die Roboter in einer Autofabrik –, so treibt die Automatisierung der Datenwissenschaft das digitale Industriezeitalter voran. Das tut sie, weil Experten nicht mehr gezwungen sind, Routinearbeiten zu erledigen, und ihre Analysen schnell auf verschiedene Bereiche angewendet werden können. Durch Automatisierung kann die Datenwissenschaft schneller zur Lösung realer Probleme beitragen – und gleichzeitig messbare Vorteile für alle Beteiligten in der Wertschöpfungskette bieten.

Ulrich Hatzinger ist Senior Solutions Consultant – Central Europe bei TIBCO Software.

Tibco Software