Auch wenn Data Science mittlerweile den Schleier des Sagenumwobenen abgelegt hat und der Hype langsam abnimmt, wissen viele dennoch nicht wirklich, was genau darunter gemeint ist. Gleichzeitig bekommen im Zuge der Digitalisierung immer mehr Menschen im Rahmen eines Data Science Projektes direkt oder indirekt mit dem Thema zu tun.
Was verbirgt sich also hinter dem Begriff Data Science und wie kann man ein Data Science Projekt erfolgreich durchführen?
Data Science ist die faszinierende Mischung aus Mathematik, Statistik, Machine Learning (ML), Programmierung, Big Data, Domänen-Knowhow und Visualisierung, abgerundet mit einem gewissen MacGyver-Mindset, um aus Daten im Ergebnis einen echten Mehrwert zu generieren. Ein Data Science Projekt ist also ein Projekt, welches für einen Kunden einen geschäftlichen Mehrwert aus den eigenen Daten generiert.
Doch was ist nun ein konkreter, geschäftlicher Mehrwert für einen Kunden? Was ist der Return-Of-Investment (ROI) und wie genau, d.h. mit welcher Kennzahl, kann der Mehrwert eines Data Science Projekts gemessen werden? Diese wichtigen Fragen können nur gemeinsam mit dem Kunden in einer kurzen Vorphase (der Know-Why Phase) beantwortet werden, und liefern eine wichtige Basis und auch Rechtfertigung für die nächste Phase, der eigentlichen Data Science Projektphase (Know-How Phase).
In dieser Know-How Phase (auch Data Discovery Phase genannt) wird mit einer quantitativen, datengetriebenen Machbarkeitsanalyse mit den eigentlichen Kundendaten untersucht, ob sich die in der Know-Why Phase gesteckten Ziele und Use Cases überhaupt realisieren lassen.
Konkret werden die internen Kundendaten zuerst bereinigt und – da es sich meist um verschiedene Datenquellen des Kunden mit unterschiedlicher zeitlicher, räumlicher und organisatorischer Granularität handelt – mittels Aggregationen auf einen „gemeinsamen Nenner“ gebracht und miteinander verknüpft. Für diese Arbeitsschritte benötigt man bereits ein beträchtliches, domänenspezifisches Fachwissen, um die Rohdaten optimal und vor allem korrekt interpretieren zu können. Eine enge Kooperation zwischen den Fachexperten des Kunden sowie den Data Scientists ist für den Erfolg dieser Phase unumgänglich.
Danach werden die Daten mittels moderner, deskriptiver Datenanalysemethoden im Detail untersucht und unter anderem die folgenden Fragen beantwortet: Um welche Datentypen handelt es sich? Wie sieht die jeweilige Verteilung der Werte der einzelnen Parameter aus? Gibt es fehlende Werte und falls ja, kann man sie abschätzen? Wie sind die Parameter untereinander korreliert und wie verhalten sie sich zur Zielvariable, welche es zu prognostizieren gilt? Gerade die Analyse der Korrelationen mit der Zielvariable ist dabei besonders wichtig, um eine erste Abschätzung der Schwierigkeit der Vorhersageaufgabe geben zu können.
Durch diese strukturierte Datenanalyse, kombiniert mit dem Fachwissen aus der Domäne lassen sich die weiteren Vorverarbeitungsschritte der Rohdaten ermitteln sowie die relevanten Parameter (features) aus den Daten extrahieren, welche später als Trainingsdaten für das Machine Learning Vorhersagemodell dienen werden (diesen wichtigen Schritt nennt man auch feature engineering). Letztlich lässt sich in dieser Analyse auch bereits die Klasse an Machine Learning Modellen bestimmen, welche für diese Aufgabe am besten geeignet ist.
Als Ergebnisse dieser Datenexploration erhält man üblicherweise viele Diagramme (siehe Abbildung 1), Maßzahlen und sonstige wertvolle Information, um dann eine datengetriebene Entscheidung sowie eine Planung der weiteren Schritte für die nächste Phase des Data Science Projektes treffen zu können.
Abbildung 1: Exemplarische Ergebnisse aus der Data Discovery Projektphase (© Siemens Advanta)
Diese erste Phase der Datenexploration verschlingt dabei rund 80% der Zeit und Ressourcen eines Data Scientists. Nur rund 20% verbleiben (vorerst) für die Erstellung eines ersten protypischen Baseline-Vorhersagemodells mittels Machine Learning Methoden. Das mag überraschen – und mancher Data Scientist (mich eingeschlossen) würde auch lieber ausgiebiger mit dem neuesten Deep-Learning-Modell herumexperimentieren, statt wie ein digitales Trüffelschwein in den Daten zu wühlen – aber gerade diese explorative Phase mit dem geballten Fachwissen ist auch heute noch sehr relevant. Der wichtigste Grund hierfür lässt sich mit dem sogenannten Garbage-In-Garbage-Out-Prinzip erklären: Wenn man schlecht aufbereitete und schlecht interpretierte Daten (also Müll, Garbage) einem Machine Learning Modell als Trainingsdaten anbietet, kann das Modell noch so komplex und raffiniert aufgebaut sein, es wird dennoch ebenfalls Müll prognostizieren. Ein weiterer Punkt ist, dass sich die domänenspezifische Datenexploration auch in absehbarer Zeit nicht oder nur sehr schwer automatisieren lässt, im Vergleich zum Trainieren von Machine Learning Modellen, wo bereits heute viel mehr automatisiert wird.
Nach der Datenexplorations-Phase sowie nach einer positiven Entscheidung des Kunden beginnt die eigentliche Umsetzung und Implementierung der zuvor gewonnen Erkenntnisse in Richtung eines ersten Prototypen bzw. eines Minimum-Viable-Products (MVP). Unter anderem werden:
- die benötigten Vorverarbeitungsschritte der Daten robust und skalierbar implementiert,
- die ermittelten Features extrahiert und berechnet,
- die dadurch transformierten Daten in Trainings- und Test-Datensätze aufbereitet,
- ein konkretes Machine Learning Modell entwickelt, mit den Trainingsdaten trainiert und weiter optimiert,
- das trainierte Machine Learning Modell mit den Testdaten evaluiert,
- das trainierte Machine Learning Modell in der (vorläufigen) Zielumgebung ausgerollt (und im Falle einer Online-Nutzung über eine REST API zur Verfügung gestellt) und
- bei Bedarf die erstellte API über ein UI konsumiert.
Am Ende dieser Schritte geht die Implementierungsphase in die Operationalisierungsphase über, in der fortlaufend die Performance der ML-Vorhersage überwacht wird und im Sinne des MLOps-Prinzips (d.h. die Verallgemeinerung des DevOps-Prinzips auf Datenanalyse und ML) die Gesamtlösung kontinuierlich evaluiert und verbessert wird.
Dieser gesamte, agile End-To-End Data Science Workflow mit all den zuvor beschriebenen Schritten ist auch in Abbildung 2 im Überblick zu sehen.
Abbildung 2: Der gesamte Data Science Workflow (© Siemens Advanta)
Zu guter Letzt darf der Blick auf die aktuelle Werkzeuglandschaft natürlich nicht fehlen. Einen überwältigenden Einstieg liefert Matt Turck mit seinem seit 2012 erscheinenden Überblick über die Data Science Landschaft.
Abbildung 3: Die Data Science Landschaft im Jahr 2020 (© Matt Turck & FirstMark)
Doch der Blick auf die stetig wachsende Landkarte sollte nicht verschrecken. Jedes Data Science Projekt beginnt mit einer gezielten Auswahl an Werkzeugen, um die zuvor beschriebenen wichtigsten Arbeitsschritte wie Datenexploration, Visualisierung, Datentransformation, Feature Engineering, ML-Modellentwicklung sowie MLOps bestmöglich aber dennoch leichtgewichtig und flexibel zu unterstützen.
In weiteren Artikeln werden wir uns anschauen, welche Machine Learning Algorithmen für welche Arten von Problemen herangezogen und wie DevOps-Prinzipien in der Machine Learning Welt angewandt werden können.
Wollen auch Sie Ihre Daten in Informationen verwandeln und neue Erkenntnisse und bessere Entscheidungsfindungen auf Basis von Daten und effizient durchgeführten Data Science Projekten gewinnen, dann kontaktieren Sie uns.