Der Machine Learning Workflow - Ein Konzept und seine Anwendung

Luise Wiesalla22.04.2021 17:31:33 5 min read

Ein Garantie für erfolgreiche Machine Learning Projekte gibt es nicht - wir zeigen Ihnen aber, wie Sie das Projekt auf die richtige Bahn lenken und Ihre Chancen für die Zielgerade erhöhen. Mit der Beachtung des vorgestellten Machine Learning Workflow oder Lifecycle (mit dem Uber für skalierbares und angewendetes Machine Learning sorgt) setzen Sie den richtigen Fokus in den einzelnen Projektphasen und beachten alle Teilaspekte zum passenden Zeitpunkt.

Die vorgestellte Definition konzentriert sich neben den technischen Aspekten auch auf die Effektivität des gesamten Projekts und schließt so die Lücke zu dem geschäftlichen Kontext. Dieser Blogartikel zeigt wie Sie den Machine Learning (ML) Workflow für sich nutzen können und gibt einen Überblick in die verschiedenen Phasen des ML Workflow.

Der Machine Learning Workflow kann grob in vier Phasen unterteilt werden. Dabei ist zu beachten, dass die Phase “Prototyp” selbst einen iterativen Prozess darstellt.

Define -Business Problem verstehen und Ziele definieren
Prototype - Machbarkeit eines Modell-Ansatz nachweisen
Production - Deployment in der Produktivumgebung
Measure - Anwendung messen, monitoren und überwachen

ml_lifecycle_nl (1)

Abbildung angelehnt an Uber ML Stack

Define

Die erste Phase bringt den Fokus auf das zu behandelnde Problem. Es geht darum, das Thema übergreifend zu betrachten und alle Teammitglieder mit einzubinden. Sobald ein gemeinsames Verständnis der Ausgangslage geschaffen ist, wird die Erwartung an das Projekt und die Definition der Ergebnisse daraus abgeleitet. Die grundlegende Form der Lösung (Bsp. Echtzeitanwendung) und der Modelltyp werden ersichtlich, während die Details bewusst offen bleiben. In jedem Fall wird hier Inspiration für die Umsetzung entstehen. Eine empfehlenswerte Workshop-Methode findet sich im Design Thinking wieder. Folgende Leitfragen werden in dieser Phase beantwortet:

Wofür werden die Modellergebnisse benötigt?
Gibt es bereits Alternativen oder manuelle Ansätze?
Was wird von einer realistischen Lösung erwartet?

Nach Abschluss der Phase ist sichergestellt, dass das richtige Problem behandelt wird und die Rahmenbedingungen gesetzt sind. Für mehr Information zu den Möglichkeiten von Machine Learning und Anwendungsideen für verbreitete unternehmerische Herausforderungen empfehlen wir Ihnen die Lektüre unseres Whitepapers "So kurbeln Sie Ihr Business durch Künstliche Intelligenz und Machine Learning an".

Prototype

Die Machbarkeit wird in der zweiten Phase überprüft. Wichtige Tätigkeiten sind die Beschaffung der Daten, die Vorbereitung auf die Analyse und eine erste Modellauswahl. Die Datenexperten genießen jetzt Sonderrechte und haben beinah uneingeschränkte Experimentierfreiheit bei dem Entwurf des Modells und der zugehörigen Datenbasis. Iterativ werden neue Einflussgrößen aus den Daten gewonnen und ihre Wirkung auf das Modell analysiert. Aufgrund der speziellen Freiheiten wird diese Arbeitsumgebung oft als Data Lab (Daten Labor) bezeichnet.
Am Ende dieser Experimentierphase soll ein funktionierender Prototyp eines Modells entstehen. Tatsächlich spiegelt der Prototyp eine passende aber nicht unbedingt perfekte Lösung des Problems wider. Aufwendige Optimierungen hinter der vierten Nachkommastelle sind nur in wenigen Fällen ausschlaggebend, ob ein Modell in der Praxis taugt oder nicht. Diese Phase dient primär dazu, die folgenden Fragen zu beantworten:

Ist die Datenmenge und -qualität ausreichend?
Kann das Problem mit einem Machine Learning Modell gelöst werden?
Lohnt es sich den aktuellen Prozess zu ersetzen?

Sobald der Modellentwurf die Anforderung erfüllt, kann in die nächste Phase übergegangen werden, da das Modell im späteren Verlauf ohnehin iterativ optimiert wird.

Kurbeln Sie Ihr Business an mit
Machine Learning und Künstlicher Intelligenz

Production

Im Übergang zu der Production-Phase fällt die Entscheidung für oder gegen den Machine Learning Ansatz. Erweist sich das Modell als vielversprechend, kann es in eine Produktionsumgebung überführt werden. Falls die Umsetzbarkeit durch die Prototypen nicht belegt werden kann, sollten Sie Ihr Machine Learning Projekt hier stoppen. Die bisherigen Aufwendungen sind geschehen und sollten keinesfalls den Entscheidungsprozess verfälschen. Ganz unnütz sind die bisherigen Ergebnisse jedoch nicht. Zur Vermeidung von Fehlentscheidungen kann es hilfreich sein, eine externe Person hinzu zu ziehen.

Im Zuge der Produktivsetzung muss das Modell weitere organisatorische und kulturelle Hürden bestehen. In dieser Phase sollten Maßnahmen zur Akzeptanzsteigerung in den Anwenderkreis durchgeführt werden. Hinsichtlich der technischen Umsetzung profitiert das Deployment von einer möglichst durchgängigen und integrierten Machine Learning Pipeline zwischen dem Data Lab und der Laufzeitumgebung. Je nach Art der Pipeline kann die Verwendung von State-of-the-Art Technologien nur eingeschränkt möglich sein, da die neusten Modelltypen nicht sofort unterstützt werden. In dem Zug der Automatisierung wird auch die bedarfsgerechte Transformation der Daten in die Pipeline aufgenommen.

Folgende Fragen werden unter anderem in dieser Projektphase geklärt:

Wird das Modell im Anwenderkreis akzeptiert?
Welche Systemarchitektur ist geeignet? (Cloud, Cluster, On-Premise)
In welcher Form sollen die Ergebnisse zur Verfügung gestellt werden? (per API, in einer Datenbank...)

Am Ende der Produktivsetzung ist das Modell unter Realbedingungen einsatzfähig. Die Produktivsetzung geht oft mit einem Wechsel der Verantwortlichkeiten einher. Besonders bei innovativen Ansätzen in der Modellgestaltung entstehen Probleme bei der Übergabe. Mit MLOps werden wichtige Strukturen für die Zusammenarbeit von Datenwissenschaftlern und Betriebsexperten geliefert.

Measure

Die vierte Phase stellt sicher, dass Ihr Projekt einen nachhaltigen Mehrwert für Ihr Unternehmen liefert. Dafür wird die Performance des Modells im Regelbetrieb überwacht. In der hoch agilen Welt entstehen viele Veränderungen, die die Ergebnisqualität des Modells negativ beeinflussen. Beispiele hierfür sind das Verschieben von Trends oder das Wandern von Marktanteilen. Die Ergebnisqualität des Modells kann dadurch negativ beeinflusst werden. Deshalb sollten die Ergebnisse in regelmäßigen Abständen kritisch hinterfragt und falls möglich mit einem Vergleichswert abgeglichen werden. Die Abstände sind unter anderem von der betriebswirtschaftlichen Bedeutung des Modells und Schnelllebigkeit der Ergebnisse abhängig.

Die Annahmen des Modells sind ebenfalls zu überprüfen. Sofern diese noch zutreffend sind, kann ein Neutraineren des Modells mit weiteren frischen Daten einen Performance-Boost gewähren. Bei tiefgreifenden Neuerungen wird eine strukturelle Anpassung des Modells oder das Hinzufügen einer neuen Datenquelle notwendig. Zusammenfassend beschäftigt diese Phase sich mit folgenden Fragen:

Ist die Ergebnisqualität noch ausreichend?
Sind die Grundannahmen des Modells erfüllt?
Haben sich die Anforderungen gewandelt?

Im Zuge der kontinuierlichen Verbesserung des Modells ist eine Versionierung der Modelle wichtig. Sofern die Ergebnisse eines Modells wegen beispielsweise rechtlicher Ansprüche bei einer Kreditanfrage jederzeit reproduzierbar sein müssen, gewinnt dieser Punkt an zentraler Bedeutung.

Der Machine Learning Workflow zeichnet sich durch seine Flexibilität aus. Statt fest verankerten Zielen zu folgen, werden die Möglichkeiten durch die Machbarkeitsstudie offen gelegt. Bis zu diesem Punkt herrscht Ungewissheit, welche Ergebnisse mit den zur Verfügung stehenden Daten realisierbar sind und welche Anforderungen die Implementierung mit sich bringt. Somit birgt jede Phase ihre eigenen Herausforderungen und Chancen. Die Berater von NextLytics begleiten Sie gerne durch Teile oder durch den gesamten Workflow und unterstützen Sie mit ihrer Praxiserfahrung das maximale Potential freizusetzen.

Wenn Sie Unterstützung bei der Planung und Ausführung von Machine Learning Projekten benötigen, sprechen Sie uns gerne an. Unsere Beratern besitzen unterschiedlichen Schwerpunkten und ergänzen ihr Projektteam mit den gewünschten Kompetenzen.

Luise Wiesalla

Luise Wiesalla ist seit 2019 als Werkstudentin / studentische Beraterin im Bereich Data Analytics und Machine Learning bei der NextLytics AG tätig. Sie hat Erfahrung mit Full-Stack-Data-Science-Projekten und dem Einsatz der open-source Workflow-Management-Lösung Apache Airflow. Ihre Freizeit verbringt sie gerne damit, ihre Umgebung zu erkunden und in Bewegung zu sein.