Sind die ersten KI-Anwendungsfälle erfolgreich umgesetzt, machen die im Livebetrieb gewonnenen Daten ein immer besseres Training möglich. Dadurch werden die Prognosen immer genauer, die Modelle immer besser. Allerdings kann dieses konstante Retraining die Effizienzgewinne durch die Einführung der jeweiligen Lösung wieder aufzehren. Es gilt daher, für jedes Modell individuell zu beurteilen, ob und in welchen Intervallen ein erneutes Training notwendig ist oder möglicherweise zunächst eine Messung der Modellqualität vorgeschaltet werden sollte. Dabei spielt auch der Verwendungszweck der Anwendung eine Rolle.
Ein Beispiel für regelmäßige Modellpflege sind zweifelsohne Systeme zur Fraud-Erkennung im Zahlungsverkehr. Verbrecher passen erfahrungsgemäß ihre Betrugsmuster regelmäßig an. Daher kann ein Anti-Fraud-System, das heute hervorragende Ergebnisse erzielt, schon wenige Tage später bei signifikanten Betrugsmustern versagen. Also ist es sinnvoll, die Modelle täglich automatisiert neu zu trainieren und mit den jeweils produktiven Algorithmen hinsichtlich der Prognosegüte zu vergleichen.
Auf der anderen Seite stehen Anwendungen zur Mustererkennung auf Bildern. So wurden bei PPI für das Produkt dibco KI-Modelle entwickelt, die auf Fotos den Fortschritt eines Hausbaus erkennen. Wird eine gewisse Qualitätsschwelle überschritten, lohnt ein weiteres Training kaum noch. Es empfiehlt sich lediglich, regelmäßig zu prüfen, ob die Modelle weiterhin auf die Grundgesamtheit angewendet werden, für die sie entwickelt wurden, also etwa Einfamilienhäuser oder Industriebauten. Wird auch die Prognosequalität überwacht, ist ein regelmäßiges Retraining verzichtbar.
Ein strukturierter Prozess für Machine Learning Operations, eine sogenannte MLOps-Pipeline, empfiehlt sich bei Modellen, für die regelmäßige Tests und Trainings mit neuen Daten vorgesehen sind. MLOps machen eine automatische Datenaufbereitung im benötigten Format möglich und erlauben die Berechnung von KPIs sowie eine Versionierung von Modellen und Daten. Für die Umsetzung existiert am Markt eine Vielzahl guter Lösungen. Zu unterscheiden ist hier allerdings zwischen spezialisierten MLOps-Tools für die Modellpflege im KI-Bereich und solchen für klassische DevOps. Letztere wurden in der Regel um Datenkomponenten erweitert. Unabhängig von der Wahl der entsprechenden Anwendung empfiehlt es sich, in einer skalierenden Modelllandschaft immer MLOps für die Modellpflege vorzusehen.
Neben der technischen Komponente der Modellpflege darf die passende KI-Governance nicht hintenanstehen. Und die ist nicht für jeden Algorithmus gleich. Dazu zwei Beispiele: In einem stark regulierten Bereich wie der Kreditwürdigkeitsprüfung sind die diesbezüglichen Anforderungen sehr hoch. Auf der anderen Seite ist der notwendige Overhead bei einer Postkorb-KI zur Sortierung eingehender Mails minimal.
Die KI-Governance sollte die zu durchlaufenden Schritte regeln, bis ein neues Modell produktiv geschaltet werden kann. Infrage kommen etwa eine Analyse der Trainingsdaten, zum Beispiel im Hinblick auf Abweichungen vom bisherigen Sample, eine Aufteilung in Trainings-, Test- und gegebenenfalls ein weiteres Validierungs-Sample sowie die zu messenden KPIs und notwendige Dokumentationen. Zu klären ist hier: Wer ist an dem Prozess beteiligt, gibt es eine Rollentrennung, etwa zwischen Entwicklung und Validierung, wer überwacht die Abläufe, und wer gibt die Modelle frei? Das von der EU vorgeschlagene Mehrstufenmodell für KI ist ein guter Anhaltspunkt, um Modelle in unterschiedliche KI-Governance-Prozesse zu gliedern.