Plausibilitätsprüfung mit Machine Learning

Ausgangslage

Statistikämter führen Plausibilitätsprüfungen durch, um die Qualität und Zuverlässigkeit von Administrativdaten und Umfragedaten zu überprüfen. Daten, die dabei entweder eindeutig falsch oder zumindest fraglich erscheinen, werden an die Datenlieferanten mit Bitte um Korrektur oder Kommentar zurückgeschickt. Bisher wurden solche Plausibilitätsprüfungen mehrheitlich auf zwei verschiedene Arten durchgeführt: entweder durch manuelle Kontrollen oder durch automatisierte Verfahren mittels Grenzwerten und logischen Tests. Dieser Vorgang der wechselseitigen Plausi-Kontrollen ist sehr arbeitsintensiv. In einigen Fällen müssen Mitarbeiter die Daten nochmals manuell überprüfen, in anderen Fällen werden Regeln eingesetzt, wobei es auch dann mitunter weiterer Kontrollen bedarf. Dieser regelbasierte Ansatz bezieht seine Grundlage zwar aus der bisherigen Erfahrung, ist aber nicht unbedingt komplett und nicht immer präzise. Machine Learning kann dabei helfen die Kontrollen schneller und zielgenauer durchzuführen. Der hier verfolgte Ansatz trainiert einen Algorithmus zunächst mit historischen Daten. Dann kann auf Basis einer vorhergehenden Datenanalyse eine Zielvariable definiert werden, welche durch den Algorithmus vorhergesagt werden soll. Nun kann der Algorithmus für die Prädiktion angewendet werden. Im letzten Schritt werden die vorausgesagten und die tatsächlichen Werte der Zielvariablen verglichen und die Vorhersagegenauigkeit kann evaluiert werden. Schlussendlich wird noch ein Feedbackmechanismus gebraucht, um eine dazugehörende automatische Erklärung an die Datenlieferanten zurückspielen zu können.

Daten und Vorgehen

Die jährlich aktualisierte Datenbasis ist ein anonymisierter verknüpfter Datensatz der Hochschulpersonaldaten und Studierendendaten aus dem Schweizerischen Hochschulinformationssystem der jeweils letzten vier Jahre. Diese werden mit weiteren statistischen Kennzahlen ergänzt. Ein Algorithmus (Gradient Boosting Machines) wird dahingehend trainiert die Personalkategorie des universitären Hochschulpersonals für das jeweils aktuelle Jahr vorherzusagen. Wenn die Personalkategorie nicht übereinstimmt, wird anhand eines Feedbackmechanismus ermittelt, von welchen Variablen dies abhängen könnte, und mit den Hochschulen abgeklärt. Jährlich wird die Übertragbarkeit des Modells anhand mehrerer Ansätze (Population Stability und Modellmonitoring) überprüft.

Ergebnisse

Um den Aufwand bei den Datenlieferanten möglichst gering zu halten wurde der Feedback-Mechanismus zusätzlich vor dem Versand überprüft. So wurden Problemfälle gemeldet bei denen die Wahrscheinlichkeit, einen Fehler zu finden, besonders hoch erschien. Zusätzlich wurden zu diesen Fällen weitere Angaben hinzugezogen.

Die Datenlieferanten konnten alle ausgewählten Problemfälle (potenzielle Fehler) als korrekt zurückmelden, auch solche die zum Teil selten vorkommen. Aus weiteren Rückmeldungen der Datenlieferanten zu möglichen Problemfällen stellte sich heraus, dass es mehrere strukturelle Gründe für Abweichungen geben kann.

Mit der Berechnung eines Population Stability Index wurde ein Modul ergänzt, um die Vertei-lung zwischen den Jahren zu überprüfen und die Einsatzfähigkeit des vorherigen Algorithmus zu beurteilen. Die Verteilung der Daten pro Personalkategorie, pro Hochschule und bei weiteren gelieferten Daten unterschied sich zwischen den Jahren nicht merklich.

Nach jeder Erhebung wurde der Algorithmus mit den aktuellsten Daten neu trainiert. Die sehr hohe Genauigkeit dieser jährlich neu trainierten Modelle blieb stabil. Die Genauigkeit der Modelle bei der Vorhersage der Personalkategorie änderte sich auch kaum, wenn Modelle auf Daten anderer Jahre angewandt wurden.

Die Datenqualität der Personalstatistik ist sehr hoch, daher werden die Plausibilitätsprüfungen mittels Machine Learning nicht standardmässig in die Kontrollarbeiten implementiert. Bei Bedarf seitens der Hochschulen kann der Algorithmus wieder genutzt werden.

Bei der Anwendung des Ansatzes dieses Projekts auf andere Projekte wäre es wichtig in einem ersten Schritt grössere der Inputdaten inhärente strukturelle Unterschiede ausfindig zu machen um diese allenfalls in die Entwicklung der Anwendung des Algorithmus auf einzelne Datensätze zu integrieren. Der Algorithmus ist auch unter unterschiedlichen Rahmenbedingungen anwendbar, skalierbar und mit Anpassungen wiederverwendbar.