Plausibilitätsprüfung mit Machine Learning

Projekt

Zusammenfassung

Dieses Projekt beabsichtigt die Plausibilitätsprüfungen im BFS anhand von Machine Learning Algorithmen zu erweitern, zu beschleunigen und gleichzeitig die Datenqualität zu steigern.

Beschreibung

Statistikämter führen Plausibilitätsprüfungen durch, um die Qualität und Zuverlässigkeit von Administrativdaten und Umfragedaten zu überprüfen. Daten, die dabei entweder eindeutig falsch oder zumindest fraglich erscheinen, werden an die Datenlieferanten mit Bitte um Korrektur oder Kommentar zurück geschickt. Bisher wurden solche Plausibilitätsprüfungen mehrheitlich auf zwei verschiedene Arten durchgeführt: entweder durch manuelle Kontrollen oder durch automatisierte Verfahren mittels Grenzwerten und logischen Tests. Dieser Vorgang der wechselseitigen Plausi-Kontrollen ist sehr arbeitsintensiv. In einigen Fällen müssen Mitarbeiter die Daten nochmals manuell überprüfen, in anderen Fällen werden Regeln eingesetzt, wobei es auch dann mitunter weiterer Kontrollen bedarf. Dieser regelbasierte Ansatz bezieht seine Grundlage zwar aus der bisherigen Erfahrung, ist aber nicht unbedingt komplett und nicht immer präzise. Machine Learning kann dabei helfen die Kontrollen schneller und zielgenauer durchzuführen. Der hier verfolgte Ansatz trainiert einen Algorithmus zunächst mit historischen Daten. Dann kann auf Basis einer vorhergehenden Datenanalyse eine Zielvariable definiert werden, welche durch den Algorithmus vorhergesagt werden soll. Nun kann der Algorithmus für die Prädiktion angewendet werden. Im letzten Schritt werden die vorausgesagten und die tatsächlichen Werte der Zielvariablen verglichen und die Vorhersagegenauigkeit kann evaluiert werden. Schlussendlich wird noch ein Feedbackmechanismus gebraucht, um eine dazugehörende automatische Erklärung an die Datenlieferanten zurückspielen zu können.

Ziele

  • Erstellung einer Plausibilitätskontrolle mit Machine Learning.
  • Schaffung einer automatisierten Feedbackfunktion, welche eine Interpretation/Erklärung der möglichen Fehler an die Datenlieferanten zurückspielen kann.
  • Erarbeitung möglicher Lösungsansätze, um die Plausibilitätskontrolle mittelfristig in eine Produktionsumgebung zu integrieren.
  • Erstellung einer Dokumentation mit einer möglichst skalierbaren Lösung, die im ganzen BFS modifiziert und angewandt werden kann.