Machine Learning SoSi (ML_SoSi)

Projekt

Zusammenfassung

Gruppierung typischer prospektiver Verlaufsmuster bezüglich Leistungsbezügen im System der Sozialen Sicherheit und Erwerbsarbeit sowie Schätzung der Gruppenzugehörigkeit durch Nutzung individueller Merkmale und retrospektiver Verlaufsdaten unter Anwendung eines machine-learning-Ansatzes.

Beschreibung

Ausgehend von einer Kohorte von Personen, die in die Sozialhilfe und/oderin die Arbeitslosenversicherung eintritt, können die Bezugs- und Erwerbsverläufe anhand der SHIVALV+IK-Daten für eine bestimmte Dauer beobachtet werden (prospektiv). Diese kombinierten Verläufe sollen mit datengetriebenen Verfahren beschrieben und aufgrund ihrer Ähnlichkeit/Unähnlichkeit gruppiert (sequence clustering) werden. Anschliessend wird anhand der Informationen, welche zum Zeitpunkt des Eintritts bekannt sind, für jede Person die Wahrscheinlichkeit der Zugehörigkeit zu den identifizierten Verlaufsclusters berechnet. Einbezogen werden dabei Strukturmerkmale (Alter, Geschlecht, HH-Typ, uam) ebenso wie Informationen zum Verlauf des Erwerbs oder Sozialleistungsbezug der dem Systemeintritt vorausgeht (retrospektiv). Es handelt sich also um eine Schätzung des wahrscheinlichen Fallverlaufs für eine definierte Dauer ab Zeitpunkt des Eintritts. Dafür wird ein Machine-Learning-Ansatz gewählt: Das Modell (Features, Schätzmethode und deren Parameter für die Verallgemeinerung, Gewichte...) soll durch systematisches Experimentieren induktiv ermittelt werden. Darauf aufbauend sollen aggregierte Prognoseindikatoren für die Häufigkeit bestimmter Verlaufsmuster entwickelt werden.

Ziele

Die institutionellen Rahmenbedingungen lassen eine Vielzahl von Verläufen zu in das System der sozialen Sicherung einzutreten und es wieder zu verlassen, d.h. wirtschaftlich wieder selbständig zu werden. Das Potenzial zur Schätzung individueller Verläufe im System der sozialen Sicherheit mittels induktiven Methoden wird untersucht und auf ihre Zuverlässigkeit hin geprüft. Modelle zur frühzeitigen Identifikation risikoreicher Verlaufsmuster, d.h. solche die sich kaum mehr in die Arbeitswelt integrieren, werden berechnet. Zudem wird evaluiert, inwieweit mit dieser Methode berechnete Indikatoren periodisch wiederholt und veröffentlicht werden können.