Machine Learning SoSi (ML_SoSi)

Projet

Résumé

Identifier, dans une optique prospective, des parcours types dans le système de sécurité sociale et dans la vie professionnelle; grouper les bénéficiaires de prestations en fonction de leurs parcours et estimer la probabilité d'appartenance à un groupe donné par l'utilisation de variables individuelles de données rétrospectives et par l'application d'une procédure de machine learning.

Description

À partir d'une cohorte de personnes bénéficiant de prestations de l'aide sociale et/ou de l'assurance chômage, on peut observer pendant une certaine durée, à l'aide des données AS/AI/AC+CI, les parcours de ces personnes (optique prospective). Les parcours combinés sont décrits sur une base factuelle et classés selon leurs ressemblances/dissemblances (sequence clustering). Puis on calcule pour chaque personne, à partir des informations connues au moment du début de l'octroi des prestations, la probabilité qu'elle a d'entrer dans un des clusters identifiés. On prend en considération des variables structurelles (âge, sexe, type de ménage, etc.) ainsi que des informations sur le parcours professionnel antérieur et sur les prestations sociales perçues avant l'entrée dans le système (optique rétrospective). Il s'agit d'estimer la probabilité de tel ou tel parcours pour une durée déterminée à partir du moment de l'entrée dans l'aide sociale. On recourt à la méthode du machine learning: le modèle (caractéristiques, méthode d'estimation, paramètres de généralisation, pondération...) est élaboré inductivement par des expérimentations systématiques. On développe ensuite sur cette base des indicateurs prévisionnels agrégés de la fréquence de certains types de parcours.

Objectifs

En raison de la diversité qui existe au sein de nos institutions d'aide sociale, les personnes qui entrent dans le système de la sécurité sociale et qui en sortent pour redevenir économiquement autonomes suivent de nombreux parcours différents. Nous nous proposons d'examiner s'il est possible d'estimer par des méthodes inductives la probabilité d'une série de parcours individuels dans le système de sécurité sociale, et de mesurer la fiabilité de ces estimations. On veut établir des modèles pour identifier assez tôt certains types de parcours à risques (ceux qui ne laissent quasiment aucune chance de réinsertion dans le monde du travail). On veut évaluer aussi dans quelle mesure les indicateurs calculés selon cette méthode pourront être établis périodiquement et publiés.