Contrôles de plausibilité par des techniques du machine learning

Situation initiale

Les offices statistiques effectuent des contrôles de plausibilité pour vérifier la qualité et la fiabilité des données administratives et des données collectées par voie d'enquête. Les données qui paraissent erronées ou douteuses sont renvoyées à leurs fournisseurs, qui sont priés de les corriger ou de les expliquer. Les contrôles de plausibilité sont généralement réalisés de deux manières: soit par des contrôles manuels, soit par des méthodes automatisées basées sur des valeurs limites et des tests logiques. L’alternance des deux types de contrôles nécessite beaucoup de ressources. Dans certains cas, les données sont entièrement révisées à la main par les collaborateurs de l'office; dans d'autres cas, on opère selon des règles, mais là encore des contrôles supplémentaires restent parfois nécessaires. La méthode basée sur des règles, où l'on s'appuie sur l'expérience acquise, ne garantit pas toujours une plausibilisation complète et précise. Le machine learning pourrait nous aider à effectuer les contrôles en moins de temps et avec plus de précision. La méthode envisagée consiste, dans un premier temps, à exercer un algorithme sur des données historiques. Ensuite on définit, sur la base d'une analyse préalable des données, une variable cible que l'algorithme devra prédire. L'algorithme est alors utilisé pour la prédiction. Enfin, on compare les valeurs prédites et les valeurs réelles des variables cibles et on évalue la précision des prédictions. Au final, on a encore besoin d'un mécanisme de feed-back pour transmettre automatiquement des explications aux fournisseurs des données.

Données et procédure

La base de données mise à jour chaque année est un appariement de données anonymisées et couplées sur le personnel des universités et les étudiants, issues du Système d'information universitaire suisse pour les quatre dernières années. Ces données sont complétées par d'autres chiffres clés statistiques. Un algorithme (Gradient Boosting Machines) est entraîné à prédire la catégorie de personnel des hautes écoles universitaires pour l'année en cours. Si la catégorie de personnel ne correspond pas, un mécanisme de feed-back est utilisé pour déterminer de quelles variables cela pourrait dépendre. Puis, la situation est clarifiée avec les hautes écoles. Chaque année, la réutilisation du dernier modèle est vérifiée à l'aide de plusieurs approches (stabilité de la population et suivi du modèle).

Résultats

Afin d’alléger la charge de travail des livreurs de données, le mécanisme de feedback a été vérifié avant l'envoi. Ainsi, des cas problématiques pour lesquels la probabilité de trouver une erreur semblait particulièrement élevée ont été signalés. De plus, des informations supplémentaires ont été rajoutées à ces cas.

Les livreurs de données ont pu confirmer que tous les cas problématiques sélectionnés (erreurs potentielles) étaient corrects, même ceux qui se produisent parfois rarement. D'autres retours d'information de la part des livreurs de données sur les cas potentiellement problématiques ont permis de constater qu'il peut y avoir plusieurs raisons structurelles aux écarts.

Avec le calcul d'un indice de stabilité de la population, un module a été ajouté afin de vérifier la répartition entre les années et d'évaluer la pertinence de l’utilisation de l'algorithme précédent. La répartition des données par catégorie de personnel, par haute école et pour les autres données fournies ne différait pas sensiblement d'une année à l'autre.

Après chaque relevé, l'algorithme a été réentraîné avec les données les plus récentes. La précision très élevée de ces modèles réentraînés chaque année est restée stable. La précision des modèles de prédiction de la catégorie de personnel a également peu changé lorsque les modèles ont été appliqués aux données d'autres années.

La qualité des données de la statistique du personnel étant très élevée, les contrôles de plausibilité par machine learning ne sont pas implémentés par défaut dans les travaux de contrôle. En cas de besoin de la part des hautes écoles, l'algorithme peut être réutilisé.

Lors de l'application de l'approche de ce projet à d'autres projets, il serait important d'identifier dans un premier temps de grandes différences structurelles inhérentes aux données d'entrée afin de les intégrer, le cas échéant, dans le développement de l'application de l'algorithme à des données particulières. L'algorithme peut également être appliqué sous différentes conditions cadres. Il est évolutif et réutilisable avec des adaptations.