Contrôles de plausibilité par des techniques du machine learning

Projet

Résumé

Ce projet vise à développer et à rendre plus rapides les contrôles de plausibilité à l'OFS par l'utilisation d'algorithmes de machine learning; il vise par là même à améliorer la qualité des données.

Description

Les offices statistiques effectuent des contrôles de plausibilité pour vérifier la qualité et la fiabilité des données administratives et des données collectées par voie d'enquête. Les données qui paraissent erronées ou douteuses sont renvoyées à leurs fournisseurs, qui sont priés de les corriger ou de les expliquer. Les contrôles de plausibilité sont généralement réalisés de deux manières: soit par des contrôles manuels, soit par des méthodes automatisées basées sur des valeurs limites et des tests logiques. Ces procédures de plausi-contrôle prennent beaucoup de temps. Dans certains cas, les données sont entièrement révisées à la main par les collaborateurs de l'office; dans d'autres cas, on opère selon des règles, mais là encore des contrôles supplémentaires restent parfois nécessaires. La méthode basée sur des règles, où l'on s'appuie sur l'expérience acquise, ne garantit pas toujours une plausibilisation complète et précise. Le machine learning pourrait nous aider à effectuer les contrôles en moins de temps et avec plus de précision. La méthode envisagée consiste, dans un premier temps, à exercer un algorithme sur des données historiques. Ensuite on définit, sur la base d'une analyse préalable des données, une variable cible que l'algorithme devra prédire. L'algorithme est alors utilisé pour la prédiction. Enfin, on compare les valeurs prédites et les valeurs réelles des variables cibles et on évalue la précision des prédictions. Au final, on a encore besoin d'un mécanisme de feed-back pour transmettre automatiquement des explications aux fournisseurs des données.

Objectifs

  • Développer des contrôles de plausibilité fondés sur des techniques du machine learning.
  • Créer une fonction de feed-back automatisée, capable de transmettre aux fournisseurs des données une interprétation/explication des erreurs détectées.
  • Élaborer des idées de solution en vue d'intégrer à moyen terme les contrôles de plausibilité dans une environnement de production.
  • Établir une documentation présentant une solution modulable qui puisse être mise en œuvre dans tout l'OFS.