Automatisierung der NOGA-Kodierung - NOGAuto

Projekt

Zusammenfassung

Automatisierung der Kodierung der wirtschaftlichen Tätigkeit von Unternehmen anhand von Machine Learning Methoden, die an bereits im BFS vorhandene Daten angewandt werden (Erhebungsdaten, Beschreibung im Handelsregister, Schlüsselwörter, Erläuterungen der Nomenklaturen usw.).

Beschreibung

Die Allgemeine Systematik der Wirtschaftszweige (NOGA) ist ein Schlüsselelement der Statistikproduktion des BFS. Die Qualität der NOGA-Kodierung der im Betriebs- und Unternehmensregister (BUR) erfassten Unternehmen wirkt sich direkt auf die Ergebnisse der Struktur-, Konjunktur- und Synthesestatistiken zu den Unternehmen aus. Diese Statistiken sind auf eine stabile, kontrollierte und zuverlässige NOGA-Kodierung der BUR-Einheiten angewiesen. Zur Entlastung der Unternehmen und einer fortlaufenden Verbesserung der Kodierung zielt das Projekt darauf ab, die Zuweisung der Codes der wirtschaftlichen Tätigkeit an die Unternehmen zu automatisieren. Diese Automatisierung basiert in einem ersten Schritt auf im BFS bereits vorhandenen Daten.

Die für die NOGA-Kodierung zuständigen Mitarbeitenden Vergeben oder Kontrollieren die Codes der wirtschaftlichen Tätigkeit der Unternehmen anhand der verfügbaren Informationen (Input aus Erhebungen, Beschreibung der wirtschaftlichen Tätigkeit im Handelsregister usw.). Dies ist unvermeidbar mit einer menschlichen und somit subjektiven Interpretation der verfügbaren Informationen gekoppelt, was eine standardisierte Kodierung erschwert.

Gegenwärtig wird die Arbeit manuell vorgenommen. Die Mitarbeitenden verknüpfen anhand der verfügbaren Informationen die Beschreibungen der wirtschaftlichen Tätigkeit der Unternehmen mit den NOGA-Codes. Für die Verknüpfungen stehen Schlüsselwörter zur Verfügung, die seit 1996 in die Anwendung zur Kodierungsunterstützung, genannt KUBB, und neu auch in das Statistische Metadaten-System (SMS) des BFS eingespeist werden.

Den Mitarbeitenden stehen für die Kodierarbeit weitere Hilfen und Werkzeuge zur Verfügung, beispielswese die Erläuterungen der verschiedenen NOGA-Versionen, die Erläuterungen der CPA (Statistische Güterklassifikation in Verbindung mit den Wirtschaftszweigen in der Europäischen Wirtschaftsgemeinschaft), anhand derer eine wirtschaftliche Tätigkeit ebenfalls einem Code zugeteilt werden kann. Alle diese Informationen werden auch im SMS gespeichert.

Anhand der Machine-Learning-Methoden und der oben genannten Daten (im BFS vorhandene Daten mit anerkannter Qualität) sollen in einem ersten Schritt die Kodierung der Unternehmen und die Qualitätskontrolle automatisiert werden. Gleichzeitig erfolgt eine Standardisierung des Prozesses zur Zuteilung der Codes.

Ziele

Entwicklung eines Werkzeugs, das den im BUR registrierten Unternehmen die entsprechenden NOGA-Codes automatisch zuteilen kann. Bei der automatischen Kodierung soll mindestens dieselbe oder eine noch höhere Qualität erreicht werden wie bei der gegenwärtigen manuellen Kodierung durch die NOGA-Gruppe.

Standardisierung der Kodierung mit der Reduktion auf ein Minimum des Faktors «Interpretation» im Zuweisungsprozess der NOGA-Codes.

Qualitätssteigerung bei der NOGA-Kodierung und damit bei allen Unternehmensstatistiken.

Optimierung des Ressourceneinsatzes (Mitarbeitende).

Reduktion des Arbeitsaufwands für Unternehmen.