Insgesamt 12'200 handschriftlich ausgefüllten Erhebungsformulare enthalten Informationen zu der Anzahl durchgeführter und bestandener Lehrabschlussprüfungen, erwartete Lehraustritte sowie Details bezüglich den Lehrverträgen pro Kanton im jeweiligen Erhebungsjahr.
Ein Datensatz, welcher für die Bildungs- und Wirtschaftsgeschichte wichtige Informationen enthaltet.
Informationsextraktion aus statistischen Erhebungsformularen von 1935-1969.
12’200 handschriftlich ausgefüllte Formulare
Stefan Kessler, Operative Projektleitung "Bildung in Zahlen"
Im Rahmen des Forschungsprojektes «Bildung in Zahlen» analysierte das Institut für Erziehungswissenschaften der Universität Zürich Erhebungsformulare der Jahre 1935 bis 1969 aus der Lehrvertragsstatistik des ehemaligen Bundesamtes für Industrie, Gewerbe und Arbeit. Die Formulare enthalten Angaben zu der Anzahl abgeschlossener Lehrabschlussprüfungen, erwartete Lehraustritte, Details zu den Lehrverträgen pro jeweiligen Kanton und vieles weiteres. Der Datensatz ist unter anderem die Bildungs- und Wirtschaftsgeschichte von grosser Bedeutung, jedoch waren die Dokumente nur in physischer und handschriftlicher Form verfügbar.
Als Experte im Bereich der intelligenten Dokumentenprozessierung (IDP) wurde Acodis beauftragt, die Informationsextraktion der statistischen Erhebungsformulare durchzuführen.
Zu Beginn wurden insgesamt 12'200 Erhebungsformulare manuell abfotografiert und übermittelt. Die Formulare wiesen fünf unterschiedliche Layouts auf und je nach Jahrgang gab es auch Unterscheidungen in den Handschriften. Um die Informationen dennoch digital abbilden zu können, wurde «Intelligent Character Recognition» eingesetzt, was die Extraktion von handschriftlichen Daten ermöglicht.
Um die Validierung der extrahierten Werte zu vereinfachen, wurde ein Webeditor entwickelt, welcher den Export in ein beliebiges Datenformat erlaubt. Der Aufbau, wie auch die Nutzung, sind leicht verständlich und erfordern keine lange Einarbeitungszeit.
Dank der automatisierten Digitalisierungslösung sparte das Projektteam etliche Arbeitsstunden, welche für die manuelle Dokumentenverarbeitung benötigt worden wären. Zusätzlich konnten alle Informationen in digitaler Form zugänglich gemacht werden, die für künftige Forschung von grossem Interesse sind.