Einführung in die PDF-Struktur-Extraktion

Mitchell Sloan
Post by Mitchell Sloan
Januar 26, 2022
Einführung in die PDF-Struktur-Extraktion
Das Verständnis der Struktur eines Dokuments ist ein entscheidender Schritt zur Erstellung der besten Datenanalyse.

Warum?

Die Extraktion von Dokumentstrukturen bedeutet, dass Ihr Team den gesamten Inhalt eines Dokuments verstehen und extrahieren kann, nicht nur einzelne oder spezifische Datenpunkte. 

Mit der Strukturextraktion können Sie nun Titel, Tabellen oder Diagramme in Sekundenschnelle extrahieren (ohne unsinnige Kodierung).

Inhaltsübersicht

  • Was ist eine Dokumentstruktur?
  • Warum brauchen Sie eine Strukturextraktion?
  • Extrahieren spezifischer Datenpunkte in acht Schritten
  • Fertigstellung strukturierter Daten

Was ist eine Dokumentenstruktur?

Dokumentstrukturen helfen Ihnen, komplexe Informationen zu organisieren. Mit der Hilfe der, so genannten, "Layout-Segmentierung" können Benutzer eine Seite in einzelne Blöcke unterteilen, wie zum Beispiel:

  • Abbildungen 
  • Textblöcke 
  • Textzeilen 
  • Wörter 
  • Schriftzeichen

Warum brauchen Sie eine Strukturextraktion?

Vereinfacht die Extraktion von PDF-Daten

Strukturextraktion ersetzt alle Albträume, die mit der Datencodierung verbunden sind, durch eine schnelle Methode zur Extraktion von Dokumentdaten mit nur wenigen Klicks. 

Ganz gleich, ob Ihr Team aus Datenwissenschaftlern eine Stichprobe von Dokumenten auswerten muss oder Ihre Businessexperten eine schnelle Datenanalysen benötigen, Strukturextraktion bietet jedem Team das grundlegende Werkzeug zum Auffinden, Verwenden und Speichern von Daten.

Versteht Ihre Daten wie ein Mensch

Die Strukturextraktionsplattform ist in der Lage, jedem Block eine Bedeutung zuzuordnen, zum Beispiel: "Dieser Textblock ist eine Überschriftsebene", "Diese Tabelle hat die Überschrift 'Durchschnittsprämien' und gehört zu Kapitel X". 

Anhand der Informationen, welche Art von Daten jeder Block enthält, kann die Strukturextraktion den Inhalt eines Dokuments rekonstruieren und eine komplexere Analyse vornehmen.

Group 322

Eine Analogie: Wie das Überfliegen eines Buches

Wir können die Strukturextraktion mit jemandem vergleichen, der ein Buch überfliegt. Die Person versucht, so viele Informationen wie möglich aufzunehmen und nach relevanten Informationen zu suchen, ohne alles lesen zu müssen. 

Aber warum überfliegen Menschen Informationen? Um sich Zeit und Mühe zu ersparen; um direkt zu dem zu gelangen, wonach sie suchen. 

Die Strukturextraktion bietet den Nutzern genau diese Möglichkeit - sie ermöglicht es Ihnen, bestimmte Informationen schnell zu finden, ohne dass Sie das gesamte Dokument studieren müssen.

Strukturextraktion in acht Schritten

In Acodis gibt es mehrere Schritte, die Sie durch die gesamte Extraktion der Dokumentstruktur führen. Der Benutzer kann, abhängig von seinen Zielen, genau auswählen, was er extrahieren möchte.

Am Ende haben Sie die Möglichkeit, ein JSON zu exportieren oder die API zu verwenden, um Ihre bevorzugte Anwendung zu verbinden. Weitere Informationen zur Integration/API mit Acodis finden Sie hier. 

Document structure extraction process

(Die Abbildung zeigt ein Beispiel der Optionen zur Extraktion von Strukturen mit Acodis..)

1. Identifizieren von nativem Text

Gibt Ihnen die Möglichkeit, den gesamten Text zu identifizieren und extrahieren.

2. Erkennen der hierarchischen Ordnung

Die Lesereihenfolge bezieht sich darauf, wie die Leser das gesamte Dokument wahrnehmen sollen: wo ist die Titelseite, wo der Anhang, usw.

3. Relevante Titel extrahieren 

Mit Hilfe von Kopfzeilen lassen sich leicht die "Abschnitte" eines beliebigen Dokuments definieren, die angeben, wo sich bestimmte Daten befinden. Für viele, die das Layout ihrer Dokumente analysieren müssen, ist es von grundlegender Bedeutung, die Informationen/Orte der Hauptüberschriften zu verstehen.

Während dieser Prozess bei einseitigen Dokumenten einfach ist, kann es eine zeitraubende Aufgabe sein, wenn Sie Hunderte von PDFs auf einmal bearbeiten.

4. Kennzeichnung von Abbildungen (z. B. Tabellen, Bilder usw.)

Einige Dokumente enthalten zwar einen Anhang, in dem angegeben ist, wo sich die Abbildungen im Dokument befinden, aber es kann zeitaufwändig sein, sie tatsächlich zu finden, wenn sich die Dokumentlandschaft über Hunderte von Seiten erstreckt. Dies ist nun nicht mehr der Fall und kann mit einem einzigen Klick erledigt werden.

Wenn der Benutzer "Abbildung" auswählt, werden alle relevanten Inhalte auf allen Dokumentseiten hervorgehoben.

Gut zu wissen: Darüber hinaus werden alle Inhalte, die in diesen Abbildungen enthalten sind, in strukturierte Informationen umgewandelt, so dass Sie alle darin enthaltenen Daten analysieren können.

5. Text-Aggregation

Wenn ein Text auf mehrere Seiten aufgeteilt wird, erfährt er eine Reihe von Umwandlungen.

Zum Beispiel:

  1. Lange Wörter werden durch Bindestriche getrennt
  2. Absätze werden auf Spalten oder Seiten aufgeteilt
  3. Aufzählungen werden auf Seitenumbrüche aufgeteilt
  4. Text wird von Abbildungs- oder Tabellenbeschriftungen durchzogen

Bei der Textaggregation wird schliesslich versucht, diese Umwandlungen rückgängig zu machen und den ursprünglichen Text wiederherzustellen.

6. Entfernen von Rauschen in PDFs

Wenn wir von "Rauschen" sprechen, meinen wir nicht, dass Ihre Dokumente zu laut sind, sondern vielmehr, dass alle sich wiederholenden Elemente, die nicht zum normalen Inhalt eines Dokuments beitragen, verwaltet werden müssen. Dazu gehören:

Teile einer Seite:
  1. Seitenkopf-/Fusszeilen mit Nummern
  2. Kapitelüberschriften
Ganze Seiten:
  1. Absichtlich leere Seiten
  2. Fehlende Einträge im Inhaltsverzeichnis

Die Acodis Dokumentstrukturextraktion kann einen Grossteil des Rauschens innerhalb von Dokumenten identifizieren und dennoch alle Daten im Umfeld analysieren.

7. Analyse von Beschriftungen

Bildunterschriften sind im Allgemeinen kleine Erklärungen, die sich unterhalb von Abbildungen befinden.

Ihre Analyse liefert letztlich noch mehr Kontext zu den Abbildungen und verbessert somit die Möglichkeiten, den Inhalt eines Dokuments zu analysieren.

Automatically analysing captions in documents

Die violette Markierung zeigt, dass die Strukturextraktion in der Lage war, die Beschriftung der Tabelle zu extrahieren.

8. Fertigstellung des strukturierten Exports

Nun haben Sie die Möglichkeit, den Inhalt und die semantische Struktur als JSON zu exportieren oder Acodis via API mit Ihrer bevorzugten App zu verbinden, um die Daten in Ihrer Weiterverarbeitung zu nutzen. 

Wie Sie die Strukturextraktion nutzen können

Beispiel: Call-Center-Bot

Extrahieren Sie Inhalte aus Marketing- und Verkaufsunterlagen, um einen automatisierten Chat-Bot einzurichten, der (potenziellen) Kunden hilft, mehr über Ihr Produkt zu erfahren.

So wird diese Lösung realisiert:
  • Übergabe von PDFs an Acodis Strukturextraktion zum Abrufen von Textinhalten
  • Extrahieren von Überschriften, Absätzen, Abbildungen und Diagrammen
  • Verwendung der Acodis API, um Daten an den Chat-Bot und die Call-Center-Software zu übermitteln
Vorteile:
  • Der Bot wird ständig mit den neuesten Produktinformationen gefüttert 
  • Aktualisierte Informationen sind auch für Live-Chat-Agenten verfügbar




Wenn Sie weitere Informationen dazu wünschen oder eine kostenlose Demo erhalten möchten, wenden Sie sich an einen unserer Experten, der Sie gerne durch das Programm führt.

TALK TO AN EXPERT

 

Mitchell Sloan
Post by Mitchell Sloan
Januar 26, 2022
Content Marketing Manager