Schlagwort-Archive: pdf data

Maschinelle Datenextraktion aus PDF-Dokumenten mit A-PDF Data Extraktor

Wenn man Daten aus PDF-Dokumenten, z.B. Kontakt- oder Auswertungsbögen in eine Datenbank übertragen will, kann man dies automatisieren. Dieser Vorgang nennt sich Datenextraktion. Ich stelle hier die dafür sehr gut geeignete Software A-PDF Data Extractor von A-PDF vor. Als Beispiel dienen mir Visitenkarten im PDF-Format.

Wenn die zu untersuchenden PDF-Dokumente alle denselben strukturellen Aufbau haben, so ist es ein leichtes, mit geeigneter Software die Daten zu extrahieren. Bei verschieden aufgebauten PDF-Dokumenten ist die natürlich nicht so einfach möglich.

Hier sehen Sie zwei PDF-Visitenkarten von Martin Mustermann und Martina Musterfrau, die ähnlich aufgebaut sind.

 

Als Erstes muss ein Dokument in der Software geöffnet werden und die auszulesenden Stellen markiert und mit einem Datenfeldnamen versehen werden. Das ist völlig einfach und intuitiv, da fast alle zu identifizierenden Felder schon automatisch erkannt werden und vorselektiert sind. Einzelne unerwünschte Werte, Präfixe wie bspw. „Telefon:“ oder „Fax:“, können durch geschicktes Platzieren der Rahmen ausgespart werden.

Mit Hilfe dieser Regeln kann man auch die übrigens PDF-Dokumente auslesen. Dann dauert es nur wenige Sekunden, bis aus Hunderten von PDF-Dokumenten z.B. alle Überschriften extrahiert worden sind. Die Werte werden auf Wunsch in ein Excel-Sheet oder eine CSV-Datei geschrieben, die man dann weiter verarbeiten kann.

Somit stehen einer weiteren professionellen Verarbeitung der Daten in Tabellenkalkulationen oder Datenbanken keine Steine mehr im Weg.

Das Programm kann auch mit Umlauten umgehen, sowohl in den Datenfeldnamen als auch bei ausgelesenen Werten, was eher selten ist, verglichen mit den anderen von mir getesteten Anwendungen.