Faculty of Informatics Vienna University of Technology Institute of Computer Aided Automation PRIP Home PRIP Home
Personal tools
You are here: Home Teaching Informatikpraktika Ein Wahrnehmungsmodell für die automatische Erkennung von Tabellen in PDF-Dokumenten

Ein Wahrnehmungsmodell für die automatische Erkennung von Tabellen in PDF-Dokumenten

Status des Praktikums: offen
Betreuer: Walter G. Kropatsch

Problemstellung

Die Forschungsbereiche Document analysis und Document understanding beschäftigen sich mit der Erkennung von Strukturen in Dokumenten wie Überschriften, Absätzen und Tabellen, welche der menschliche Betrachter sofort und ohne Aufwand erkennen kann.

Bei herkömmlichen Methoden werden allgemeine Formatierungskonventionen und Wahrnehmungsprizipien in Regeln beschrieben. Diese ermöglichen die programmatische Wiedererkennung dieser Strukturen.

2007 wurde ein an der TU Wien entwickelter Algorithmus für die Tabellenerkennung in PDF-Dateien veröffentlicht [Hassan & Baumgartner 2007]. Wei bei herkömmlichen Methoden wird zuerst eine Segmentierung durchgeführt. Nachfolgend werden die (Kandidat)-Spalten, dann die Zeilen und schließlich die ganzen Tabellen gefunden auf einer Seite.

Diese Vorgehensweise hat einen großen Nachteil: Fehler, welche aufgrund mangelder Informationen auf einer niedrigen Ebene auftreten, können nicht später nachbessert werden, wenn zusätzliche Informationen auf einer höheren Ebene verfügbar sind. Durch eine bessere Modellierung einer Tabelle könnte dieser Nachteil behoben und eine bessere Robustheit bzw. ein besseres Recall erreicht werden.

Es wird vorgeschlagen, dass ein multigranulares Modell wie in [Wang et al. 2004] hier Anwendung findet.

Literatur:

[Hassan & Baumgartner 2007] Hassan, T., Baumgartner, R.: Table Recognition and Understanding from PDF Files, ICDAR 2007, Curitiba, Brazil.

[Wang et al. 2004] Wang, Y., Philips, I.T., Haralick, R.M.:Document Analysis: Table Structure Understanding and Zone Content Classification, Pattern Recognition 2004

Zielsetzung

Ziel dieses Praktikums ist die Umsetzung und Evaluierung eines multigranularen Wahrnehmungsmodells für die automatische Erkennung von Tabellen in PDF-Dokumenten. Experimente werden durchgeführt, damit das Ausmaß der Verbesserung gegenüber herkömmlichen Methoden gemessen werden kann.

Das in [Hassan & Baumgartner 2007] beschriebene System, welches in Java programmiert wurde, sowie ein Testdatensatz werden zur Verfügung gestellt.

Sonstiges

Dieses Praktikum wird von Prof. Walter Kropatsch und Tamir Hassan betreut.
Es besteht die Möglichkeit, eine Diplom- bzw. Masterarbeit anzuschließen.

Bei Interesse wird gebeten, eine Email an Tamir Hassan (tam [at] prip.tuwien.ac.at) zu schreiben.