Ein Wahrnehmungsmodell für die automatische Erkennung von Tabellen in PDF-Dokumenten
Status des Praktikums: offen
Betreuer:
Walter G. Kropatsch
Problemstellung
Die Forschungsbereiche Document analysis und Document understanding beschäftigen sich mit der Erkennung von Strukturen in Dokumenten wie Überschriften, Absätzen und Tabellen, welche der menschliche Betrachter sofort und ohne Aufwand erkennen kann.
Bei herkömmlichen Methoden werden allgemeine Formatierungskonventionen und Wahrnehmungsprizipien in Regeln beschrieben. Diese ermöglichen die programmatische Wiedererkennung dieser Strukturen.
2007 wurde ein an der TU Wien entwickelter Algorithmus für die Tabellenerkennung in PDF-Dateien veröffentlicht [Hassan & Baumgartner 2007]. Wei bei herkömmlichen Methoden wird zuerst eine Segmentierung durchgeführt. Nachfolgend werden die (Kandidat)-Spalten, dann die Zeilen und schließlich die ganzen Tabellen gefunden auf einer Seite.
Diese Vorgehensweise hat einen großen Nachteil: Fehler, welche aufgrund mangelder Informationen auf einer niedrigen Ebene auftreten, können nicht später nachbessert werden, wenn zusätzliche Informationen auf einer höheren Ebene verfügbar sind. Durch eine bessere Modellierung einer Tabelle könnte dieser Nachteil behoben und eine bessere Robustheit bzw. ein besseres Recall erreicht werden.
Es wird vorgeschlagen, dass ein multigranulares Modell wie in [Wang et al. 2004] hier Anwendung findet.
Literatur:
[Hassan & Baumgartner 2007] Hassan, T., Baumgartner, R.: Table Recognition and Understanding from PDF Files, ICDAR 2007, Curitiba, Brazil.
[Wang et al. 2004] Wang, Y., Philips, I.T., Haralick, R.M.:Document Analysis: Table Structure Understanding and Zone Content Classification, Pattern Recognition 2004
Zielsetzung
Ziel dieses Praktikums ist die Umsetzung und Evaluierung eines multigranularen Wahrnehmungsmodells für die automatische Erkennung von Tabellen in PDF-Dokumenten. Experimente werden durchgeführt, damit das Ausmaß der Verbesserung gegenüber herkömmlichen Methoden gemessen werden kann.
Das in [Hassan & Baumgartner 2007] beschriebene System, welches in Java programmiert wurde, sowie ein Testdatensatz werden zur Verfügung gestellt.
Sonstiges
Dieses Praktikum wird von Prof. Walter Kropatsch und Tamir Hassan betreut.
Es besteht die Möglichkeit, eine Diplom- bzw. Masterarbeit anzuschließen.
Bei Interesse wird gebeten, eine Email an Tamir Hassan (tam [at] prip.tuwien.ac.at) zu schreiben.
