Faculty of Informatics Vienna University of Technology Institute of Computer Aided Automation PRIP Home PRIP Home
Personal tools
You are here: Home Teaching Informatikpraktika Video Object Segmentation/Automatic Model Extraction

Video Object Segmentation/Automatic Model Extraction

Betreuer: Walter G. Kropatsch

Problemstellung

Die Grundidee (der bereits bestehenden Arbeit) ist eine Szene in Vordergrund und Hintergrund zu segmentieren, wobei der innovative Teil der Methode darin besteht, dass zusätzlich Artikulationspunkte von Objekten gefunden werden können. Dadurch ist eine Beschreibung von Szenen und ihrer Objekte möglich, die nicht nur sehr interessant ist, sondern auch nützlich für anderen Methoden sein kann, wie z.B. zum Initialisieren eines Tracking-Verfahrens.

Die Segmentierung der Szene funktioniert mit einem sehr einfachen und intuitiven Ansatz. Man beobachtet die Szene in einem Video und auf Grund der Bewegung von Features (Corner Points) über die Zeit kann man Annahmen über Vorder- und Hintergrund und mögliche Artikulationspunkte treffen. Die Analyse der Szene passiert im Kontext eines planaren und triangulierten Graphen dessen Knoten die beobachteten Features sind. Das Verhalten jedes Dreiecks des Graphen über die Zeit gibt Aufschluss darüber, ob es den starren Teil eines Objekts (rigid), einen Artikulationspunkt (articulated) oder eine Verbindung zwischen Hinter- und Vordergrund oder unterschiedlichen Objekten (separating) beschreibt. Um die Dreiecke zu kategorisieren wird eine einfache Statistik über die Veränderung der Länge der Kanten jedes Dreiecks über die Zeit erstellt. Die Entscheidung welches Label (rigid, articulated oder separating) einem Dreieck zugewiesen wird hängt von der zuvor erwähnten Statistik ab und funktioniert nach einem logischen und einfachen Prinzip:

Ein Dreieck wird als "rigid" markiert, wenn sich die Länge aller seiner drei Kanten nicht oder nur wenig über die Zeit verändert. Das Label "articulated" wird vergeben, wenn sich eine Kante merkbar verändert. Ein Dreieck erhält das Label "separating", wenn zwei oder drei seiner Kantenlängen starken Änderungen unterliegen.

Die folgende Abbildung zeigt einfache Beispiele für die drei Labels (Kategorien).

labeling.gif

Nachdem jedem Dreieck ein Label zugewiesen wurde erhält man als Ergebnis einen triangulierten Graphen der die Szene beschreibt. In der nächsten Abbildung sieht man einige erste Ergebnisse.

result01.jpg
Resultat für rigide Objekte ohne Artikulation. (Die Dreiecke mit dem Label "separating" werden nicht angezeigt.)

result02.jpg
Resultat mit einem artikulierten Objekt.

Details zu den Ergebnissen und der Methode siehe Forschungsprojekt TWIST und Literatur.

Literatur

Das folgende Paper erklärt im Detail wie die Methode funktioniert und zeigt erste Ergebnisse:

Salvador B. López Mármol, Nicole M. Artner, Adrian Ion, Walter G. Kropatsch and Csaba Beleznai. Video Object Segmentation Using Graphs. 13th Iberoamerican Congress on Patter Recognition, Havana, Cuba, 04. - 09. September 2008.

Publiziert von Springer: http://www.springerlink.com

Zielsetzung

  • Effiziente Implementierung der bestehenden Methode
  • Tests und Benchmarks
  • Erweiterung und Verbesserung der Methode (Wahl der Features, Skalierungsinvarianz, perspektivische Transformationen, ...)
  • Erstellen eines Technical Reports als Dokumentation

Es besteht die Moeglichkeit eine Diplomarbeit anzuschliessen.