Summary

English version:
(German version below.)

Currently in computer vision, tracking of objects (e.g. pedestrian) in video sequences is mainly accomplished by statistical methods. In this project however, we chose a different strategy to solve this task: we avoided popular and established statistical methods and employed methods based on structure with the intention to be more robust, transparent and comprehensible.

We understand structure as the spatial arrangement and the relationships of basic entities of an image (pixels, regions and objects, e.g. the parts of a human body and their connection). We use graphs (consisting of vertices associated with the basic entities connected by edges) or graph pyramids (consisting of several levels of progressively smaller graphs) to describe this structure, where the latter form a multi-resolution description. Such a description of a human could be the following: in the base level of the pyramid there is a graph describing all pixels which belong to the human and their neighborhood relationships, in the middle there is a graph representing each part of the human body as a vertex and its connectivity as edges, and in the top level there is only one vertex representing and describing the position, orientation and identity of the human.

In the course of this basic research project, we used graphs and graph pyramids to describe and track objects in videos. The results showed that structural descriptions can improve the robustness of existing tracking methods. Especially, in difficult situations when the tracked object is similar to other objects in the scene (following a human in a group of pedestrians) or the part of the object is occluded by other objects in the scene, we were able to show the advantages and strengths of the structural relationships.

The successful tracking of objects also requires the solution of related task in computer vision: segmentation (splitting a scene into reasonable parts/regions), object recognition, and finding correspondences in images. All these tasks have been accomplished with the help of structural descriptions and build a framework together with our work in tracking multiple objects.

Besides the successful application of graphs and graph pyramids as description in different computer vision tasks, it was very important to call the attention of other researchers on structural methods/descriptions. This aim was successfully realized by our numerous publications and frequent participation in and organization of scientific conferences and workshops. Nevertheless, our research showed several new open issues which need to be addressed in future.

German version
(English version above.)

Im Maschinellensehen (Computer Vision) werden heutzutage hauptsächlich statistische Methoden verwendet, um Objekte (z.B. Fußgänger) in einer Bildsequenz zu verfolgen (Tracking). In diesem Projekt haben wir jedoch einen anderen Weg gewählt: wir vermieden beliebte und bekannte statistische Methoden und verwendeten stattdessen Methoden basierend auf Struktur, mit dem Ziel robuster, transparenter und nachvollziehbarer zu sein als aktuelle Methoden.

Unter Struktur verstehen wir die räumliche Anordnung und Nachbarschaften von elementaren Einheiten (Bestandteilen) in einem Bild (Bildpunkte, Regionen oder Objekte, z.B. die Körperteile eines Menschen und wie sie verbunden sind). Um diese Struktur zu beschreiben, verwendeten wir Graphen (bestehend aus Knoten assoziiert mit den elementaren Einheiten verbunden durch Kanten) oder Graphpyramiden (zusammengesetzt aus mehreren Ebenen von stufenweise kleineren Graphen), wobei Letztere eine Beschreibung mit unterschiedlichen Detailgraden ermöglichen. So eine Beschreibung eines Menschen könnte folgendermaßen aussehen: in der untersten Ebene befindet sich ein Graph der alle Bildpunkte, die den Menschen darstellen und ihre Nachbarschaften beschreibt, in der Mitte der Pyramide ist ein Graph dessen Knoten die Körperteile des Menschen und dessen Kanten ihre anatomische Struktur repräsentieren und im obersten Level befindet sich nur ein einziger Knoten, der die Position, Orientierung und Identität des Menschen repräsentiert und beschreibt.

Im Zuge dieses Grundlagenforschungsprojektes haben wir Graphen und Graphpyramiden eingesetzt, um Objekte zu beschreiben und in Bildsequenzen zu verfolgen. Die Ergebnisse zeigten, dass strukturellen Beschreibungen die Robustheit von bestehenden Tracking-Methoden verbessern können. Besonders in schwierigen Situationen, wenn das verfolgte Objekt ähnlich zu anderen Objekten in der Szene ist (Verfolgung eines Menschen in einer Gruppe von Fußgängern) oder teilweise durch andere Objekte in der Szene verdeckt wird, zeigt die Berücksichtigung von strukturellen Beziehungen ihre Vorteile und Stärken.

Das erfolgreiche Verfolgen von Objekten setzt voraus, dass auch andere, verwandte Aufgaben des Maschinellensehens gelöst werden. Dazu zählen: Segmentierung (Zerlegung einer Szene in sinnvolle Teile/Regionen), Objekterkennung, und finden von Korrespondenzen in Bildern. Alle diese Aufgaben wurden im Projekt mit Hilfe von strukturellen Beschreibungen gelöst und bilden gemeinsam mit der Verfolgung von mehreren Objekten ein Framework.

Neben dem erfolgreichen Einsatz von Graphen und Graphpyramiden in verschiedenen Aufgaben des Maschinellensehens, war es auch sehr wichtig andere Forscher auf strukturelle Methoden/Beschreibungen aufmerksam zu machen. Dieses Ziel haben wir durch die Publikation von zahlreichen wissenschaftlichen Artikeln und die Teilnahme an und Organisation von Konferenzen und Workshops erfolgreich umgesetzt. Nichtsdestotrotz zeigte unsere Forschung neue, offene Probleme auf womit wir uns in der Zukunft befassen wollen.

Last modified: May 12, 2010 by Nicole M. Artner