Pattern Recognition and Image Processing Group Institute of Visual Computing and Human-Centered Technology |
Former (1990-2021) |
186.841 UE Einführung in die Digitale Bildverarbeitung (EDBV) - Hall of Fame
Best of WS 2019/2020
Stimmungseinschätzung anhand von Portraitaufnahmen
Team: Robert Angerer, Alexander Cech, Maria Elisa Barillas Molina, Emmanuel Najfar, Daniela Wolf
Das Ziel der Software ist es, Emotionen in menschlichen Gesichtern zu erkennen und die erkannte Stimmung einer vorher festgelegten Stimmungsklasse zuordnen.
- Gesichtserkennung mittels Haar-Like-Features
- Ermittlung der horizontalen Augen-Achse: Der Graustufen-Gradient des Bildes wird in X-Richtung bestimmt, und anschließend für jede Bildzeile dessen Absolutwert summiert. Das Maximum in dem sich daraus ergebenden Histogramm liefert die Vertikalposition der Augen-Achse.
- Ermittlung der horizontalen Mund-Achse durch eine chrominanzbasierte Methode
- Ermittlung der vertikalen Symmetrie-Achse: Aus empirischen Daten wird eine Region of Interest bestimmt, die die Nase enthält. Im entsprechenden Bildbereich wird eine Graustufen-Summation in Y-Richtung durchgeführt; der Maximalwert des entsprechenden Histogramms liefert die horizontale Position der Symmetrieachse
- Berechnung der primären Feature-Point-Kandidaten: Die (vorläufigen) Koordinaten von 38 Feature-Points werden auf Basis der Bounding-Box-Dimensionen, der ermittelten Achsen, und empirischer (anthropometrischer) Relationen berechnet.
- Feature-Points-Bestimmung: Um jeden der Kandidaten-Feature-Points wird ein quadratischer Bildausschnitt definiert (dessen Größe abhängig von der Größe der Bounding-Box und dem Typ des jeweiligen Kandidaten ist). In diesem Bildausschnitt wird eine Eckenerkennung nach Shi / Tomasi durchgeführt, und die Koordinaten des finalen Feature-Punkts als die stärkste erkannte Ecke festgelegt. Alternativ wurde auch die Eckenerkennung nach Harris implementiert, da diese schneller ist und gleich gute Ergebnisse lieferte.
- Klassifikation mittels Support Vector Machine
Ergebnisse:
Poster der GruppePalm Tracking and Gesture Computer Controlling
Team: Thomas Brezina, Klaus Hahnenkamp, Gerhard Pazout, Robert Sowula, Viljam Virtanen
Das Ziel ist es, den Cursor per Webcam Livefeed steuern zu können. Dabei wird die Spitze des Zeigefingers als Referenzpunkt genommen, um die Cursorposition zu bestimmen.
- Referenzbildaufnahme von Hintergrund (ohne Hand)
- Segmentierung Hand/Hintergrund
- Analyse der Handfarbe
- Konvertierung in HSV Farbraum
- Binarization
- Entfernung aller Objekte bis auf die Hand
- Finger identizieren und Tracken
- Cursor Interaktion am PC
Ergebnisse:
Poster der GruppeBlatt-Flugbahn-Unterscheidinator
Team: Kronsteiner Mirjam, Lippert Clemens, Nyikos Peter, Schett Martin, Wolfsdorf Leander
Das Ziel ist es, Videos von fallenden Blättern einer Baumart zuzuordnen. Aus praktischen Gründen beschränkt sich dieses Projekt darauf, nur Ahorn- von Buchenblätter zu unterscheiden. Die Ausgabe erfolgt auf mehrere Arten: einerseits wird ein Bild der erkannten Fallbahn generiert, andererseits erfolgt zum Schluss auch eine textuelle Ausgabe der erkannten Baumart. Weiters werden Graphen für die verschiedenen Fallrichtungen generiert.
- Eingabe der gewünschten Videos mittels GUI.
- Optical Flow Detection mit der Horn-Schunck-Methode um Flugbahn, bzw. Bewegungs-Vectoren aufzuzeichnen.
- Pro Frame für jede der 4 Himmelsrichtungen (oben, unten, links, rechts) die Anzahl und Länge der Bewegungsvektoren aufzeichnen.
- Vergleich der aufgezeichneten Bewegungsvektoren mit den Erwartungswerten der verschiedenen Blätter.
Ergebnisse:
Poster der GruppeAugen für Pascal
Team: Aaron Wedral, Christoff Kügler, Konstantin Lackner, Miachel Rubik, Renaj Kumar
Ziel ist es, Stellen bei einem Inputbild zu erkennen, die für rotgrünblinde oder -schwache Menschen Schwierigkeiten bereiten können. Diese Problembereiche sollen anschließend markiert und umgefärbt werden.
- Konvertierung RGB in HSV um Problemfarbenbereiche klarer trennen zu können
- Festlegen der Problemfarbenpaare durch Farbvergleichsüberprüfungen der Benutzerinnen und Benutzer.
- Für jedes gefundene Problemfarbenpaar:
- Schwellwertoperation zur Erkennung von Problemfarben im Bild
- Erstellen eines Dreifarbenbildes mit Problemfarbe 1, Problemfarbe 2 und allen restlichen im Original auftretenden Farben als Schwarz
- Laplace zur Detektion aller Kanten im Dreifarbenbild
- Erstellen eines Zweifarbenbildes mit Problemfarbe 1 und 2 verschmolzen als Weiß und allen restlichen im Original auftretenden Farben als Schwarz
- Laplace zur Detektion aller Kanten im Zweifarbenbild
- Subtraktion der Kanten des Zweifarbenbildes von jenen des Dreifarbenbildes, um die Kanten zwischen den Problemfarben zu erhalten
- Region Growing um Problembereiche um die Problemkanten zu finden
- Umfärben der Problembereiche mittels Übersetzung in den besser unterscheidbaren Blaubereich
- Laplace, um Kanten der umgefärbten Bereiche zu finden
- Markieren der umgefärbten Problembereiche
Ergebnisse:
Poster der GruppeStiegl Kronkorken Code-Erkennung
Team: Levent Dag, Martin Gaal, Damian Jäger, Gerald Kimmersdorfer, David Kyselka
Das Ziel ist das automatische Erkennen von 9-stelligen Codes auf der Innenseite von Stiegl-Kronkorken.
- Bildskalierung
- Kantenlterung nach Sobel
- Kreisdetektion durch Circular Hough-Transformation
- Statistische Erkennung als Kronkorken
- Auflösung in mehrere Einzelbilder
- Kantenerkennung per Schwellwert
- Connected-Component-Labeling
- Ausrichtung der Codes anpassen
- Texterkennung mittels lernbarer Buchstaben-Masken
Ergebnisse:
Poster der GruppeWordcounter for handwritten text
Team: Ebubekir Demirhan, Philipp Gartner, Ye-Ryun Kim, Benedikt Klinglmayr, Samo Kolter
Ziel des Projekts war es, ein Programm zu entwickeln, das die Wörterzahl in einem handgeschriebenen Text erkennen kann. Am Ende soll dem/der Benutzer*in die Anzahl der Wörter und eine Vorschau der erkannten Wörter angezeigt werden.
- Grayscale: Farbbilder werden in Graustufen-Bilder umgewandelt.
- Glättungslter (Vorverarbeitung des Input-Bildes): De-Noising und Glättung von kleinen Artefakten (bspw.: Schatten oder Tintenflecken)
- Mathematische Morphologie: Closing und Opening Operationen werden angewandt, um kompaktere und genauere Abgrenzungen der Wörter zu erhalten
- Threshold: Erzeugung eines Binärbildes fär die Histogramm-Projektion im nächsten Schritt
- Histogrammprojektionen: Projektionen in y- und x-Richtung um Histogramme für 'Zeilen' und 'Wörter pro Zeile' zu erhalten
- Histogramm Analyse: Anhand des Histogramm-Musters Wörter abzählen
Ergebnisse:
Poster der GruppeLib-Indexer
Team: Anand Eichner, Lauirenz E. Fiala, Anna Nieto-Berezhinskaya, Aleksandar Vucenovic
Der Lib-Indexer soll aus einem Bild eines Bücherregales der TU Wien Bücher erkennen und den Inhalt der Etiketten als strukturierten Text ausgeben.
- Ein Bild eines Bücherregals der TU-Bibliothek wird eingelesen
- Mittels einer Hough-Transformation und einer geometrischen Verzerrung wird die Perspektive des Bildes korrigiert. Nach diesem Schritt sind die Regalfächer horizontal im Bild.
- Ein Otsu-Threshold wird genutzt, um die Labels vom Bildhintergund abzugrenzen.
- Ein Harris-Eckendetektor erkennt die Ecken der Buchetiketten.
- Mit dem relativen Abstand zwischen den Regalfachern wird ein Akzeptanzbereich für die Dimensionen der Etiketten erstellt.
- Integral Imaging wird genutzt, um den Label-Hintergrund mit dem Text zu Vergleichen. Wenn das Verhältnis im Akzeptanzbereich liegt, wird das Label an die OCR weitergereicht.
- Optical Character Recognition wird genutzt, um die Schrift auf den Etiketten vom Bild in Textform umzuwandeln (Es werden zwei Arten unterstützt: Sum of Squared Differences und Normalized Cross-Correlation).
Ergebnisse:
Poster der Gruppe2014-2020 PRIP, Impressum / Datenschutzerklärung
This page is maintained by Webmaster ( webmaster(at)prip.tuwien.ac.at ) and was last modified on 02. March 2020 15:53