Bilderkennung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Bilderkennung (englisch image analysis) ist ein Teilgebiet der Mustererkennung und der Bildverarbeitung. In der Bilderkennung versucht man, Objekte in einem Bild zu segmentieren. Diesen wird eine symbolische Beschreibung zugewiesen, aber es wird nicht nach Zusammenhängen zwischen den Objekten gesucht, wie es in der Musteranalyse üblich ist.

Definition[Bearbeiten | Quelltext bearbeiten]

Die Bilderkennung im Kontext der Bildverarbeitung ist die Fähigkeit von Software, Objekte, Orte, Personen, Schriften und Aktionen in Bildern zu identifizieren. Computer können Bildverarbeitungstechnologien in Kombination mit einer Kamera und einer Software für künstliche Intelligenz verwenden, um Objekte in Bildern zu erzielen.

Während das Gehirn von Mensch und Tier Objekte leicht erkennt, haben Computer bis heute Schwierigkeiten mit solchen Aufgaben. Software zur Bilderkennung erfordert tiefgreifendes maschinelles Lernen. Die Leistung ist bei Faltungsprozessoren für künstliche neuronale Netze am besten, weil die spezifische Aufgabe aufgrund ihrer rechenintensiven Natur ansonsten enorme Hardwareressourcen erfordert. Bilderkennungsalgorithmen können mithilfe von vergleichenden 3D-Modellen, Auftritten aus verschiedenen Winkeln mithilfe der Kantenerkennung oder durch Komponenten funktionieren. Solche Algorithmen werden häufig auf Millionen von vorbeschrifteten Bildern mit maschinellem Lernen trainiert.[1]

Anwendungen[Bearbeiten | Quelltext bearbeiten]

Für die digitale Bilderkennung gibt es unzählige Anwendungsbereiche:

  • Objekte in Bildern großer Bilddatenbanken automatisch beschriften und taggen, z. B. bei flickr.com oder Cloud Vision API von Google.
  • Bilder bzw. Bildausschnitte von Medienprodukten erkennen und dem entsprechenden Produkt zuordnen. Zu den Produkten können dann Informationen beispielsweise Inhaltsinformationen, Genre, Zuordnung, Kritik, Reviews oder Preisvergleiche abgefragt werden.
  • Gesichtserkennung
  • Das Steuern autonomer Roboter, selbstfahrender Autos und Unfallvermeidungssysteme.
  • Passmarkenerkennung in der Industrie. Es werden Elektronische Bauteile, und Passmarken vermessen um eine möglichst genaue Bestückung zu erzielen.
  • Sortierung und Fehlererkennung, z. B. von Schüttgut, Platinen, Fotodrucken.
  • Object-based image analysis OBIA als Methode der Geographie
  • Automatisiertes Erkennen „abnormalen Verhaltens“ von Personen in den Videodatenströmen öffentlicher Überwachungskameras zur Kriminalitätsprävention, siehe das umstrittene EU-Projekt INDECT
  • Mit der App TapTapSee können Blinde die Umgebung fotografieren. Daraufhin sagt eine Stimme, was auf dem Bild zu sehen ist. So können Blinde etwa die Farbe eines Kleidungsstückes herausfinden. Die App ist kostenlos, so dass man diese Technik selbst austesten kann.[2]

Literatur[Bearbeiten | Quelltext bearbeiten]

  • H. Niemann: Pattern Analysis and Understanding. Springer Series in Information Sciences, Berlin 1990
  • A. Pinz: Bildverstehen. Lehrbücher der Informatik, Springer-Verlag

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. TechTarget: image recognition
  2. Eine Gratisapp zeigt Blinden die Welt chip.de