Theory of Visual Attention

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst. Näheres ist eventuell auf der Diskussionsseite oder in der Versionsgeschichte angegeben. Bitte entferne zuletzt diese Warnmarkierung.

Die Theory of Visual Attention (TVA, Bundesen 1990) ist eine moderne Theorie visueller Aufmerksamkeit, die mit Hilfe mathematischer Gleichungen formuliert ist. Durch ihre Komplexität kann sie viele psychologische Befunde erklären, auch solche aus Experimenten, die sich nicht mit visueller Aufmerksamkeit beschäftigen.

Die TVA ist eine vereinte Theorie des Erkennens (engl. „recognition“) und der Selektion. Während viele Theorien visueller Aufmerksamkeit diese Prozesse sowohl zeitlich als auch strukturell trennen, geht die TVA davon aus, dass beide Prozesse in einem vereinigten Mechanismus in Form eines Wettlaufs realisiert sind. Mit anderen Worten: Wenn ein Objekt im visuellen Feld erkannt wird, wird es gleichzeitig auch selektiert und vice versa.

Mit der Vereinigung von Selektion und Erkennen versucht die TVA die lange diskutierte Problematik aufzulösen, ob Selektion früh (d. h. vor dem Erkennen von Reizen, siehe Broadbent, 1958) oder spät (d. h. nach z. B. inhaltlicher Analyse der Reize, siehe Deutsch & deutsch, 1963) stattfindet.

Die TVA erklärt Aufmerksamkeit durch zwei aufeinanderfolgende Prozesse, Filtern und Kategorisieren („pigeonholing“). Auf der ersten Stufe werden die perzeptorischen Merkmale repräsentiert und gewichtet, während auf der zweiten Stufe diese Merkmale kategorisiert werden (zum Beispiel „Objekt X hat Merkmal i“ oder „Objekt X gehört zur Kategorie A“).

Während des Filterns treten alle im visuellen Feld befindlichen Objekte in einer Art Wettlauf gegeneinander an, das sich durchsetzende Objekt kann daraufhin erst kategorisiert werden. Eine solche Kategorisierung bedeutet gleichzeitig, dass das Objekt in das visuelle Kurzzeitgedächtnis (VSTM, engl. „visual short term memory“) enkodiert wurde. Ist im VSTM kein Platz vorhanden, kann das Objekt nicht kategorisiert werden und wird daher nicht bewusst verarbeitet.

Filtern[Bearbeiten]

Auf dieser ersten Stufe werden zunächst alle im rezeptiven Feld befindlichen Objekte gewichtet. Dabei ist das Gewicht eines Objektes w_x


w_x = \sum_{j\in R} \eta(x,j) \cdot \pi_j
,

wobei

  •  R die Menge aller (visuellen) Kategorien ist
    • eine visuelle Kategorie kann eine bestimmte Farbe, Form, Orientierung etc. sein
    • alle Kategorien werden „auf gleicher Ebene“ berechnet, also nicht nach Dimensionen sortiert/gewichtet
  • \eta(x,j) die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie j gehört
    • die sensorische Evidenz kann z. B. durch eine verschwommene Darstellung des Objektes verringert sein
    • die sensorische Evidenz kann z. B. durch Ähnlichkeit zu beachtenden Kategorien auch erhöht sein
  •  \pi_j die Relevanz der Kategorie j für den Beobachter ist
    • solche Kategorien, die für den Beobachter wichtiger sind, fallen mehr ins Gewicht

Somit wird top-down-Prozessen insofern Rechnung getragen, als die Relevanz einer bestimmten Kategorie für den Beobachter in die Gewichtung mit einfließt. Gleichzeitig werden durch die sensorische Evidenz auch bottom-up-Prozessen berücksichtigt.

Beispiele[Bearbeiten]

Beispiel 1 Bei einer Suchaufgabe soll ein Proband angeben, welche rote Ziffern dargeboten werden. Als Distraktoren dienen rote Buchstaben sowie blaue Ziffern und Buchstaben.

Nun kann man das attentionale Gewicht dieser Objekte berechnen:

w_x = \eta(Objekt-ist-rot) \cdot \pi_{rote-Objekte} + \eta(Objekt-ist-blau) \cdot \pi_{blaue-Objekte}

Theoretisch müssten auch alle anderen Kategorien miteinfließen, sie werden hier der Einfachheit halber weggelassen, da ihre Relevanz 0 ist und sie daher keinen Einfluss auf die Werte haben.

In diesem einfachen Beispiel lassen sich die Gewichte der einzelnen Objekte leicht berechnen. Gehen wir zunächst davon aus, dass das Gewicht der Kategorie „rot“ 0,9 und die der Kategorie „blau“ 0,1 ist. Die sensorische Evidenz sei der Einfachheit halber 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, blau nie als rot etc.).

  • w_{roter Buchstabe} = 1 \cdot 0{,}9 +  0 \cdot 0{,}1 = 0{,}9
  • w_{rote Ziffer} = 1 \cdot 0{,}9 +  0 \cdot 0{,}1 = 0{,}9
  • w_{blauer Buchstabe} = 0 \cdot 0{,}9 +  1 \cdot 0{,}1 = 0{,}1
  • w_{blaue Ziffer} = 0 \cdot 0{,}9 +  1 \cdot 0{,}1 = 0{,}1

Die blauen Objekte erhalten also nur ein sehr geringes Gewicht, während alle roten Objekte ein hohes Objekt Gewicht erhalten. Wichtig ist, dass hier Antwortkategorien wie „Ziffer“ oder „Buchstabe“ noch keine Rolle spielen, sondern nur Filterkategorien „rot“ oder „blau“.

Dieses Beispiel ist denkbar einfach, da nur Objekte einer Kategorie („rot“) zur Auswahl der Antwort berücksichtigt werden müssen. In Beispiel 2 werden nun verschiedene Kategorien zu berücksichtigen sein.

Beispiel 2 Bei einer Suchaufgabe soll ein Proband entschieden, ob ein rotes Dreieck auf der Spitze steht oder die Spitze nach oben zeigt. Als Distraktoren dienen blaue Dreiecke, blaue Kreise und rote Kreise, die gleichzeitig mit dem roten Dreieck dargeboten werden.

Nun kann man wiederum das attentionale Gewicht dieser Objekte berechnen:

w_x = \eta(Objekt-ist-rot) \cdot \pi_{rote-Objekte} + \eta(Objekt-ist-Dreieck) \cdot \pi_{Dreiecke} +\eta(Objekt-ist-blau) \cdot \pi_{blaue-Objekte} + \eta(Objekt-ist-Kreis) \cdot \pi_{Kreise}

Gehen wir davon aus, dass die Relevanz der Kategorie „rot“ 0,9, für „blau“ 0,1 für „Dreieck“ 0,6 und für „Kreis“ 0,01 ist. Die sensorische Evidenz sei der Einfachheit halber wieder 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, ein Dreieck nie als Kreis etc.). Dadurch ergeben sich für die vier Objekte folgende attentionale Gewichte:

  • w_{rotes Dreieck} = 1 \cdot 0{,}9 + 1 \cdot 0{,}6 + 0 \cdot 0{,}1 + 0 \cdot 0{,}01 = 1{,}5
  • w_{roter Kreis} = 1 \cdot 0{,}9 + 0 \cdot 0{,}6 + 0 \cdot 0{,}1 + 1 \cdot 0{,}01 = 0{,}91
  • w_{blaues Dreieck} = 0 \cdot 0{,}9 + 1 \cdot 0{,}6 + 1 \cdot 0{,}1 + 0 \cdot 0{,}01 = 0{,}7
  • w_{blauer Kreis} = 0 \cdot 0{,}9 + 0 \cdot 0{,}6 + 1 \cdot 0{,}1 + 1 \cdot 0{,}01 = 0{,}11

Somit hat also das rote Dreieck das höchste Gewicht und wird mit größerer Wahrscheinlichkeit weiterverarbeitet als alle anderen im Sichtfeld befindlichen Objekte. Es steht allerdings noch keineswegs fest, welches Objekt das „Rennen“ gewinnt oder wie dieses kategorisiert wird. Dies wird im Kategorisierungsprozess ermittelt.

Kategorisierung[Bearbeiten]

Im Rennen um Kategorisierung wird die Verarbeitungsgeschwindigkeit einer jeden Objektkategorisierung wie folgt berechnet: v(x,i) = \eta(x,i) \cdot \beta_i \cdot \frac {w_x} { \sum_{z\in S} w_z}

wobei

  •  v(x,i) die Geschwindigkeit der Kategorisierung „Objekt x ist i“ ist
    • theoretisch gibt es für jede Objekt-Kategorie-Kombination eine Verarbeitungsgeschwindigkeit
    • die Verarbeitungsgeschwindigkeit entspricht der Wahrscheinlichkeit, dass das Objekt x als i kategorisiert wird (und somit in das VSTM enkodiert wird)
  • \eta(x,i) die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie i gehört
  • \beta_i eine wahrnehmungsbezogene Antwortverzerrung bezogen auf die Kategorie i ist
    • 0 \le \beta_i \ge
    • solche Kategorien, die für die Antwortgabe relevant sind, werden höher gewichtet
  • \frac {w_x} { \sum_{z\in S} w_z} der Anteil des Gewichts von Objekt x am Gesamtgewicht aller Objekte ist

Man beachte, dass nicht jedes Objekt eine Verarbeitungsgeschwindigkeit hat, sondern jede Objekt-Kategorisierungs-Kombination. Es gibt also eine Verarbeitungsgeschwindigkeit für die Kategorisierung „Objekt x ist a“ und für die Kategorisierung „Objekt x ist b“. Jedoch wird tatsächlich das Objekt, dessen Objekt-Kategorisierungs-Kombination das Rennen gewinnt, auch in das VSTM enkodiert.

Beispiel[Bearbeiten]

Dem obigen Beispiel 1 der visuellen Suchaufgabe folgend wird nun in der Kategorisierungsphase die Verarbeitungsgeschwindigkeit betrachtet, mit der die Kategorisierungen am „Rennen“ teilnehmen (Achtung: Nicht die die Objekte selbst, sondern die Objekte mit einer bestimmten Objektkategorisierung konkurrieren um einen Platz im VSTM!). Das Gesamtgewicht \sum_{z\in S} w_z ist in unserem Beispiel  0{,}9 + 0{,}9 = 1{,}8 Somit ergibt sich als relatives Gewicht \frac {w_x} { \sum_{z\in S} w_z}für die beiden roten Objekte \frac {0{,}9}{1{,}8} = \frac{1}{2} und für die beiden blauen Objekte \frac {0}{1{,}8} = 0.

Da die Aufgabe des Probanden darin besteht, anzugeben, welche(r) Buchstabe (unter den roten Objekten) zu finden ist, kann die Antwort des Probanden, insofern er sich an die Instruktionen hält, in eine der 26 (weil 26 verschiedene Buchstaben) möglichen Antwortkategorien fallen. Hier sind also nicht mehr Kategorie „rot“ und „blau“ von Bedeutung, sondern lediglich „a“, „b“, „c“ etc. Folglich sind 26 \beta_i-Werte, z. B. \beta_a und \beta_f hoch, hingegen sind die \beta_i-Werte für Ziffern (oder vollkommen andere Kategorien wie „Blume“) sehr niedrig.

Für eine solche Kategorisierung ist außerdem wiederum die physikalische Reizqualität \eta{(x,i)} entscheidend. Zu beachten ist hier, dass beispielsweise eine „2“ einem „Z“ ähneln kann und somit eine relativ hohe sensorische Evidenz für eine der Antwortkategorien, nämlich „Z“ haben kann, obwohl es sich nicht um einen Zielreiz handelt.

Berechnen wir nun einige Verarbeitungsgeschwindigkeiten aus unserem Beispiel. Dabei sei die physikalische Reizqualität wieder perfekt und  \eta(x,i) somit 0 oder 1. Ausnahme sei in unserem Beispiel die „2“. Für sie gelte \eta(2,z) = 0,4. Die perzeptuelle Entscheidungsverzerrung \beta_i sei für Buchstaben 0,8 und für Ziffern 0,05.

Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung.

Damit ergibt sich:

  • v_\text{rotes a wird als „a“ kategorisiert} = 1 \cdot 0{,}8 \cdot \frac {1}{2} = 0{,}4
  • v_\text{rotes f wird als „a“ kategorisiert} = 0 \cdot 0{,}8 \cdot \frac {1}{2} = 0
  • v_\text{rote 3 wird als „a“ kategorisiert} = 0 \cdot 0{,}8 \cdot \frac {1}{2} = 0
  • v_\text{rote 3 wird als „3“ kategorisiert} = 1 \cdot 0{,}05 \cdot \frac {1}{2} = 0{,}05
  • v_\text{rotes a wird als „3“ kategorisiert} = 0 \cdot 0{,}05 \cdot \frac {1}{2}= 0
  • v_\text{blaues a wird als „a“ kategorisiert} = 1 \cdot 0{,}8 \cdot 0 = 0
  • v_\text{blaue 3 wird als „3“ kategorisiert} = 1 \cdot 0{,}05 \cdot 0 = 0
  • v_\text{rote 2 wird als „2“ kategorisiert} = 1 \cdot 0{,}05 \cdot \frac {1}{2} = 0{,}025
  • v_\text{rote 2 wird als „z“ kategorisiert} = 0,4 \cdot 0{,}8 \cdot \frac {1}{2} = 0{,}32

NTVA[Bearbeiten]

2005 wurde von Bundesen, Habekost und Kyllingsbæk die TVA zur NTVA (Neural Theory of Visual Attention) weiterentwickelt. Die zuvor kritisierte nicht vorhandene Erklärung der TVA auf neuronaler Ebene wurde hierbei hergestellt.