Randomized-Response-Technik

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Randomized-Response-Technik (dt. Randomisierte-Antwort-Technik) ist eine Methode der Psychologie und der Sozialwissenschaften, bestimmte Verfälschungen von Interviewantworten zu verringern.

Bei manchen Befragungsthemen können ehrliche Antworten für die befragte Person peinlich oder inkriminierend sein, oder durch den Effekt der sozialen Erwünschtheit verfälscht werden. Dann bietet die Randomized-Response-Technik eine Möglichkeit, durch Anonymisierung das wahre Ergebnis der Befragung zu schätzen.

Verfahren[Bearbeiten]

Die Randomized Response Technik wurde im Laufe der Zeit immer weiterentwickelt und neue Varianten hinzugefügt. Als Beispiel folgt die Forced Response Methode von Boruch (1971). Bevor die „sensitive Frage“ beantwortet wird, entscheidet ein Zufallsgenerator, ob die befragte Person ehrlich antworten soll oder mit "Ja". Der Interviewer weiß nicht, was der Zufallsgenerator entschieden hat, wodurch die "Ja"-Antwort, also das Eingeständnis der peinlichen Eigenschaft, geschützt wird. Weitere gängige Varianten sind die

  • Unrelated Question Technik (UQT)
  • Two Step Procedure
  • Kartendesign nach Kuk
  • Warner´s Ursprungsversion

Beispiel[Bearbeiten]

Man will den Anteil der Bevölkerung, der schon einmal unter Alkoholeinfluss Auto gefahren ist, bestimmen. Jeder Befragte (dieser wird rein zufällig aus der Bevölkerung ausgewählt) bekommt 3 Karten vom Befrager. Jede Karte ist mit einer Frage versehen, wobei zum Beispiel die erste Karte die Frage "Sind Sie schon einmal unter Alkoholeinfluss Auto gefahren? ", die zweite Karte die Frage " Ist hier ein schwarzes Dreieck zu sehen?" (wobei hier kein schwarzes Dreieck zu sehen ist) und die dritte Karte ebenfalls die Frage " Ist hier ein schwarzes Dreieck zu sehen?" (wobei hier auch in der Tat ein schwarzes Dreieck zu sehen ist) enthalten. Der Befragte bekommt alle drei Karten verdeckt ausgehändigt. Ohne dass der Fragende die Karten sieht, zieht der Befragte eine der Karten und beantwortet diese lediglich mit "Ja" oder "Nein". Der Interviewer weiß jetzt nicht, welche der Fragen der Befragte beantwortet hat. Somit hat der Befragte keinen Grund, bei dieser Umfrage unwahr zu antworten.
Angenommen, es werden 3000 Personen befragt, wobei davon 1200 Personen mit "Ja" geantwortet haben (auf welche Frage sich diese Antwort bezieht, spielt hier keine Rolle). Im Durchschnitt hat davon rund ein Drittel, also ungefähr 1000 Personen, die Karte mit dem schwarzen Dreieck gezogen und wahrheitsgemäß mit "Ja" darauf geantwortet. Weitere 1000 Personen wiederum zogen die Karte ohne Dreieck und ebenfalls ungefähr 1000 Personen die Karte mit der Alkoholfrage. Also haben von den 1200 "Ja"-Antworten etwa 200 die Alkoholfrage mit "Ja" beantwortet. Da etwa 1000 Leute die Alkoholfrage gezogen haben und davon also ca. 200 mit "Ja" geantwortet haben, kann man also sagen, dass 20 % schon einmal unter Alkoholeinfluss Auto gefahren sind.

Anwendung[Bearbeiten]

Diese Fragestellung wurde während des Vietnam-Krieges angewendet, als die US-Armeeführung wissen wollte, welcher Anteil der dort stationierten US Truppen Drogen konsumierte. Gerüchten zufolge war dieser Anteil sehr hoch, weshalb man dies empirisch überprüfen wollte. Bei einer direkten Fragemethode hätte man höchstwahrscheinlich ein sehr ungenaues Ergebnis erhalten, da Drogenkonsum ja immerhin strafbar ist.

Originalversion[Bearbeiten]

In der Originalversion von Warner (1965) ist der Ablauf etwas anders: Die "sensitive Frage" wird in zwei komplementären Versionen formuliert, und der Zufallsgenerator entscheidet, welche der Fragen beantwortet werden soll (und zwar ehrlich). Der Interviewer bekommt also ein "Stimmt" oder "Stimmt nicht" zur Antwort, ohne zu wissen, auf welche Frage. Aus mathematischen Gründen darf die Wahrscheinlichkeitsverteilung nicht "fair" sein (½ zu ½). Ist p die Wahrscheinlichkeit, mit der die sensitive Frage beantwortet werden soll und  \Theta_{MM} der wahre Anteil der Befragten mit der peinlichen Eigenschaft, so setzt sich der Anteil der "Stimmt"-Antworten  \tfrac{Y}{n} , wobei Y die Anzahl aller "Stimmt"-Antworten ist und n die Gesamtanzahl der befragten Menschen, wie folgt zusammen:

  • \tfrac{Y}{n} = p \cdot \Theta_{MM} + (1 - p) \cdot(1 - \Theta_{MM}) .

Aufgelöst nach  \Theta_{MM} erhält man

  •  \Theta_{MM} =\frac{\frac{Y}{n} + p - 1}{2\cdot p - 1}

Mathematische Herleitung der Formel[Bearbeiten]

Es wird vom Stichprobenraum {A,B} ausgegangen. Der Stichprobenraum besteht aus den Ereignissen

 \text{A} = \text{Antwort lautet Ja}

und

 \text{B} = \text{Antwort lautet Nein}.

Die Zufallsvariablen  Y_{1},...,Y_{n} seien unabhängig und identisch verteilt. Jede dieser Zufallsvariablen kann man als eine befragte Person ansehen. Die jeweiligen Wahrscheinlichkeiten für die beiden Ereignisse seien  P(Y_{i}=A)=\Theta sowie  P(Y_{i} = B) = 1-\Theta . Dieses  \Theta stellt also in unserem Beispiel den tatsächlichen Anteil an Personen dar, die schon einmal unter Alkoholeinfluss Auto gefahren sind. Die Wahrscheinlichkeit  \Theta ist jedoch unbekannt. Nun führt man ein Zufallsexperiment mit den Ausfällen A und B und den bekannten Wahrscheinlichkeiten  p und  1-p durch. Das Ergebnis dieses Zufallsexperiments wird allerdings nur vom Befragten beobachtet und nicht vom Fragenden. Der Befragte teilt dem Fragenden dann mit, ob das Ergebnis mit seiner Gruppenzugehörigkeit (also mit A oder B) übereinstimmt. Nun kann man eine neue Zufallsvariable wie folgt definieren:

X_{i} = \begin{cases}
1, & \text{falls Proband mit Ja antwortet},\\
0, & \text{falls Proband mit Nein antwortet}.
\end{cases}

Als Information bekommt man dann die Realisierungen der Zufallsvariablen X_{1},...,X_{n}. Man kann nun die Wahrscheinlichkeit für X_{i} = 1 als bedingte Wahrscheinlichkeit wie folgt darstellen:

 P(X_{i} = 1) = P(Y_{i} = A)\cdot P(X_{i} = 1|Y_{i} = A) + P(Y_{i} = B)\cdot P(X_{i} = 1|Y_{i} = B)
= \Theta\cdot p + (1-\Theta)\cdot(1-p) .

Entsprechend kann man auch die Wahrscheinlichkeit für  P(X_{i} = 0) darstellen:

 P(X_{i} = 0) = P(Y_{i} = A)\cdot P(X_{i} = 0|Y_{i} = A) + P(Y_{i} = B)\cdot P(X_{i} = 0|Y_{i} = B)
 = \Theta\cdot (1-p) + (1-\Theta)\cdot p .

Sei nun Y die Anzahl der "Ja-Antworten", dann gilt für Y:

 Y = \sum_{i=1}^{n}{X_{i}} .

Da jedes  X_{i} nur die Werte 1 und 0 annehmen kann mit Wahrscheinlichkeit P(X_{i} = 1) und  P(X_{i} = 0) = 1-P(X_{i} = 1) , sind die  X_{i}  B(1,P(X_{i} = 1)) -verteilt. Also ist Y  B(n,P(X_{i} = 1))-verteilt. Nun kann man  P(X_{i} = 1) durch den Stichprobenanteil der Einser schätzen, also die Anzahl aller Einser in Bezug auf die Gesamtanzahl aller Ergebnisse. Somit ergibt sich:

  P(X_{i} = 1) = \frac{Y}{n} .


Man kann nun den Momentenschätzer für \Theta mittels folgender Gleichung bestimmen:

 \frac{Y}{n} = \Theta\cdot p + (1-\Theta)\cdot(1-p) = \Theta\cdot (p-(1-p)) + 1-p = \Theta\cdot (2p-1)+(1-p) .

Durch Umformen erhält man dann den Momentenschätzer für \omega:

 \Theta_{MM} = \frac{\frac{Y}{n}-(1-p)}{2p-1} ,

wobei man hieran sieht, dass diese Methode nur für p \not= \tfrac{1}{2} gilt.

Man kann nun noch den Erwartungswert dieses Schätzers bestimmen:

E(\Theta_{MM}) = \frac{1}{2p-1}\cdot(E(\tfrac{Y}{n} - (1-p)) = \frac{1}{2p-1}\cdot [\Theta\cdot p + (1-\Theta)(1-p)-(1-p)] = \Theta .


Also ist \displaystyle{\Theta_{MM}} ein erwartungstreuer Schätzer für \displaystyle \Theta .

Beispiel[Bearbeiten]

  • Alternative 1: "Ich bin schon einmal unter Alkoholeinfluss Auto gefahren."
  • Alternative 2: "Ich bin noch nie unter Alkoholeinfluss Auto gefahren."

Die Befragten würfeln verdeckt und sollen nur bei einer 6 die erste Frage beantworten, sonst die zweite (p = \tfrac{1}{6}). Der Anteil der "Stimmt"-Antworten setzt sich nun zusammen aus denen, die schon einmal unter Alkoholeinfluss Auto gefahren sind und eine 6 gewürfelt haben und denen, die noch nie unter Alkoholeinfluss Auto gefahren sind und eine andere Zahl gewürfelt haben. Von 100 Befragten mögen 75 mit "Stimmt" antworten (\tfrac{Y}{n} = \tfrac{3}{4}). Einsetzen in die Formel ergibt

 \Theta_{MM} =\frac{\tfrac{3}{4} + \tfrac{1}{6} - 1}{2\cdot \tfrac{1}{6} - 1} = \frac{1}{8}

Wenn alle Befragten ehrlich waren, beträgt der wahre Anteil von Menschen, die schon einmal unter Alkoholeinfluss Auto gefahren sind \Theta_{MM} = \tfrac{1}{8} , also 12,5 %.

Literatur[Bearbeiten]

  • C. Hesse (2009). Das kleine Einmaleins des klaren Denkens. Beck'sche Reihe S. 284-303.
  • Vorlesungsskript "Mathematische Statistik" SS 2010 von Christian Hesse, Universität Stuttgart.
  • Warner, S. L. (1965). Randomized response: a survey technique for eliminating evasive answer bias. Journal of the American Statistical Association 60, S. 63-69.
  • Greenberg, B. G., et al. (1969). The Unrelated Question Randomized Response Model: Theoretical Framework. Journal of the American Statistical Association 64(326), S. 520-539.
  • Arijit Chaudhuri, Rahul Mukerjee: Randomized response: theory and techniques
  • M. Ostapczuk, M. Moshagen, Z. Zhao & J. Musch (2009). Assessing sensitive attributes using the randomized-response-technique: Evidence for the importance of response symmetry. Journal of Educational and Behavioral Statistics 34, S. 267-287.
  • M. Ostapczuk, J. Musch & M. Moshagen (2009). A randomized-response investigation of the education effect in attitudes towards foreigners. European Journal of Social Psychology 39, S. 920-931.

Siehe auch[Bearbeiten]