Anscombe-Quartett

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Diese vier Punktmengen sehen verschieden aus, haben aber nahezu dieselben einfachen statistischen Maßzahlen

Das Anscombe-Quartett besteht aus vier Mengen von Datenpunkten, die nahezu identische einfache statistische Eigenschaften haben, aber aufgetragen sehr verschieden aussehen. Jede dieser vier Mengen besteht aus elf (x,y)-Punkten. Diese vier Mengen wurden im Jahre 1973 von dem englischen Statistiker Francis Anscombe konstruiert, um die Bedeutung einer graphischen Datenanalyse herauszustellen und die Effekte von Ausreißern zu demonstrieren.[1]

Darstellung[Bearbeiten | Quelltext bearbeiten]

Für die vier Punktmengen gilt:

Eigenschaft Wert
Mittelwert von x in jedem Fall 9 (exakt)
Varianz von x in jedem Fall 11 (exakt)
Mittelwert von y in jedem Fall 7,50 (auf 2 Stellen)
Varianz von y in jedem Fall 4,122 oder 4,127 (auf 3 Stellen)
Korrelation zwischen x und y in jedem Fall 0,816 (auf 3 Stellen)
Lineare Regression in jedem Fall y = 3,00 + 0,500x (auf 2 bzw. 3 Stellen)

Das erste Streudiagramm (oben links) scheint einen einfachen linearen Zusammenhang nahezulegen, die beiden Variablen erscheinen korreliert. Das zweite Streudiagramm (oben rechts) zeigt zwar einen Zusammenhang zwischen den Variablen, offensichtlich ist dieser aber nicht linear. Im dritten Streudiagramm (unten links) liegt anscheinend ein linearer Zusammenhang vor, allerdings gibt es einen Ausreißer. Das vierte Streudiagramm (unten rechts) zeigt ebenfalls einen Ausreißer, während die übrigen Datenpunkten alle übereinander liegen (gleicher x Wert). Berechnet man den Bravais-Pearson-Korrelationskoeffizienten (als Maß für den linearen Zusammenhang) so ergibt sich für alle vier Datensätze der Wert 0,816. Jedoch nur für das obere linke Streudiagramm wird der Zusammenhang damit korrekt beschrieben.

Das Anscombe-Quartett wird benutzt, um die Bedeutung der graphischen Datenanalyse herauszustellen, die erfolgen sollte, bevor man aufgrund einer Annahme über die statistischen Eigenschaften der Daten mit der Analyse beginnt. Weiterhin zeigt es, dass einfache statistische Maßzahlen zur Beschreibung der Daten nicht immer ausreichen.[2][3][4][5][6]

Die vier Mengen von Datenpunkte sind in der nachstehenden Tabelle zusammengefasst. Die x-Werte sind dabei für die ersten drei Menge dieselben.[1]

Das Anscombe-Quartett
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Mithilfe von evolutionären Algorithmen lassen sich inzwischen solche Datensätze, deren wichtigste statistische Kennzahlen identisch sind, die aber in grafischer Darstellung völlig unterschiedliche Eigenschaften zeigen, automatisch erzeugen.[7]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. a b F. J. Anscombe: Graphs in Statistical Analysis. In: American Statistician. 27, Nr. 1, 1973, S. 17–21.
  2. Glenn Elert: Linear Regression. In: The Physics Hypertextbook. Abgerufen am 26. April 2013.
  3. Philipp K. Janert: Data Analysis with Open Source Tools. O'Reilly Media, Inc., 2010, ISBN 0-596-80235-8, S. 65–66.
  4. Samprit Chatterjee, Ali S. Hadi: Regression analysis by example. John Wiley and Sons, 2006, ISBN 0-471-74696-7, S. 91.
  5. David J. Saville, Graham R. Wood: Statistical methods: the geometric approach. Springer, 1991, ISBN 0-387-97517-9, S. 418.
  6. Edward R. Tufte: The Visual Display of Quantitative Information, 2nd. Auflage, Graphics Press, Cheshire, CT 2001, ISBN 0-9613921-4-2.
  7. Sangit Chatterjee, Aykut Firat: Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset. In: American Statistician. 61, Nr. 3, 2007, S. 248–254. doi:10.1198/000313007X220057.