Streudiagramm

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Beispiel eines Streudiagramms, in dem die Länge und Breite von verschiedenen Artillerieschiffen dargestellt ist

Ein Streudiagramm (engl. Scatter plot) ist die graphische Darstellung von beobachteten Wertepaaren zweier statistischer Merkmale. Diese Wertepaare werden in ein kartesisches Koordinatensystem eingetragen, wodurch sich eine Punktwolke ergibt. Die Darstellung der Punkte kann durch verschiedene kleine Symbole erfolgen.

Anwendung[Bearbeiten]

Man erhofft sich durch das Muster der Punkte im Streudiagramm Informationen über die Abhängigkeitsstruktur der beiden Merkmale zu erkennen, die durch die Koordinaten repräsentiert sind.

Nebenstehendes Beispieldiagramm enthält Punkte, die die beiden Merkmale „Länge“ und „Breite“ von verschiedenen Artillerieschiffen darstellen. Die Schiffe sind in vier Klassen eingeteilt, denen unterschiedliche Farben zugewiesen sind (Zerstörer, leichter Kreuzer, schwerer Kreuzer, Schlachtschiff). Man erkennt durch ein solches Streudiagramm auf einen Blick verschiedene Korrelationen in den erfassten Daten.

Häufig auftretende Korrelationen sind Cluster (Ballungen) und lineare Strukturen. Cluster können mit der Clusteranalyse untersucht werden. Zur Quantifizierung von linearen Korrelationen bietet sich vor allem die Regressionsanalyse an.

Falls ein drittes (metrisches) Merkmal auch noch mit dargestellt werden soll, kann das durch die Größe der Punkte (bzw. Kreise) geschehen. Den dabei entstehenden Diagrammtyp nennt man Blasendiagramm.

Streudiagramme bei ordinalskalierten Merkmalen[Bearbeiten]

Es sind im Allgemeinen nur stetig verteilte Daten für Streudiagramme geeignet. Beobachtungen diskret verteilter Merkmale überlagern sich, wenn gleiche Werte mehrfach vorliegen. Es gibt jedoch auch Möglichkeiten, ordinalskalierte Merkmale in Streudiagramme darzustellen:

  • Durch „Sonnenblumen“: Es wird an jedem Koordinatenpaar ein Kreis eingetragen. Die Zahl der Wertepaare, die auf diesem Punkt liegen, wird durch Striche an den Kreis dargestellt, so dass sich eine stilisierte Sonnenblume ergibt.
  • Durch einen „Jittered Scatterplot“ („Verwackeltes Streudiagramm“): Es werden auf die Daten kleine Zufallszahlen addiert, so dass die Werte leicht auseinandergezogen werden und eine Punktwolke ergeben. Man muss sich allerdings im Klaren sein, dass die Werte eigentlich übereinanderliegen. Man könnte sie als „pseudometrisch“ bezeichnen.

Das folgende Beispiel zeigt beide Möglichkeiten anhand der Evaluation einer Statistik-Vorlesung, bei der die Merkmale „Stoff ist verständlich“ und „Gesamtnote Statistik“ (Noten von 1 bis 4) in ein Streudiagramm eingetragen wurden.

Sonnenblumen-Streudiagramm Jittered scatter plot
StreuSonne.svg StreuJit.svg

Dotplot[Bearbeiten]

Boxplot der Pferdetritt Daten von Bortkewitsch.
Boxplot der Pferdetritt Daten von Bortkewitsch.

Der Dotplot wird auch als das eindimensionale Streudiagramm bezeichnet. In ihm wird eine Variable entweder auf der x-Achse oder auf der y-Achse (wie in den Grafiken) dargestellt. Je nachdem wie viele Werte die Beobachtungen der Variablen annehmen, ergibt sich das Problem, dass man nur einen Datenpunkt sieht, obwohl sich hinter ihm (viele) weitere Beobachtungen verbergen können.

Ähnlich wie beim Sonnenblumen-Streudiagramm können Symbole genutzt werden um die Anzahl der Punkte darzustellen. In der Grafik links symbolisiert ein größerer Kreis, dass sich hinter ihm mehr Beobachtungen verbergen als bei einem kleineren Kreis. In der Grafik rechts wird für jeden Datenpunkt ein Kreis gezeichnet. Tritt der gleiche Wert mehrfach auf, werden rechts neben dem ersten Kreis weitere Kreise gezeichnet.

Eine weitere Möglichkeit ist, auf der einen Achse den Beobachtungswert zu zeichnen und für die andere Achse einen zufälligen, z. B. aus einer Gleichverteilung stammenden, Wert zu wählen. Auch kann man eine Dichteschätzung einzeichnen.

Der Dotplot erlaubt Einblicke in die Verteilung einer Variablen, z. B. wo die Beobachtungen besonders dicht sind oder verteilen sich die Beobachtungen auf nur wenige Werte.

Streudiagramm-Matrix[Bearbeiten]

Streudiagramm Matrix eines Datensatzes mit fünf Variablen

In einer Streudiagramm-Matrix werden für einen multivariaten Datensatz jeweils für Paare von Variablen ein Streudiagramm gezeichnet. Dabei unterscheiden sich die Streudiagramme oben rechts von denen unten links in der Grafik nur dadurch welche Variable auf die x-Achse bzw. y-Achse abgebildet wird. D. h. die entsprechenden Punktwolken sind nur an der 45 Grad Linie gespiegelt. In Variationen der Streudiagramm-Matrix werden statt den gespiegelten Punktwolken auch weitere Informationen, z. B. Korrelationskoeffizienten oder Regressionfunktionen dargestellt.

Auf der Diagonalen sind in der Grafik rechts nur die Variablennamen eingetragen. Es gibt jedoch auch hier eine Vielzahl von Variationen, z. B. mit weiteren Informationen (Boxplots, Dichteschätzungen) über die jeweilige Variable.

Die Streudiagramm-Matrix hat einige Nachteile:

  • Die Anzahl der Variablen, die dargestellt wird, sollte nicht zu groß werden, da sonst die Fläche für jedes Streudiagramm zu klein und damit unübersichtlich wird. Die Brüder Tukey haben daher Maßzahlen, zusammenfassend mit Scagnostics bezeichnet, vorgeschlagen, die die Eigenschaft der Punktwolke charakterisieren:
Hauptartikel: Scagnostics
  • Die Streudiagramm-Matrix zeigt bei p Variablen genau p(p-1)/2 Projektionen der multivariaten Daten. Eine interessante Datenstruktur muss jedoch nicht in diesen Projektionen sichtbar sein. Dann sollte man entweder auf die Grand Tour oder Projection Pursuit-Verfahren zurückgreifen.

Siehe auch[Bearbeiten]

 Wiktionary: Streudiagramm – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen