Explorative Datenanalyse

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Lehrveranstaltungen über die Statistik als Einführung in das statistische Denken gelehrt.

Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Ferner schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden.

Ziele[Bearbeiten | Quelltext bearbeiten]

Ziele der explorativen Statistik sind:

Verfahren[Bearbeiten | Quelltext bearbeiten]

Grundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind:

Grundlegende quantitative Methoden sind:

Spezielle Verfahren[Bearbeiten | Quelltext bearbeiten]

Probleme[Bearbeiten | Quelltext bearbeiten]

Problematisch kann das Bilden von Hypothesen anhand eines Datensatzes und das Testen dieser Hypothesen auf dem gleichen Datensatz sein. Dann können scheinbar signifikante Resultate oder Scheinkorrelationen erhalten werden, die sich aber auf einem unabhängigen Datensatz zum selben Sachverhalt nicht zeigen würden – dies ist das Problem von P-Hacking. Ein Ausweg aus diesem Problem ist das strikte Trennen von Datensätzen, die man zum Bilden von Hypothesen nutzt und Datensätzen, die man zum validieren der gefundenen Hypothesen benutzt (siehe Kreuzvalidierungsverfahren).

Literatur[Bearbeiten | Quelltext bearbeiten]