Explorative Datenanalyse

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Lehrveranstaltungen über die Statistik als Einführung in das statistische Denken gelehrt.

Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Ferner schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden. Tatsächlich kann die Begriffsverwirrung zwischen den zwei Typen der Analyse und der Anwendung dessen auf die gleiche Datenmenge zu einem Bias führen.

Ziele[Bearbeiten]

Ziele der explorativen Statistik sind:

  • Annahmen (Hypothesen) über die Ursache und den Grund der beobachteten Daten zu bilden
  • Annahmen einzuschätzen, worauf statistische Inferenz basieren kann
  • Die Auswahl von passenden statistischen Werkzeugen und Techniken zu unterstützen
  • Eine Basis für die weitere Daten-Sammlung durch Umfragen oder Design von Experimenten bereitzustellen

Verfahren[Bearbeiten]

Grundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind:

Grundlegende quantitative Methoden sind:

Spezielle Verfahren[Bearbeiten]

Software[Bearbeiten]

  • GeoDa - Kostenlose, userfreundliche graphische Oberfläche zur Anwendung verschiedener Methoden der explorativen Datenanalyse
  • GGobi - Kostenlose interaktive multivariate Visualisierungs Software mit Verknüpfung zu R.
  • LiveGraph - Open Source Framework für Daten-Visualisierung und Explorative Datenanalyse (beinhaltet einen Echtzeit Graph-Plotter).
  • MANET - Kostenlose Mac interaktive EDA Software.
  • Mondrian - Kostenlose interaktive Software für EDA.
  • Orange - Kostenlose Komponenten-Basierte Software für eine interaktive EDA.
  • PS-Explore
  • Visalix - Kostenlose interaktive Web-Anwendung für Daten-Visualisierung und Explorative Datenanalyse.
  • openAnalyzer - Datenanalysesoftware mit Bausteinen zur explorativen Datenanalyse (kostenlos für Uni + Studenten; Free-Version beschränkt auf 5000 Datensätze).
  • DataLab - Vollversion als kostenlose Forschungslizenz, freie Evaluierungsversion ist in der Größe der Datenmatrix beschränkt
  • Fathom 2 (Dynamische Stochastik- und Datenanalysesoftware) - kostenlose Evaluationsversion ist ein Jahr lauffähig und beinhaltet aber Druck-, Speicher- und Exporteinschränkungen.

Literatur[Bearbeiten]