Cross Industry Standard Process for Data Mining

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von CRISP-DM)
Wechseln zu: Navigation, Suche
Qsicon Fokus2.svg Dieser Artikel wurde am 26. April 2015 auf den Seiten der Qualitätssicherung eingetragen. Bitte hilf mit, ihn zu verbessern, und beteilige dich bitte an der Diskussion!
Folgendes muss noch verbessert werden: WP:Vollprogramm. XenonX3 – () 23:04, 26. Apr. 2015 (CEST)

Der Cross-Industry Standard Process for Data Mining, allgemein bekannt unter dem Kürzel CRISP-DM, ist das häufigst genutzte Data Mining-Prozessmodell. Es beschreibt häufig verwendeten Ansätze, Data Mining Problemstellungen zu lösen.

CRISP-DM bricht den Prozess des Datamining in sechs Hauptphasen.

Business Verständnis (Business Understanding)[Bearbeiten]

Diese erste Phase konzentriert sich auf das Verständnis der Projektziele und Anforderungen aus betriebswirtschaftlicher Sicht, und konvertieren dann dieses Wissen in eine Data Mining-Problemstellung.

Daten verstehen (Data Understanding)[Bearbeiten]

Die Daten-Verständnis-Phase beginnt mit einer ersten Datenerhebung und fährt mit Aktivitäten fort um Vertrauen in die Daten zu gewinnen. Gleichzeitig sollen Qualitätsprobleme erkannt und erste Einblicke gewonnen werden. Hierbei werden interessante Teilmengen für zukünftige Hypothesen identifiziert.

Datenaufbereitung (Data Preparation)[Bearbeiten]

Die Phase der Aufbereitung umfasst alle Aktivitäten zum Erstellen des endgültigen Datensatzes. Dies umfasst die Datensatz- und Attributauswahl, sowie die Transformation, Verbindung und Bereingung der ursprünglichen Rohdaten. Datenvorbereitungsaktivitäten müssen wahrscheinlich mehrere Male durchgeführt werden.

Modellierung (Modeling)[Bearbeiten]

In dieser Phase werden verschiedene Modelle ausgewählt und angewendet, und sowie ihre Parameter kalibriert. Einige Techniken haben spezifische Anforderungen an die Form der Daten. Daher ist ein Zurück in die Phase der Datenaufbereitung oft notwendig.

Bewertung (Evaluation)[Bearbeiten]

Die aus Data Mining Perspektive optimierten Modelle müssen vor einer Operationalisierung bezüglich ihres geschäftlichen Mehrwertes evaluiert werden. Hierbei soll sichergestellt werden, dass die richtigen Unternehmensziele erreicht werden.

Deployment[Bearbeiten]

Das fertige Modell wird operationalisiert.[1]

Einzelnachweise[Bearbeiten]

  1. http://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html