CHAID

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

CHAID (Chi-square Automatic Interaction Detectors) ist ein Algorithmus, der zur Entscheidungsfindung dient. Er wird bei der Konstruktion von Entscheidungsbäumen eingesetzt.

Der CHAID-Algorithmus wurde 1964 erstmals von J.A. Sonquist und J.N. Morgan publiziert und ist somit der Älteste der gängigen Entscheidungsbaum-Algorithmen. Anderberg 1973 beschreibt ihn. J.A. Hartigan 1975 gibt eine Implementierung an.

Der Hauptunterschied von CHAID zu CART und C4.5 besteht darin, dass der CHAID-Algorithmus das Wachsen des Baumes stoppt, bevor der Baum zu groß geworden ist. Der Baum wird also nicht beliebig wachsen gelassen, um ihn hinterher mit einer Pruning-Methode wieder zu stutzen. Ein weiterer Unterschied besteht darin, dass CHAID mit kategorial skalierten Variablen wie Farbe (rot, gelb, grün) oder Bewertung (gut, mittel, schlecht) arbeitet anstatt mit metrisch skalierten Variablen wie zum Beispiel Körpergröße in cm.

Für die Wahl der Attribute wird hier der Chi-Quadrat-Unabhängigkeitstest verwendet. CHAIDs kommen zur Anwendung, wenn eine Aussage über die Abhängigkeit zweier Variablen gemacht werden muss. Dazu wird eine Kennzahl, der Chi-Quadrat-Abstand berechnet. Dabei gilt: Je größer die Kennzahl, desto größer die Abhängigkeit der betrachteten Variablen. Die Variable mit dem größten Chi-Quadrat-Abstand zur Zielgröße wird als Attributauswahl berücksichtigt. Um die Trennqualität zu erhöhen, können hier - wie auch beim C4.5-Algorithmus - mehr als zwei Verzweigungen pro Knoten vorgenommen werden. Dies hat zur Folge, dass die generierten Bäume kompakter sind als die CARTs. Dieselbe Methode wird zur Ermittlung der besten Unterteilungen verwendet. Da bei diesen Entscheidungsbäumen alle möglichen Kombinationen von Ausprägungen ausgewertet werden müssen, kann es bei großen Datenmengen zu Laufzeitproblemen führen. Deshalb ist es von Vorteil, wenn die numerischen Variablen in Variablen mit kategoriellen Ausprägungen umgewandelt werden, obwohl dies einen zusätzlichen Aufwand bedeutet. Dafür sollte das Ergebnis qualitativ besser sein.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

  • Sonquist, J.A. and Morgan, J.N. (1964): The Detection of Interaction Effects. Survey Research Center, Institute for Social Research, University of Michigan, Ann Arbor.
  • Anderberg, M.R. (1973): Cluster Analysis for Applications. New York - Academic Press.
  • Hartigan, J.A. (1975): Clustering Algorithms. New York - Wiley.