Feature Subset Selection

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Feature Subset Selection (FSS), kurz Feature Selection, ist ein Ansatz aus dem maschinellen Lernen, bei dem nur eine Teilmenge der verfügbaren Features für einen Lernalgorithmus verwendet wird. FSS ist notwendig, weil es teilweise technisch unmöglich ist, alle Features miteinzubeziehen oder weil es Differenzierungsprobleme gibt, wenn eine große Anzahl an Features, aber nur eine kleine Zahl an Datensätzen vorhanden ist.

Filter-Ansatz[Bearbeiten]

Berechne ein Maß zur Unterscheidung von Klassen. Messe das Gewicht der Features und wähle die besten n aus. Auf dieses Feature Subset wird der Lernalgorithmus angewendet. Filter können entweder univariat (z.B. euklidische Distanz, Chi-Quadrat-Test) oder multivariat (z.B. Korrelationsbasierte Filter) die intrinsischen Eigenschaften der Daten berechnen.

Vorteile:

  • schnell berechenbar
  • skalierbar
  • intuitiv interpretierbar

Nachteile:

  • Redundante Features (Verwandte Features werden ähnliche Gewichtung haben)
  • ignoriert Abhängigkeiten mit dem Lernalgorithmus

Wrapper-Ansatz[Bearbeiten]

Durchsuche die Menge aller möglichen Feature-Subsets. Auf jedes Subset wird der Lernalgorithmus angewendet. Das Durchsuchen kann entweder deterministisch (z.B. Forward selection, backward elimination) oder zufällig erfolgen (z.B. simulated annealing, genetische Algorithmen).

Vorteile:

  • Findet ein Feature-Subset, das optimal zum Lernalgorithmus passt
  • Bezieht auch Kombinationen von Features ein und nicht nur jedes Feature einzeln
  • Entfernt redundante Features
  • einfach umzusetzen
  • interagiert mit Lernalgorithmus

Nachteile:

  • Sehr zeitaufwändig
  • bei heuristischen Verfahren besteht die Gefahr nur lokale Optima zu finden
  • Gefahr der Überanpassung der Daten
  • Abhängigkeit vom Lernalgorithmus

Embedded-Ansatz[Bearbeiten]

Die Suche nach einer optimalen Untermenge ist direkt mit dem Lernalgorithmus verbunden.

Vorteile:

  • besser Laufzeiten und geringere Komplexität
  • Abhängigkeiten zwischen Datenpunkten werden modelliert

Nachteile:

  • Wahl der Untermenge hängt stark vom verwendeten Lernalgorithmus ab.

Beispiele:

  • Entscheidungsbäume
  • Gewichtete naive Bayes [1]
  • Auswahl der Teilmenge mit Hilfe des Wichtungsvektor von SVM [2]

Literatur[Bearbeiten]

  1. Duda,P., et al. (2001) Pattern Classification. Wiley, New York.
  2. Guyon,I. and Elisseeff,A. (2003) An introduction to variable and feature selection. J. Mach Learn Res., 3, 1157–1182.
  • Dunja Mladenić: Feature Selection for Dimensionality Reduction. Craig Saunders et al. (Hrsg.): SLSFS, 2005, S.84-102 ISBN 3-540-34137-4
  • Yvan Saeys, Inaki Inza and Pedro Larranaga (2007) A review of feature selection techniques in bioinformatics. Bioinformatics. 23(19) 2507--2517.