Bagging

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Bagging (von engl. Bootstrap aggregating) ist eine Methode um Vorhersagen aus verschiedenen Regressions- oder Klassifikationsmodellen zu kombinieren und wurde von Leo Breiman entwickelt.[1]. Die Ergebnisse der Modelle werden dann im einfachsten Fall gemittelt, d.h. das Ergebnis jeder Modellvorhersage geht mit gleichen Gewicht in die Vorhersage ein.

Im Idealfall zieht man B Stichproben des Umfanges n aus der Grundgesamtheit und erstellt B Vorhersagemodelle m_i (i=1, \dots, B). Für einen Wert x ergeben sich dann B Vorhersagewerte m_i(x). Ist der Vorhersagewert eine Klassenzugehörigkeit, dann könnte die am häufigsten vorhergesagte Klasse als Vorhersagewert m_B(x) genommen werden. Im Regressionsfall ergibt sich der Vorhersagewert als

m^B(x) = \tfrac1B m_1(x) + \cdots + \tfrac1B m_B(x)

oder allgemein mit Gewichten w_i

m^B(x) = w_1 m_1(x) + \cdots + w_B m_B(x).

Die Gewichte, sowohl im Klassifikations- als auch im Regressionsfall, könnten z. B. von der Qualität der Modellvorhersage abhängen, d. h. „gute“ Modelle gehen mit einem größeren Gewicht ein als „schlechte“ Modelle.

Das Bagging führt im Fall von instabilen Modellen, d. h. Modelle, in denen sich die Struktur stark in Abhängigkeit von den Stichprobendaten ändert (siehe z. B. Classification and Regression Trees) meist zu deutlich verbesserten Vorhersagen.

Einzelnachweise[Bearbeiten]

  1. Leo Breiman: Bagging predictors. In: Machine Learning. 24, Nr. 2, 1996, S. 123–140. doi:10.1007/BF00058655.

Literatur[Bearbeiten]

  • Ian H. Witten, Eibe Frank, Mark A. Hall (2011), Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), Morgan Kaufmann