Gauß-Prozess

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Ein Gaußprozess (nach Carl Friedrich Gauß) ist in der Wahrscheinlichkeitstheorie ein stochastischer Prozess, bei dem jede endliche Teilmenge von Zufallsvariablen mehrdimensional normalverteilt (gaußverteilt) ist. Umgekehrt bildet ein Gaußprozess den Grenzwert einer mehrdimensionalen Normalverteilung deren einzelne Dimensionen den unendlich vielen und dicht liegenden Stützstellen einer kontinuierlichen Funktion zugeordnet werden. Die Normalverteilung erhält dadurch unendlich viele Dimensionen und beschreibt dann ein Kontinuum von korrelierten Zufallsvariablen. Aus der Verteilung von Vektoren wird beim Übergang zum Gaußprozess eine Wahrscheinlichkeitsverteilung von Funktionen.

Angewendet werden Gaußprozesse zur mathematischen Modellierung des Verhaltens von Systemen auf Basis von Beobachtungen. Sie bilden ein mächtiges Werkzeug bei der Interpolation, Extrapolation oder Glättung diskreter Messpunkte (Gaußprozess-Regression bzw. Kriging-Verfahren) und finden Anwendung in Klassifizierungsproblemen. Gaußprozesse können wie ein überwachtes Maschinenlernverfahren zur abstrakten Modellierung anhand von Trainingsbeispielen verwendet werden. Im Gegensatz zu anderen Maschinenlernverfahren, wie künstliche neuronale Netze, die mit Beispielen trainiert werden müssen, werden Gaußprozesse aus empirischen statistischen Größen der Beispiele abgeleitet, unter Verwendung von Linearer Algebra und Wahrscheinlichkeitsrechnung. Der Vorteil liegt dabei einerseits in einer hohen numerischen Effizienz und andererseits darin, dass der gesamte mathematische Vorgang sehr transparent und kontrollierbar bleibt. Zudem liefert das Verfahren für jeden Ausgangswert ein zugehöriges Vertrauensintervall, das die eigene Vorhersagefähigkeit einschätzt, während bekannte Fehler der Eingangsgrößen korrekt fortgepflanzt werden.

Definition[Bearbeiten | Quelltext bearbeiten]

Ein Gaußprozess ist ein spezieller stochastischer Prozess auf einer beliebigen Indexmenge T, wenn seine endlichdimensionalen Verteilungen mehrdimensionale Normalverteilungen (auch Gauß-Verteilungen) sind. Es soll also für alle die multivariate Verteilung von durch eine n-dimensionale Normalverteilung gegeben sein.

Ein Gauß-Prozess heißt zentriert, wenn sein Erwartungswert konstant 0 ist, also wenn für alle gilt.

Darstellung[Bearbeiten | Quelltext bearbeiten]

Analog zur ein- und mehrdimensionalen Gaußverteilung ist ein Gaußprozess über seine ersten beiden Momente vollständig und eindeutig bestimmt. Bei der mehrdimensionalen Gaußverteilung sind dies der Erwartungswertvektor und die Kovarianzmatrix . Beim Gaußprozess treten an deren Stelle eine Erwartungswertfunktion und eine Kovarianzfunktion . Diese Funktionen können als Vektor mit kontinuierlichen Zeilen bzw. als Matrix mit kontinuierlichen Zeilen und Spalten aufgefasst werden. Folgende Tabelle vergleicht eindimensionale und mehrdimensionale Gaußverteilungen mit Gaußprozessen.

Art der Verteilung Kurzschreibweise Größen Wahrscheinlichkeitsdichtefunktion
Eindimensionale Gaußverteilung
Mehrdimensionale Gaußverteilung
Gaußprozess
(keine analytische Darstellung)

Die Wahrscheinlichkeitsdichtefunktion eines Gaußprozesses lässt sich nicht analytisch darstellen, da es keine entsprechende Notation für Operationen mit kontinuierlichen Matrizen gibt. Das erweckt den Eindruck, dass die Eigenschaft der unendlichen Dimensionen und Freiheitsgrade die Handhabung unmöglich macht. In praktischen Berechnungen werden jedoch immer nur endlich viele Stützstellen benötigt und daher wie mit endlich dimensionalen Gaußverteilungen gerechnet. Der eigentliche Gaußprozess wird dabei nur in einem Zwischenschritt benötigt, nämlich dann, wenn Werte an neuen Stützstellen ausgelesen werden sollen, wie bei der Interpolation. In diesem Zwischenschritt wird der Gaußprozess, d.h. die Erwartungswertfunktion und Kovarianzfunktion, durch geeignete analytische Ausdrücke dargestellt und approximiert.

Gaußprozesse mit bekannter analytischer Kovarianzfunktion[Bearbeiten | Quelltext bearbeiten]

Bei folgenden speziellen Beispielen können Gaußprozesse exakt analytisch dargestellt werden:

  • Der Wiener-Prozess (bzw. Brownsche Bewegung) hat Erwartungswertfunktion und Kovarianzfunktion .
  • Die Brownsche Brücke mit Erwartungswertfunktion und Kovarianzfunktion .
  • Das Gauß'sche weiße Rauschen hat Erwartungswert 0 und Kovarianzfunktion (Kronecker-Delta)
  • Ist und , zwei integrierbare reellwertige Funktionen sowie ein Wiener-Prozess, so ist der Ito-Prozess
ein Gaußprozess mit Erwartungswertfunktion und Kovarianzfunktion .

Gaußprozess-Regression[Bearbeiten | Quelltext bearbeiten]

Problemstellung und Lösungsverfahren[Bearbeiten | Quelltext bearbeiten]

Gaußprozesse können zur Interpolation, Extrapolation oder Glättung von diskreten Messdaten einer Abbildung verwendet werden. Diese Anwendung von Gaußprozessen nennt man Gaußprozess-Regression und eignet sich insbesondere für Probleme, für die keine spezielle Modellfunktion bekannt ist. Die Methode hat Eigenschaften eines Maschinenlernverfahrens und ermöglicht eine automatische Modellbildung auf der Basis von Beobachtungen. Dabei erfasst ein Gaußprozess das typische Verhalten des Systems, womit die für das Problem optimale Interpolation abgeleitet werden kann. Als Ergebnis erhält man eine Wahrscheinlichkeitsverteilung von möglichen Interpolationsfunktionen sowie die Lösung mit der höchsten Wahrscheinlichkeit.

Die Gaußprozess-Regression besteht aus folgenden Schritten:

  1. A-Priori Erwartungswertfunktion: Liegt ein gleichbleibender Trend in den Messwerten vor, wird eine A-priori-Erwartungswertfunktion zum Ausgleich des Trends gebildet.
  2. A-Priori Kovarianzfunktion: Die Kovarianzfunktion wird nach bestimmten qualitativen Eigenschaften des Systems ausgewählt oder aus Kovarianzfunktionen unterschiedlicher Eigenschaften nach bestimmten Regeln zusammengesetzt.
  3. Feinabstimmung der Parameter: um quantitativ korrekte Kovarianzen zu erhalten, wird die gewählte Kovarianzfunktion auf die vorhandenen Messwerte gezielt oder durch ein Optimierungsverfahren angepasst bis die Kovarianzfunktion die empirischen Kovarianzen wiedergibt.
  4. Bedingte Verteilung: Durch Berücksichtigung von bekannten Messwerten wird aus dem A-Priori-Gaußprozess der bedingte (A-Posteriori) Gaußprozess berechnet.
  5. Interpretation: Aus dem A-Posteriori-Gaußprozess wird schließlich die Erwartungswertfunktion als die bestmögliche Interpolation abgelesen und gegebenenfalls die Diagonale der Kovarianzfunktion als die Varianz als Funktion des Ortes.

A-Priori Erwartungswertfunktion[Bearbeiten | Quelltext bearbeiten]

Ein Gaußprozess ist durch eine Erwartungswertfunktion und eine Kovarianzfunktion vollständig definiert. Die Erwartungswertfunktion ist die A-Priori-Schätzung des Regressionsproblems und beschreibt einen im Voraus bekannten Offset, Trend, oder eine bestimmte Verzerrung der Daten. Die Funktion lässt sich meist durch ein einfaches Polynom beschreiben, wobei in den meisten Fällen ein konstanter Mittelwert eine sehr gute Näherung darstellt, um den Gaußprozess zu zentrieren.

A-Priori Kovarianzfunktion[Bearbeiten | Quelltext bearbeiten]

In praktischen Anwendungen muss aus endlich vielen diskreten Messwerten oder endlich vielen Beispielkurven ein Gaußprozess bestimmt werden. In Analogie zur eindimensionalen Gaußverteilung, die über den Mittelwert und die Standardabweichung diskreter Messwerte vollständig bestimmt ist, würde man beim Gaußprozess einzelne, jedoch ganze Funktionen erwarten, um damit eine Mittelwertfunktion und eine Kovarianzfunktion zu berechnen. Eine solche Verteilung aus gegeben exemplarischen Funktionen liegt jedoch häufig nicht vor. In der Mehrzahl der Anwendungen sind diskrete Stützstellen einer einzelnen Funktion bekannt, die interpoliert oder geglättet werden sollen.

Auch in einem solchen Fall kann ein Gaußprozess abgeleitet werden. Dazu wird die zu bestimmende Funktion, die aus einzelnen Messpunkten besteht, gedanklich von jedem Punkt aus betrachtet. In Relativkoordinaten ausgedrückt, entstehen so aus einer einzelnen Funktion viele zueinander verschobene Funktionen. Die Verteilung dieser Schar aus relativen Funktionen kann nun mit einer Kovarianzfunktion beschrieben werden. Man nennt diese relative Kovarianzfunktion eine stationäre Kovarianzfunktion. Sie gilt gleichermaßen für alle Orte der Funktion und beschreibt jeweils die immer gleiche (stationäre) Korrelation eines Punkts zu seiner Nachbarschaft, sowie die Korrelation benachbarter Punkte untereinander. Die Kovarianzfunktion wird analytisch dargestellt und heuristisch bestimmt oder in der Literatur nachgeschlagen. Die freien Parameter der analytischen Kovarianzfunktion werden an die Messwerte angepasst.

Sehr viele physikalische Systeme zeigen eine ähnliche Form der stationären Kovarianzfunktion, so dass mit wenigen tabellierten analytischen Kovarianzfunktionen die meisten Anwendungen beschrieben werden können. So gibt es beispielsweise Kovarianzfunktionen für die abstrakten Eigenschaften Glattheit, Rauhigkeit, Periodizität oder Rauschen, die nach bestimmten Vorschriften kombiniert und an die Messdaten angepasst werden können.

Die folgende Tabelle zeigt Beispiele von Kovarianzfunktionen mit solchen abstrakten Eigenschaften. Die Beispiel-Kurven wurden zur Veranschaulichung mit einem Zufallsgenerator für mehrdimensionale Normalverteilungen erzeugt und repräsentieren typische Kurven des jeweiligen Gaußprozesses. Dazu wird jeweils mit der Kovarianzmatrix und einem Zufallsgenerator ein in sich korrelierter Zufallsvektor erzeugt und als Kurve dargestellt. Die stationären Kovarianzfunktionen werden hier als eindimensionale Funktionen mit als abgekürzt.

Eigenschaft Beispiele stationärer Kovarianzfunktionen Zufallsfunktionen
Glatt Gaussianprocess smooth.png
Rau Gaussianprocess rough.png
Periodisch Gaussianprocess periodic.png
Rauschen Gaussianprocess noise.png
Gemischt
(periodisch,
glatt und
verrauscht)
Gaussianprocess mix.png

Die Eigenschaften können nach bestimmten Rechenvorschriften kombiniert werden. Das grundsätzliche Ziel bei der Konstruktion einer Kovarianzfunktion ist, die wahren Kovarianzen möglichst gut wiederzugeben, während gleichzeitig die Bedingung der positiven Definitheit erfüllt wird. Die gezeigten Beispiele besitzen letztere Eigenschaft und auch die Additionen und Multiplikationen solcher Funktionen bleiben positiv definit. Die unterste Kovarianzfunktion in der Tabelle zeigt eine mögliche Mischung verschiedener Eigenschaften. Die Funktionen in diesem Beispiel sind über eine bestimmte Distanz hinweg periodisch, weisen ein relativ glattes Verhalten auf und sind mit einem bestimmten Messrauschen überlagert.

Was hier mit eindimensionalen Funktionen gezeigt ist, lässt sich analog auch auf mehrdimensionale Systeme übertragen, indem lediglich der Abstand durch eine entsprechende n-dimensionale Abstandsnorm ersetzt wird. Die Stützpunkte in den höheren Dimensionen werden in einer beliebigen Reihenfolge abgewickelt und mit Vektoren dargestellt, so dass sie genauso wie im eindimensionalen Fall verarbeitet werden können. Die beiden folgenden Abbildungen zeigen zwei Beispiele mit zweidimensionalen Gaußprozessen und unterschiedlichen stationären und radialen Kovarianzfunktionen. Dargestellt ist jeweils eine zufällige Stichprobe des Gaußprozesses.

Zufällige Stichprobe eines 2D-Gaußprozesses mit absolut-exponentieller radialer Kovarianzfunktion. Zufällige Stichprobe eines 2D-Gaußprozesses mit quadratisch-exponentieller radialer Kovarianzfunktion.

Gaußprozesse können auch nicht-stationäre Eigenschaften der Kovarianzfunktion besitzen, also relative Kovarianzfunktionen, die sich als Funktion des Ortes ändern. Auch hier muss die positive Definitheit sichergestellt werden.

Feinabstimmung der Parameter[Bearbeiten | Quelltext bearbeiten]

A-Priori-Gaußprozess, dargestellt durch damit gewonnene Zufallsfunktionen und durch die A-Priori-Standardabweichung

Die qualitativ konstruierten Kovarianzfunktionen enthalten Parameter, sogenannte Hyperparameter, die an das System angepasst werden müssen, um quantitativ korrekte Ergebnissen erzielen zu können. Dies kann durch Zusatzwissen über das System erfolgen, wie z.B. mit einem bekannten Anteil an unkorreliertem Messrauschen oder der empirischen A-Priori-Standardabweichung des Gesamtsystems (sigma prior, was den Varianzen bzw. den Diagonalelementen der Kovarianzmatrix entspricht).

Die Parameter können aber auch automatisch angepasst werden. Dazu wird die Randwahrscheinlichkeit durch einen Optimierungsalgorithmus maximiert. Die Randwahrscheinlichkeit erhält man durch Einsetzen der Daten einer Messkurve in die Formel für die mehrdimensionale Wahrscheinlichkeitsdichte. Da die Exponentialfunktion streng monoton ist, genügt es, den Exponenten zu maximieren, die sogenannte Log-Marginal-Likelihood-Funktion:

Mathematisch bewirkt die Maximierung der Randwahrscheinlickeit eine optimale Abwägung zwischen der Genauigkeit (Minimierung der Residuen) und der Einfachheit der Theorie. Die Theorie ist dann als einfach zu betrachten, wenn die Kovarianzfunktion möglichst große Werte in den Nebendiagonalen besitzt und dadurch eine hohe Korrelation im System vorliegt. Das bedeutet, dass wenige Freiheitsgrade im System vorhanden sind und somit die Theorie in gewisser Weise mit wenigen Regeln auskommt, um alle Zusammenhänge zu beschreiben. Sind diese Regeln zu einfach gewählt, würden die Messungen nicht hinreichend gut wiedergegeben werden und die residuellen Fehler wachsen zu stark an. Bei einer maximalen Randwahrscheinlichkeit ist das Gleichgewicht einer optimalen Theorie gefunden, sofern hinreichend viele Messdaten für eine gute Konditionierung zur Verfügung standen. Diese implizite Eigenschaft der Maximum-Likelihood-Methode kann auch als Ockhams Sparsamkeitsprinzip verstanden werden.

Bedingter Gaußprozess bei bekannten Stützpunkten[Bearbeiten | Quelltext bearbeiten]

A-Posteriori Gaußprozess bei Kenntnis von drei Stützpunkten, dargestellt durch Zufallskurven und Fläche des Vertrauensintervalls
A-posteriori-Gaußprozess, dargestellt durch die Erwartungswertfunktion und Fläche des Vertrauensintervalls
A-posteriori-Gaußprozess bei angenommenem Rausch-Anteil. Der Erwartungswert wird glatter und trifft die Punkte nicht mehr exakt.

Ist der Gaußprozess eines Systems wie oben bestimmt worden, sind also die Mittelwertfunktion und die Kovarianzfunktion bekannt, kann mit dem Gaußprozess eine Vorhersage beliebiger interpolierter Zwischenwerte berechnet werden, wenn nur wenige Stützpunkte der gesuchten Funktion z.B. durch Messwerte bekannt sind. Die Vorhersage erfolgt durch die bedingte Wahrscheinlichkeit einer mehrdimensionalen Gaußverteilungen bei einer gegebenen Teilinformation. Die Dimensionen der mehrdimensionalen Gaußverteilung

werden dabei unterteilt in Werte, die vorhergesagt werden sollen (Index 1) und in bekannte Messwerte (Index 2). Vektoren zerfallen dadurch in zwei Teile. Die Kovarianzmatrix wird entsprechend in vier Blöcke unterteilt: Kovarianzen innerhalb der unbekannten Werte (11), innerhalb der bekannten Messwerte (22) und Kovarianzen zwischen den unbekannten und bekannten Werten (12 und 21). Die Werte der Kovarianzmatrix wird aus der Kovarianzfunktion an diskreten Stellen abgelesen und der Erwartungswertvektor entsprechend aus der Erwartungswertfunktion.

Bei gegebenen bekannten Messwerten ergibt sich durch Einsetzen der bekannten Wahrscheinlichkeitsdichtefunktionen in die Bayes-Formel die bedingte Gaußverteilung

,

wobei die gesuchten unbekannten Variablen sind. Diese resultierende bedingte Normalverteilung (A-Posteriori-Verteilung) enthält im ersten Parameter den gesuchten Erwartungswert, was gleichzeitig dem wahrscheinlichsten Wert entspricht. Zusätzlich wird im zweiten Parameter die vollständige vorhergesagte neue Kovarianzmatrix gegeben. Diese enthält insbesondere die Vertrauensintervalle der vorhergesagten Erwartungswerte, gegeben durch die Wurzel der Hauptdiagonalelemente.

Bei den Eingangsgrößen wird unkorreliertes Messrauschen dadurch modelliert, indem die Varianzen zur Diagonale von addiert werden. Für die Ausgangsgrößen lässt man die entsprechenden Terme in normalerweise weg. In diesem Fall bezieht sich die A-Posteriori-Kovarianzmatrix auf das Vertrauensintervall der Vorhersage bei unterdrücktem Rauschanteil. Enthält ebenfalls Rauschterme, dann spricht man von einer Prädiktiven Verteilung, die neben der Unsicherheit der Vorhersage auch das Rauschen der Ausgangsgrößen beschreibt.

Beim Übergang zum Kontinuum folgt aus dem Gaußprozess

und den N bekannten Messwerten an den Koordinaten eine neue Verteilung

,

gegeben durch den bedingten (A-Posteriori) Gaußprozess

.

ist dabei eine Kovarianzmatrix, die sich durch die Auswertung der Kovarianzfunktion an den diskreten Zeilen und Spalten ergibt. Außerdem wurde entsprechend als Vektor von Funktionen gebildet, indem nur an diskreten Zeilen bzw. Spalten ausgewertet wurde.

In praktischen numerischen Berechnungen mit endlichen Zahlen von Stützstellen wird nur mit der Gleichung der bedingten mehrdimensionalen Normalverteilung gearbeitet. Die Notation des A-Posteriori-Gaußprozesses dient hier nur dem theoretischen Verständnis, um den Grenzwert in Form von Funktionen darzustellen.

Interpretation[Bearbeiten | Quelltext bearbeiten]

Aus dem A-Priori-Gaußprozess erhält man mit den Messwerten einen A-Posteriori-Gaußprozess, der die bekannte Teilinformation berücksichtigt. Dieses Ergebnis der Gaußprozess-Regression repräsentiert nicht nur eine Lösung, sondern die Gesamtheit aller möglichen und mit unterschiedlichen Wahrscheinlichkeiten gewichteten Lösungsfunktionen der Interpolation. Die damit ausgedrückte Unentschiedenheit ist keine Schwäche der Methode. Sie wird dem Problem genau gerecht, da bei einer nicht vollständig bekannten Theorie oder bei verrauschten Messwerten die Lösung prinzipiell nicht eindeutig bestimmbar ist. Meist interessiert man sich jedoch speziell für diejenige Lösung mit der zumindest höchsten Wahrscheinlichkeit. Diese ist durch die Erwartungswertfunktion im ersten Parameter des A-Posteriori-Gaußprozesses gegeben. Aus der bedingten Kovarianzfunktion im zweiten Parameter lässt sich die Streuung um diese Lösung ablesen. Die Diagonale der Kovarianzfunktion gibt eine Funktion mit den Varianzen der vorhergesagten wahrscheinlichsten Funktion wieder. Das Vertrauensintervall ist dann durch die Grenzen gegeben.

Beispiel: Häufigkeit des Suchbegriffs "Snowboard"[Bearbeiten | Quelltext bearbeiten]

Als Beispiel soll eine Extrapolation durchgeführt werden. Die gezeigten Daten beschreiben die relative Häufigkeit als Funktion der Zeit mit der der Suchbegriff "Snowboard" bei Google eingegeben wurde[1]. Hier ist eine periodische, jedoch nicht sinusförmige Jahreszeitabhängigkeit zu erkennen, die durch den Winter auf der Nordhalbkugel zu erklären ist. Außerdem nahm der Trend über das letzte Jahrzehnt kontinuierlich ab. Bei diesem Problem zeigt sich deutlich die Universalität der Gaußprozess-Regression gegenüber anderen auf spezielle Fälle zugeschnittene Interpolationsverfahren, wie die Polynom Regression, Trigonometrische Interpolation oder Splines. Gaußprozesse können sehr einfach auf solche gemischten Eigenschaften angepasst werden.

Die Werteverteilung scheint zunächst aufgrund der Asymmetrie nicht optimal für einen Gaußprozess zu sein. Bei näherer Untersuchung erwies sich jedoch der Logarithmus davon als symmetrisch verteilt. Die Gaußprozess-Regression wurde daher auf den Logarithmus der Daten angewandt. Eine solche Log-Normal-Verteilung liegt vor, wenn ein Zufallsprozess aus vielen unabhängigen Zufallsgrößen zusammengesetzt ist, die sich gegenseitig verstärken, was im vorliegenden Fall von Trends plausibel erscheint. Die Abbildung[2] zeigt schließlich die Extrapolation (rechts der gestrichelten Linie) mit einem nun ebenfalls asymmetrischen Vertrauensintervall (graue Fläche).

Gaußprozess-Regression für die Google-Trend-Statistik für den Suchbegriff "Snowboard"

Literatur[Bearbeiten | Quelltext bearbeiten]

  • C. E. Rasmussen, C. K. I. Williams, Gaussian Processes for Machine Learning (pdf), MIT Press, 2006. ISBN 0-262-18253-X,
  • R. M. Dudley, Real Analysis and Probability, Wadsworth and Brooks/Cole, 1989.
  • B. Simon, Functional Integration and Quantum Physics, Academic Press, 1979.
  • M.L. Stein, Interpolation of Spatial Data: Some Theory for Kriging, Springer, 1999

Weblinks[Bearbeiten | Quelltext bearbeiten]

Software[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Die Daten sind erhältlich bei Google-Trends zum Suchbegriff "Snowboard".
  2. Der Python-Quellcode zur Berechnung und Erzeugung der Abbildung ist auf der Bildbeschreibungsseite zu finden.