Gauß-Prozess

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Ein Gaußprozess (nach Carl Friedrich Gauß) ist in der Wahrscheinlichkeitstheorie ein stochastischer Prozess, bei dem jede endliche Teilmenge von Zufallsvariablen mehrdimensional normalverteilt (gaußverteilt) ist. Umgekehrt bilden Gaußprozesse den Grenzwert mehrdimensionaler Normalverteilungen, bei denen die Zahl der Dimensionen gegen unendlich geht und dadurch ein Kontinuum von Zufallsvariablen beschrieben wird. Aus den normalverteilten Vektoren werden dann beim Übergang zum Gaußprozess normalverteilte Funktionen.

Angewendet werden Gaußprozesse zur mathematischen Modellierung des Verhaltens von Systemen auf Basis von Beobachtungen. Sie bilden ein mächtiges Werkzeug bei der Interpolation, Extrapolation oder Glättung diskreter Messpunkte (Gaußprozess-Regression bzw. Kriging-Verfahren) und finden Anwendung in Klassifizierungsproblemen. Gaußprozesse können wie ein überwachtes Maschinenlernverfahren zur abstrakten Modellierung anhand von Trainingsbeispielen verwendet werden. Im Gegensatz zu anderen Maschinenlernverfahren, wie künstliche neuronale Netze, die mit Beispielen trainiert werden müssen, werden Gaußprozesse aus empirischen statistischen Größen der Beispiele abgeleitet, unter Verwendung von Linearer Algebra und Wahrscheinlichkeitsrechnung. Der Vorteil liegt dabei einerseits in einer hohen numerischen Effizienz und andererseits darin, dass der gesamte mathematische Vorgang sehr transparent und verständlich bleibt. Zudem liefert das Verfahren für jeden Ausgangswert ein zugehöriges Vertrauensintervall, das die eigene Vorhersagefähigkeit einschätzt, während bekannte Fehler der Eingangsgrößen korrekt fortgepflanzt werden.

Definition[Bearbeiten | Quelltext bearbeiten]

Ein Gaußprozess ist ein spezieller stochastischer Prozess auf einer beliebigen Indexmenge T, wenn seine endlichdimensionalen Verteilungen mehrdimensionale Normalverteilungen (auch Gauß-Verteilungen) sind. Es soll also für alle die multivariate Verteilung von durch eine n-dimensionale Normalverteilung gegeben sein.

Ein Gauß-Prozess heißt zentriert, wenn sein Erwartungswert konstant 0 ist, also wenn für alle gilt.

Darstellung[Bearbeiten | Quelltext bearbeiten]

Analog zur ein- und mehrdimensionalen Gaußverteilung ist ein Gaußprozess über seine ersten beiden Momente vollständig und eindeutig bestimmt. Bei der mehrdimensionalen Gaußverteilung sind dies der Erwartungswertvektor und die Kovarianzmatrix . Beim Gaußprozess treten an deren Stelle eine Erwartungswertfunktion und eine Kovarianzfunktion . Diese Funktionen können als Vektor mit kontinuierlichen Zeilen bzw. als Matrix mit kontinuierlichen Zeilen und Spalten aufgefasst werden. Folgende Tabelle vergleicht eindimensionale und mehrdimensionale Gaußverteilungen mit Gaußprozessen.

Art der Verteilung Kurzschreibweise Größen Wahrscheinlichkeitsdichtefunktion
Eindimensionale Gaußverteilung
Mehrdimensionale Gaußverteilung
Gaußprozess
(keine analytische Darstellung)

Die Wahrscheinlichkeitsdichtefunktion eines Gaußprozesses lässt sich nicht analytisch darstellen, da es keine entsprechende Notation für Operationen mit kontinuierlichen Matrizen gibt. Das erweckt den Eindruck, dass die Eigenschaft der unendlichen Dimensionen und Freiheitsgrade die Handhabung unmöglich macht. In praktischen Berechnungen werden jedoch immer nur endlich viele Stützstellen benötigt und daher wie mit endlich dimensionalen Gaußverteilungen gerechnet. Der eigentliche Gaußprozess wird dabei nur in einem Zwischenschritt benötigt, nämlich dann, wenn Werte an neuen Stützstellen ausgelesen werden sollen, wie bei der Interpolation. In diesem Zwischenschritt wird der Gaußprozess, d.h. die Erwartungswertfunktion und Kovarianzfunktion, durch geeignete analytische Ausdrücke dargestellt und approximiert.

Gaußprozesse mit bekannter analytischer Kovarianzfunktion[Bearbeiten | Quelltext bearbeiten]

Bei folgenden speziellen Beispielen können Gaußprozesse exakt analytisch dargestellt werden:

  • Der Wiener-Prozess (bzw. Brownsche Bewegung) hat Erwartungswertfunktion und Kovarianzfunktion .
  • Die Brownsche Brücke mit Erwartungswertfunktion und Kovarianzfunktion .
  • Das Gauß'sche weiße Rauschen hat Erwartungswert 0 und Kovarianzfunktion (Kronecker-Delta)
  • Ist und , zwei integrierbare reellwertige Funktionen sowie ein Wiener-Prozess, so ist der Ito-Prozess
ein Gaußprozess mit Erwartungswertfunktion und Kovarianzfunktion .

Gaußprozess-Regression[Bearbeiten | Quelltext bearbeiten]

Problemstellung und Lösungsverfahren[Bearbeiten | Quelltext bearbeiten]

Gaußprozesse können zur Interpolation, Extrapolation oder Glättung von diskreten empirischen Messdaten einer Abbildung verwendet werden. Diese Anwendung von Gaußprozessen nennt man Gaußprozess-Regression und zeigt Eigenschaften eines Maschinenlernverfahrens. Sie besteht aus folgenden Schritten:

  1. Konstruktion eines Gaußprozesses: Die Kovarianzfunktion wird nach bestimmten qualitativen Eigenschaften des Systems ausgewählt oder aus Kovarianzfunktionen unterschiedlicher Eigenschaften nach bestimmten Regeln kombiniert.
  2. Erwartungswertfunktion: Liegt ein gleichbleibender Trend in den Messwerten vor, wird eine A-priori-Erwartungswertfunktion zum Ausgleich des Trends gebildet.
  3. Feinabstimmung der Parameter: um quantitativ korrekte Parameter zu erhalten, wird die gewählte Kovarianzfunktion auf die vorhandenen Messwerte gezielt oder durch ein Optimierungsverfahren angepasst bis die Kovarianzfunktion die empirischen Kovarianzen wiedergibt.
  4. Bedingte Verteilung: Durch Berücksichtigung von bekannten Messwerten wird aus dem A-Priori-Gaußprozess der bedingte (A-Posteriori) Gaußprozess berechnet.
  5. Interpretation: Aus dem A-Posteriori-Gaußprozess wird schließlich die Erwartungswertfunktion als die Vorhersage abgelesen und gegebenenfalls die Diagonale der Kovarianzfunktion als Funktion des Vertrauensintervalls.

Konstruktion eines Gaußprozesses[Bearbeiten | Quelltext bearbeiten]

In praktischen Anwendungen muss aus endlich vielen diskreten Messwerten oder endlich vielen Beispielkurven ein Gaußprozess bestimmt werden. In Analogie zur eindimensionalen Gaußverteilung, die über den Mittelwert und die Standardabweichung diskreter Messwerte vollständig bestimmt ist, würde man beim Gaußprozess einzelne, jedoch ganze Funktionen erwarten, um damit eine Mittelwertfunktion und eine Kovarianzfunktion zu berechnen. Eine solche Verteilung aus gegeben exemplarischen Funktionen liegt jedoch häufig nicht vor. In der Mehrzahl der Anwendungen sind diskrete Stützstellen einer einzelnen Funktion bekannt, die interpoliert oder geglättet werden sollen.

Auch in einem solchen Fall kann ein Gaußprozess abgeleitet werden. Dazu wird die zu bestimmende Funktion, die aus einzelnen Messpunkten besteht, gedanklich von jedem Punkt aus betrachtet. In Relativkoordinaten ausgedrückt, entstehen so aus einer einzelnen Funktion viele zueinander verschobene Funktionen. Die Verteilung dieser Schar aus relativen Funktionen kann nun mit einer Kovarianzfunktion beschrieben werden. Man nennt diese relative Kovarianzfunktion eine stationäre Kovarianzfunktion. Sie gilt gleichermaßen für alle Orte der Funktion und beschreibt jeweils die immer gleiche (stationäre) Korrelation eines Punkts zu seiner Nachbarschaft, sowie die Korrelation benachbarter Punkte untereinander. Die Kovarianzfunktion wird analytisch dargestellt und heuristisch bestimmt oder in der Literatur nachgeschlagen. Die freien Parameter der analytischen Kovarianzfunktion werden an die Messwerte angepasst.

Sehr viele physikalische Systeme zeigen eine ähnliche Form der stationären Kovarianzfunktion, so dass mit wenigen tabellierten analytischen Kovarianzfunktionen die meisten Anwendungen beschrieben werden können. So gibt es beispielsweise Kovarianzfunktionen für die abstrakten Eigenschaften Glattheit, Rauhigkeit, Periodizität oder Rauschen, die nach bestimmten Vorschriften kombiniert und an die Messdaten angepasst werden können.

Die folgende Tabelle zeigt Beispiele von Kovarianzfunktionen mit solchen abstrakten Eigenschaften. Die Beispiel-Kurven wurden zur Veranschaulichung mit einem Zufallsgenerator für mehrdimensionale Normalverteilungen erzeugt und repräsentieren typische Kurven des jeweiligen Gaußprozesses. Dazu wird jeweils mit der Kovarianzmatrix und einem Zufallsgenerator ein in sich korrelierter Zufallsvektor erzeugt und als Kurve dargestellt. Die stationären Kovarianzfunktionen werden hier als eindimensionale Funktionen mit als abgekürzt.

Eigenschaft Beispiele stationärer Kovarianzfunktionen Zufallsfunktionen
Glatt Gaussianprocess smooth.png
Rau Gaussianprocess rough.png
Periodisch Gaussianprocess periodic.png
Rauschen Gaussianprocess noise.png
Gemischt
(periodisch,
glatt und
verrauscht)
Gaussianprocess mix.png

Die Eigenschaften können nach bestimmten Rechenvorschriften kombiniert werden. Das grundsätzliche Ziel bei der Konstruktion einer Kovarianzfunktion ist, die wahren Kovarianzen möglichst gut wiederzugeben, während gleichzeitig die Bedingung der positiven Definitheit erfüllt wird. Die gezeigten Beispiele besitzen letztere Eigenschaft und auch die Additionen und Multiplikationen solcher Funktionen bleiben positiv definit. Die unterste Kovarianzfunktion in der Tabelle zeigt eine mögliche Mischung verschiedener Eigenschaften. Die Funktionen in diesem Beispiel sind über eine bestimmte Distanz hinweg periodisch, weisen ein relativ glattes Verhalten auf und sind mit einem bestimmten Messrauschen überlagert.

Was hier mit eindimensionalen Funktionen gezeigt ist, lässt sich analog auch auf mehrdimensionale Systeme übertragen, indem lediglich der Abstand durch eine entsprechende n-dimensionale Abstandsnorm ersetzt wird.

Gaußprozesse können auch nicht-stationionäre Eigenschaften der Kovarianzfunktion besitzen, solange auch hier die positive Definitheit sichergestellt ist.

A-Priori Erwartungswertfunktion[Bearbeiten | Quelltext bearbeiten]

Damit der Gaußprozess vollständig definiert ist, muss neben der Kovarianzfunktion auch die Erwartungswertfunktion bekannt sein, sofern ein gleichbleibender Trend in den Daten vorhanden ist. Diese kann beispielsweise über eine klassische Polynom-Regression erfolgen. In vielen Fällen ist jedoch ein konstanter Mittelwert eine sehr gute Näherung.

Feinabstimmung der Parameter[Bearbeiten | Quelltext bearbeiten]

A-Priori-Gaußprozess, dargestellt durch damit gewonnene Zufallsfunktionen und durch die A-Priori-Standardabweichung

Die qualitativ konstruierten Kovarianzfunktionen enthalten Parameter, sogenannte Hyperparameter, die an das System angepasst werden müssen, um quantitativ korrekte Ergebnissen erzielen zu können. Dies kann durch Zusatzwissen über das System erfolgen, wie z.B. mit einem bekannten Anteil an unkorreliertem Messrauschen oder der empirischen A-Priori-Standardabweichung des Gesamtsystems (sigma prior).

Die Parameter können aber auch automatisch angepasst werden. Dazu wird die Randwahrscheinlichkeit durch einen Optimierungsalgorithmus maximiert. Die Randwahrscheinlichkeit erhält man durch Einsetzen der Daten einer Messkurve in die Formel für die mehrdimensionale Wahrscheinlichkeitsdichte. Da die Exponentialfunktion streng monoton ist, genügt es, den Exponenten zu maximieren, die sogenannte Log-Marginal-Likelihood-Funktion:

Mathematisch bewirkt die Maximierung der Randwahrscheinlickeit eine optimale Abwägung zwischen der Genauigkeit (Minimierung der Residuen) und der Einfachheit der Theorie. Die Theorie ist dann als einfach zu betrachten, wenn die Kovarianzfunktion möglichst große Werte in den Nebendiagonalen besitzt und dadurch eine hohe Korrelation im System vorliegt. Das bedeutet, dass wenige Freiheitsgrade im System vorhanden sind und somit die Theorie in gewisser Weise mit wenigen Regeln auskommt, um alle Zusammenhänge zu beschreiben. Sind diese Regeln zu einfach gewählt, würden die Messungen nicht hinreichend gut wiedergegeben werden und die residuellen Fehler wachsen zu stark an. Bei einer maximalen Randwahrscheinlichkeit ist das Gleichgewicht einer optimalen Theorie gefunden, sofern hinreichend viele Messdaten für eine gute Konditionierung zur Verfügung standen. Diese implizite Eigenschaft der Maximum-Likelihood-Methode kann auch als Ockhams Sparsamkeistprinzip verstanden werden.

Bedingter Gaußprozess bei bekannten Stützpunkten[Bearbeiten | Quelltext bearbeiten]

A-Posteriori Gaußprozess bei Kenntnis von drei Stützpunkten, dargestellt durch Zufallskurven und Fläche des Vertrauensintervalls
A-posteriori-Gaußprozess, dargestellt durch die Erwartungswertfunktion und Fläche des Vertrauensintervalls
A-posteriori-Gaußprozess bei angenommenem Rausch-Anteil. Der Erwartungswert wird glatter und trifft die Punkte nicht mehr exakt.

Ist der Gaußprozess eines Systems wie oben bestimmt worden, sind also die Mittelwertfunktion und die Kovarianzfunktion bekannt, kann mit dem Gaußprozess eine Vorhersage beliebiger interpolierter Zwischenwerte berechnet werden, wenn nur wenige Stützpunkte der gesuchten Funktion z.B. durch Messwerte bekannt sind. Die Vorhersage erfolgt durch die bedingte Wahrscheinlichkeit einer mehrdimensionalen Gaußverteilungen bei einer gegebenen Teilinformation. Die Dimensionen der mehrdimensionalen Gaußverteilung

werden dabei unterteilt in Werte, die vorhergesagt werden sollen (Index 1) und in bekannte Messwerte (Index 2). Vektoren zerfallen dadurch in zwei Teile. Die Kovarianzmatrix wird entsprechend in vier Blöcke unterteilt: Kovarianzen innerhalb der unbekannten Messwerte (11), innerhalb der bekannten Werte (22) und Kovarianzen zwischen den unbekannten und bekannten Werten (12 und 21). Die Werte der Kovarianzmatrix wird aus der Kovarianzfunktion an diskreten Stellen abgelesen und der Erwartungswertvektor entsprechend aus der Erwartungswertfunktion.

Bei gegebenen bekannten Messwerten ergibt sich durch Einsetzen der bekannten Wahrscheinlichkeitsdichtefunktionen in die Bayes-Formel die bedingte Gaußverteilung

,

wobei die gesuchten unbekannten Variablen sind. Diese resultierende bedingte Normalverteilung (A-Posteriori-Verteilung) enthält im ersten Parameter den gesuchten Erwartungswert, was gleichzeitig dem wahrscheinlichsten Wert entspricht. Zusätzlich wird im zweiten Parameter die vollständige vorhergesagte neue Kovarianzmatrix gegeben. Diese enthält insbesondere die Vertrauensintervalle der vorhergesagten Erwartungswerte, gegeben durch die Wurzel der Hauptdiagonalelemente.

Bei den Eingangsgrößen wird unkorreliertes Messrauschen dadurch modelliert, indem die Varianzen zur Diagonale von addiert werden. Für die Ausgangsgrößen lässt man die entsprechenden Terme in normalerweise weg. In diesem Fall bezieht sich die A-Posteriori-Kovarianzmatrix auf das Vertrauensintervall der Vorhersage bei unterdrücktem Rauschanteil. Enthält ebenfalls Rauschterme, dann spricht man von einer Prädiktiven Verteilung, die neben der Unsicherheit der Vorhersage auch das Rauschen der Ausgangsgrößen beschreibt.

Beim Übergang zum Kontinuum folgt aus dem Gaußprozess

und den N bekannten Messwerten an den Koordinaten eine neue Verteilung

,

gegeben durch den bedingten (A-Posteriori) Gaußprozess

.

ist dabei eine Kovarianzmatrix, die sich durch die Auswertung der Kovarianzfunktion an den diskreten Zeilen und Spalten ergibt. Außerdem wurde entsprechend gebildet, indem nur an diskreten Zeilen bzw. Spalten ausgewertet wurde.

In praktischen numerischen Berechnungen mit endlichen Zahlen von Stützstellen wird nur mit der Gleichung der bedingten mehrdimensionalen Normalverteilung gearbeitet. Die Notation des A-Posteriori-Gaußprozesses dient hier nur dem theoretischen Verständnis, um den Grenzwert in Form von Funktionen darzustellen.

Interpretation[Bearbeiten | Quelltext bearbeiten]

Mit Gaußprozessen ist eine Vorhersage der wahrscheinlichsten Funktion möglich, bei Kenntnis einer bestimmten Menge diskreter Stützpunkte. Aus dem A-Priori-Gaußprozess erhält man durch die Nebenbedingung einer durch Messwerte bekannten Teilinformation einen neuen A-Posteriori-Gaußprozess. Neben der darin enthaltenen vorhergesagten wahrscheinlichsten Erwartungswertfunktion , die im ersten Parameter des neuen Gaußprozesses zu finden ist, sind auch die veränderten Kovarianzen im zweiten Parameter gegeben. Die Diagonale der neuen Kovarianzfunktion gibt eine Funktion mit den Varianzen der vorhergesagten Funktion wieder. Das Vertrauensintervall ist dann gegeben durch die Grenzen .

Beispiel: Häufigkeit des Suchbegriffs "Snowboard"[Bearbeiten | Quelltext bearbeiten]

Als Beispiel soll eine Extrapolation durchgeführt werden. Die gezeigten Daten beschreiben die relative Häufigkeit als Funktion der Zeit mit der der Suchbegriff "Snowboard" bei Google eingegeben wurde[1]. Hier ist eine periodische, jedoch nicht sinusförmige Jahreszeitabhängigkeit zu erkennen, die durch den Winter auf der Nordhalbkugel zu Erklären ist. Außerdem nahm der Trend über das letzte Jahrzehnt kontinuierlich ab. Hier zeigt sich die Stärke der Gaußprozess-Regression gegenüber anderen Interpolationsverfahren, wie die Polynom Regression, Trigonometrische Interpolation oder Splines: Gaußprozesse können sehr einfach auf solche gemischten Eigenschaften angepasst werden.

Die Werteverteilung scheint zunächst aufgrund der Asymmetrie nicht optimal für einen Gaußprozess zu sein. Bei näherer Untersuchung erwies sich jedoch der Logarithmus davon als symmetrisch verteilt. Die Gaußprozess-Regression wurde daher auf den Logarithmus der Daten angewandt. Eine solche Log-Normal-Verteilung liegt vor, wenn ein Zufallsprozess aus vielen unabhängigen Zufallsgrößen zusammengesetzt ist, die sich gegenseitig verstärken, was im vorliegenden Fall von Trends durchaus plausibel ist. Die Abbildung zeigt schließlich die Extrapolation (rechts der gestrichelten Linie) mit einem nun ebenfalls asymmetrischen Vertrauensintervall.

Gaußprozess-Regression für die Google-Trend-Statistik für den Suchbegriff "Snowboard"

Literatur[Bearbeiten | Quelltext bearbeiten]

  • C. E. Rasmussen, C. K. I. Williams, Gaussian Processes for Machine Learning, MIT Press, 2006. ISBN 0-262-18253-X
  • R. M. Dudley, Real Analysis and Probability, Wadsworth and Brooks/Cole, 1989.
  • B. Simon, Functional Integration and Quantum Physics, Academic Press, 1979.
  • M.L. Stein, Interpolation of Spatial Data: Some Theory for Kriging, Springer, 1999

Weblinks[Bearbeiten | Quelltext bearbeiten]

Software[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Die Daten sind erhältlich bei Google-Trends zum Suchbegriff "Snowboard".