Gauß-Prozess

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Ein Gaußprozess ist eine verallgemeinerte mehrdimensionale Gaußverteilung (nach Carl Friedrich Gauß) über unendlich viele Zufallsvariablen, von denen jede endliche Untermenge gaußverteilt ist. Während die mehrdimensionale Gaußverteilung eine Gaußverteilung von Vektoren darstellt, beschreibt ein Gaußprozess die Gaußverteilung eines Kontinuums von Zufallsvariablen und insbesondere eine Gaußverteilung von Funktionen. Angewendet werden Gaußprozesse häufig zur Interpolation, Extrapolation oder Glättung von diskreten Messpunkten. Die Besonderheit der Methode liegt darin, dass sie nahezu vollständig auf klassischer Wahrscheinlichkeitsrechnung beruht und sowohl die wahrscheinlichsten Werte vorhersagen kann, als auch die zugehörigen Unsicherheiten bzw. Vertrauensintervalle. Jede Eingangs- und Ausgangsgröße der Theorie setzt sich aus einem Wert und der Unsicherheit des Wertes zusammen, wobei stets die korrekte Fehlerfortpflanzung berücksichtigt wird. Die Methode des Gaußprozesses kann als überwachtes Maschinenlernverfahren zur abstrakten Modellierung mittels Trainingsbeispielen verwendet werden. Im Gegensatz zu anderen Maschinenlernverfahren, wie neuronale Netze, zeichnet sich die Methode der Gaußprozesse durch eine besonders hohe Transparenz und Verstehbarkeit des gesamten mathematischen Vorgangs aus, da sie hauptsächlich auf Linearer Algebra und gaußscher Fehlerrechnung basiert.

Definition[Bearbeiten]

Ein Gaußprozess ist ein spezieller stochastischer Prozess (X_t)_{t \in T} auf einer beliebigen Indexmenge T, wenn seine endlichdimensionalen Verteilungen mehrdimensionale Normalverteilungen (auch Gauß-Verteilungen) sind. Es soll also für alle  t_1, t_2, \dotsc, t_n \in T die multivariate Verteilung von  (X_{t_1}, X_{t_2}, \dotsc, X_{t_n}) durch eine n-dimensionale Normalverteilung gegeben sein.

Ein Gauß-Prozess heißt zentriert, wenn sein Erwartungswert konstant 0, die Erwartungswertfunktion also die Nullfunktion ist.

Darstellung[Bearbeiten]

Analog zur ein- und mehrdimensionalen Gaußverteilung ist ein Gaußprozess über seine ersten beiden Momente vollständig und eindeutig bestimmt. Bei der mehrdimensionalen Gaußverteilung sind dies der Mittelwert-Vektor \mu (auch Erwartungswert-Vektor) und die Kovarianzmatrix \Sigma. Beim Gaußprozess treten an dessen Stelle eine Mittelwert-Funktion m(t) und eine Kovarianzfunktion k(t,t'). Diese Funktionen können als Vektor mit kontinuierlichen Zeilen bzw. als Matrix mit kontinuierlichen Zeilen und Spalten aufgefasst werden. Folgende Tabelle vergleicht eindimensionale und mehrdimensionale Gaußverteilungen und Gaußprozesse.

Art der Verteilung Kurzschreibweise Größen Analytische Darstellung
Eindimensionale Gaußverteilung X \sim \mathcal N(\mu, \sigma^2)  X,\mu,\sigma\in \R p(x) = \frac {1}{\sigma\sqrt{2\pi}}\exp\bigl\lbrace-\tfrac {1}{2} (x-\mu)^2/{\sigma^{2}}\bigr\rbrace
Mehrdimensionale Gaußverteilung \vec X \sim \mathcal N_p(\vec\mu, \Sigma)  \vec X,\vec\mu\in \R^{p}; \Sigma \in \R^{p\times p} p(\vec x)=\frac{1}{(2\pi)^{\frac p 2}|\Sigma|^{\frac{1}{2}}} \exp\bigl\lbrace-\tfrac{1}{2}(\vec x-\vec\mu)^{T}\Sigma^{-1}(\vec x-\vec\mu)\bigr\rbrace
Gaußprozess (unendlichdimens.) f(t)\sim \mathcal {GP}(m(t),k(t,t'))  f(t),m(t): \R^n\to \R
 k(t,t'): \R^{n+n}\to \R
(keine analytische Darstellung)

Ein Gaußprozess lässt sich nicht allgemein analytisch darstellen, was jedoch für die Anwendungen nicht von Bedeutung ist. Die Darstellung der Kovarianzfunktion kann über eine geeignete analytische Funktion erfolgen.

Berechnung eines Gaußprozesses aus diskreten Messwerten[Bearbeiten]

In praktischen Anwendungen liegen stets nur endlich viele diskrete Messwerte vor, mit denen ein Gaußprozess bestimmt werden soll. In Analogie zur eindimensionalen Gaußverteilung, die über den Mittelwert und die Standardabweichung diskreter Messwerte vollständig bestimmt werden kann, müssten beim Gaußprozess einzelne, jedoch vollständige Funktionen vorliegen. Dieser Fall einer Verteilung über verschiedene gegebene Funktionen ist für die Praxis jedoch weniger bedeutend, vielmehr sollte eine einzige kontinuierliche Funktion berechnet werden, während nur diskrete Stützstellen vorliegen. Auch dafür eignet sich der Gaußprozess. Dazu wird die zu bestimmende Funktion, die aus einzelnen Messpunkten besteht, von jedem Messpunkt aus betrachtet. Jeweils in Relativkoordinaten ausgedrückt, zerfällt dadurch die Funktion mit N Stützstellen in N Funktionen mit jeweils N Stützstellen. Die Verteilung dieser relativen Funktionen kann nun mit einer Kovarianzfunktion erfasst werden. Man nennt diese Art der relativen Kovarianzfunktion eine stationäre Kovarianzfunktion. Sie wird analytisch dargestellt und heuristisch bestimmt oder in der Literatur nachgeschlagen. Die freien Parameter der analytischen Kovarianzfunktion werden an die Messwerte angepasst. Damit der Gaußprozess vollständig definiert ist, muss neben der Kovarianzfunktion auch die Mittelwertfunktion bekannt sein. Diese kann über eine klassische Polynom-Regression oder lokale Polynom-Regression erfolgen. Ist der Gaußprozess bestimmt, können damit beliebige interpolierte Zwischenwerte vorhergesagt werden.

Vorhersage einer Funktion bei wenigen bekannten diskreten Stützpunkten[Bearbeiten]

Ist ein Gaußprozess bestimmt worden, sind also die Mittelwertfunktion und die Kovarianzfunktion bekannt, kann mit dem Gaußprozess eine Vorhersage einer Funktion berechnet werden, wenn nur wenige gemessene Stützpunkte der gesuchten Funktion bekannt sind. Die Vorhersage erfolgt analog zur Vorhersage bei der mehrdimensionalen Gaußverteilung über die bedingte Wahrscheinlichkeit. Bei der mehrdimensionalen Gaußverteilung

{X} = \binom{{X}_1}{{X}_2} \sim \mathcal N\left(\binom{{\mu}_1}{{\mu}_2}, \begin{pmatrix}{\Sigma}_{11} & {\Sigma}_{12} \\ {\Sigma}_{21} & {\Sigma}_{22}\end{pmatrix}\right)

ergibt sich die bedingte Gaußverteilung

X_1 \mid X_2 \sim \mathcal N \left(\mu_1 + \Sigma_{12}\Sigma_{22}^{-1} (X_2 - \mu_2),  \Sigma_{11} - \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}\right) ,

wobei X_1 die gesuchten unbekannten Variablen sind und X_2 die bekannten. Die neue Verteilung gibt im ersten Parameter den gesuchten Mittelwert der Verteilung, was der Vorhersage des wahrscheinlichsten Wertes entspricht. Da neben dem Mittelwert auch die Kovarianzmatrix vorhergesagt wird, ist die vollständige neue Gaußverteilung gegeben, die insbesondere die Vertrauensintervalle der vorhergesagten Mittelwerte enthält (Wurzel aus den Hauptdiagonalelementen der Kovarianzmatrix).

Beim Gaußprozess

f(t) \sim \mathcal {GP}(m(t),k(t,t'))

gilt für die Vorhersage für N gegebene einzelne Messpunkte mit den Abszissen t^*=(t_1,t_2,\ldots,t_N) und den Ordinaten y=(y_1,y_2,\ldots,y_N) die neue bedingte Verteilung

t\mid t^*,y \sim \mathcal {GP}(\left(m(t) + \mathbf{k}(t^*,t)^TK(t^*,t^*)^{-1} (y - m(t)),  k(t,t') - \mathbf{k}(t^*,t)^TK(t^*,t^*)^{-1}\mathbf{k}(t^*,t)\right) .

K ist dabei eine Kovarianzmatrix, die sich durch die Auswertung der Kovarianzfunktion k an den diskreten Zeilen und Spalten ti ergibt. k wurde entsprechend gebildet, indem k nur an diskreten Zeilen ausgewertet wurde. k entspricht daher einem Vektor über Funktionen.

Mit dem Gaußprozess ist also eine Vorhersage der wahrscheinlichsten Funktion möglich, bei Kenntnis einer bestimmten Menge diskreter Stützpunkte. Neben der vorhergesagten wahrscheinlichsten Funktion (im ersten Parameter des Gaußprozesses) sind wiederum auch die Kovarianzen (im zweiten Parameter) gegeben. Die Diagonale kneu(t,t) der neuen bedingten Kovarianzfunktion gibt eine Funktion mit den Varianzen der vorhergesagten Funktion wieder. Das Vertrauensintervall ist dann m_{\mathrm neu}(t) \pm \sqrt{k_{\mathrm neu}(t,t)}.

Beispiele für Gaußprozesse[Bearbeiten]

  • Der Wiener-Prozess (bzw. Brownsche Bewegung) hat Erwartungswertfunktion t \mapsto 0 und Kovarianzfunktion  (t,t') \mapsto \min(t,t') .
  • Ist T=\mathbb{R}_{+} und f,g zwei integrierbare reellwertige Funktionen sowie W ein Wiener-Prozess, so ist der Ito-Prozess X_{t'}= \int_0^{t'} f(t) \mathrm dt+ \int_0^{t'} g(t) \mathrm dW_t ein Gauß-Prozess mit Erwartungswertfunktion  {t'} \mapsto \int_0^{t'} f(t) \mathrm dt und Kovarianzfunktion  (t,{t'}) \mapsto \int_0^{\min(t,{t'})} g^2(r) \mathrm dr .

Literatur[Bearbeiten]

  • R. M. Dudley, Real Analysis and Probability, Wadsworth and Brooks/Cole, 1989.
  • B. Simon, Functional Integration and Quantum Physics, Academic Press, 1979.
  • C. E. Rasmussen, C. K. I. Williams, Gaussian Processes for Machine Learning, MIT Press, 2006. ISBN 0-262-18253-X
  • M.L. Stein, Interpolation of Spatial Data: Some Theory for Kriging, Springer, 1999

Weblinks[Bearbeiten]