Gauß-Prozess

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Ein Gaußprozess (nach Carl Friedrich Gauß) ist in der Wahrscheinlichkeitstheorie ein stochastischer Prozess, bei dem jede endliche Teilmenge von Zufallsvariablen mehrdimensional normalverteilt (gaußverteilt) ist. Verallgemeinert sind Gaußprozesse gaußförmige Wahrscheinlichkeitsverteilungen der Funktionswerte eines zeitlichen, räumlichen oder sonstigen Kontinuums. Im Grenzwert unendlich vieler und dicht liegender Stützstellen beschreibt ein Gaußprozess ein Kontinuum aus Zufallsvariablen mit bestimmten Korrelationen. Er bildet dann eine unendlichdimensionale Normalverteilung, deren Stichproben Funktionen sind.

Angewendet werden Gaußprozesse zur mathematischen Modellierung des Verhaltens von nicht-deterministischen Systemen auf der Basis von Beobachtungen. Gaußprozesse eignen sich zur Signalanalyse und -synthese, bilden ein mächtiges Werkzeug bei der Interpolation, Extrapolation oder Glättung beliebig dimensionaler diskreter Messpunkte (Gaußprozess-Regression bzw. Kriging-Verfahren) und finden Anwendung in Klassifizierungsproblemen. Gaußprozesse können wie ein überwachtes Maschinenlernverfahren zur abstrakten Modellierung anhand von Trainingsbeispielen verwendet werden. Im Gegensatz zu anderen Maschinenlernverfahren, wie künstliche neuronale Netze, die mit Beispielen trainiert werden müssen, werden Gaußprozesse aus statistischen Größen der Beispiele abgeleitet, unter Verwendung von Linearer Algebra und Wahrscheinlichkeitsrechnung. Der Vorteil liegt dabei einerseits in einer hohen numerischen Effizienz und andererseits darin, dass der gesamte mathematische Vorgang sehr transparent und kontrollierbar bleibt. Zudem liefert das Verfahren für jeden Ausgangswert ein zugehöriges Vertrauensintervall, das die eigene Vorhersagefähigkeit einschätzt, während bekannte Fehler der Eingangsgrößen korrekt fortgepflanzt werden.

Definitionen[Bearbeiten | Quelltext bearbeiten]

Ein Gaußprozess ist ein spezieller stochastischer Prozess auf einer beliebigen Indexmenge , wenn seine endlichdimensionalen Verteilungen mehrdimensionale Normalverteilungen (auch Gauß-Verteilungen) sind. Es soll also für alle die multivariate Verteilung von durch eine -dimensionale Normalverteilung gegeben sein.

Ein Gaußprozess heißt zentriert, wenn sein Erwartungswert konstant 0 ist, also wenn für alle .

Ein Gaußprozess heißt stationär, wenn seine Kovarianzfunktion translationssymmetrisch ist, also durch eine relative Funktion beschrieben werden kann.

Ein Gaußprozess heißt radial, wenn seine Kovarianzfunktion stationär und zusätzlich radialsymmetrisch ist, also durch eine Funktion mit einem eindimensionalen Parameter mit der Euklidischen Norm beschrieben werden kann.

Beschreibung von Gaußprozessen[Bearbeiten | Quelltext bearbeiten]

Notation[Bearbeiten | Quelltext bearbeiten]

Analog zur ein- und mehrdimensionalen Gaußverteilung ist ein Gaußprozess über seine ersten beiden Momente vollständig und eindeutig bestimmt. Bei der mehrdimensionalen Gaußverteilung sind dies der Erwartungswertvektor und die Kovarianzmatrix . Beim Gaußprozess treten an deren Stelle eine Erwartungswertfunktion und eine Kovarianzfunktion . Diese Funktionen können als Vektor mit kontinuierlichen Zeilen bzw. als Matrix mit kontinuierlichen Zeilen und Spalten aufgefasst werden. Folgende Tabelle vergleicht eindimensionale und mehrdimensionale Gaußverteilungen mit Gaußprozessen. Das Symbol kann gelesen werden als "ist verteilt wie".

Art der Verteilung Notation Größen Wahrscheinlichkeitsdichtefunktion
Eindimensionale Gaußverteilung
Mehrdimensionale Gaußverteilung
Gaußprozess
(keine analytische Darstellung)

Die Wahrscheinlichkeitsdichtefunktion eines Gaußprozesses lässt sich nicht analytisch darstellen, da es keine entsprechende Notation für Operationen mit kontinuierlichen Matrizen gibt. Das erweckt den Eindruck, dass man mit Gaußprozessen nicht wie mit endlichdimensionalen Normalverteilungen rechnen kann. Tatsächlich ist aber die wesentliche Eigenschaft des Gaußprozesses nicht die Unendlichkeit der Dimensionen, sondern vielmehr die Zuordnung der Dimensionen zu bestimmten Koordinaten einer Funktion. In praktischen Anwendungen hat man es immer nur mit endlich vielen Stützstellen zu tun und kann daher alle Berechnungen wie im endlichdimensionalen Fall durchführen. Der Grenzwert für unendlich viele Dimensionen wird dabei nur in einem Zwischenschritt benötigt, nämlich dann, wenn Werte an neuen interpolierten Stützstellen ausgelesen werden sollen. In diesem Zwischenschritt wird der Gaußprozess, d. h. die Erwartungswertfunktion und Kovarianzfunktion, durch geeignete analytische Ausdrücke dargestellt bzw. approximiert. Dabei erfolgt die Zuordnung zu den Stützstellen direkt über die parametrisierten Koordinaten im analytischen Ausdruck. Im endlichdimensionalen Fall mit diskreten Stützstellen werden die notierten Koordinaten den Dimensionen über ihre Indizes zugeordnet.

Beispiel eines Gaußprozesses[Bearbeiten | Quelltext bearbeiten]

Als ein einfaches Beispiel sei ein Gaußprozess

mit einer skalaren Variable (Zeit) durch die Erwartungswertfunktion

und Kovarianzfunktion

gegeben. Dieser Gaußprozess beschreibt ein endloses zeitliches elektrisches Signal mit gaußschem weißen Rauschen mit einer Standardabweichung von einem Volt um eine mittlere Spannung von 5 Volt.

Liste gängiger Gaußprozesse[Bearbeiten | Quelltext bearbeiten]

  • Konstant: und
Entspricht einem konstanten Wert aus einer Gaußverteilung mit Standardabweichung .
  • Offset: und
Entspricht einem konstanten Wert, der durch fest vorgegeben ist.
  • Gaußsches Weißes Rauschen:
(: Standardabweichung, : Kronecker-Delta)
  • Rational quadratisch:
  • Gamma-Exponentiell:
  • Ornstein-Uhlenbeck:
Beschreibt stetige, nicht-differenzierbare Funktionen, außerdem weißes Rauschen, nachdem es einen RC-Tiefpass-Filter durchlaufen hat.
  • Quadratisch exponentiell:
Beschreibt glatte unendlich oft differenzierbare Funktionen.
  • Matérn:
Sehr universell verwendbare Gaußprozesse zur Beschreibung der meisten typischen Messkurven. Die Funktionen des Gaußprozesses sind -mal stetig differenzierbar, wenn . Gängige Spezialfälle sind:
entspricht der Ornstein-Uhlenbeck-Kovarianzfunktion und der quadratisch exponentiellen.
  • Periodisch:
Funktionen von diesem Gaußprozess sind sowohl periodisch mit der Periodendauer als auch glatt (quadratisch exponentiell).
  • Polynomial:
Wächst nach außen stark an und ist meist eine schlechte Wahl bei Regressionsproblemen, kann aber bei hochdimensionalen Klassifizierungsproblemen nützlich sein.
  • Spline:
Beschreibt energieminimierte gebogene Flächen (Thin plate spline)
  • Brownsche Brücke: und
  • Wiener-Prozess: und
Entspricht der Brownschen Bewegung
  • Ito-Prozess: Ist und , zwei integrierbare reellwertige Funktionen sowie ein Wiener-Prozess, so ist der Ito-Prozess
ein Gaußprozess mit und .

Bemerkungen:

  • ist die Distanz bei stationären und radialen Kovarianzfunktionen
  • ist die charakteristische Längenskala der Kovarianzfunktion bei der die Korrelation auf etwa abgefallen ist.
  • Die meisten stationären Kovarianzfunktionen werden auf normiert notiert und sind somit gleichbedeutend zu Korrelationsfunktionen. Für den Gebrauch als Kovarianzfunktion werden sie mit einer Varianz multipliziert, um dem System auch eine physikalische Größe zuzuordnen.

Gaußprozess-Regression[Bearbeiten | Quelltext bearbeiten]

Einleitung[Bearbeiten | Quelltext bearbeiten]

Gaußprozesse können zur Interpolation, Extrapolation oder Glättung von diskreten Messdaten einer Abbildung verwendet werden. Diese Anwendung von Gaußprozessen nennt man Gaußprozess-Regression. Oft wird die Methode aus historischen Gründen besonders in der räumlichen Domäne als Kriging-Verfahren bezeichnet. Sie eignet sich insbesondere für Probleme, für die keine spezielle Modellfunktion bekannt ist. Ihre Eigenschaft als Maschinenlernverfahren ermöglicht eine automatische Modellbildung auf der Basis von Beobachtungen. Dabei erfasst ein Gaußprozess das typische Verhalten des Systems, womit die für das Problem optimale Interpolation abgeleitet werden kann. Als Ergebnis erhält man eine Wahrscheinlichkeitsverteilung von möglichen Interpolationsfunktionen sowie die Lösung mit der höchsten Wahrscheinlichkeit.

Überblick über die einzelnen Schritte[Bearbeiten | Quelltext bearbeiten]

Die Berechnung einer Gaußprozess-Regression kann durch folgende Schritten durchgeführt werden:

  1. A-Priori Erwartungswertfunktion: Liegt ein gleichbleibender Trend in den Messwerten vor, wird eine A-priori-Erwartungswertfunktion zum Ausgleich des Trends gebildet.
  2. A-Priori Kovarianzfunktion: Die Kovarianzfunktion wird nach bestimmten qualitativen Eigenschaften des Systems ausgewählt oder aus Kovarianzfunktionen unterschiedlicher Eigenschaften nach bestimmten Regeln zusammengesetzt.
  3. Feinabstimmung der Parameter: um quantitativ korrekte Kovarianzen zu erhalten, wird die gewählte Kovarianzfunktion auf die vorhandenen Messwerte gezielt oder durch ein Optimierungsverfahren angepasst bis die Kovarianzfunktion die empirischen Kovarianzen wiedergibt.
  4. Bedingte Verteilung: Durch Berücksichtigung von bekannten Messwerten wird aus dem A-Priori-Gaußprozess der bedingte A-Posteriori-Gaußprozess für neue Stützstellen mit noch unbekannten Werten berechnet.
  5. Interpretation: Aus dem A-Posteriori-Gaußprozess wird schließlich die Erwartungswertfunktion als die bestmögliche Interpolation abgelesen und gegebenenfalls die Diagonale der Kovarianzfunktion als die ortsabhängige Varianz.

Detaillierte Beschreibung[Bearbeiten | Quelltext bearbeiten]

A-Priori Erwartungswertfunktion[Bearbeiten | Quelltext bearbeiten]

Ein Gaußprozess ist durch eine Erwartungswertfunktion und eine Kovarianzfunktion vollständig definiert. Die Erwartungswertfunktion ist die A-Priori-Schätzung des Regressionsproblems und beschreibt einen im Voraus bekannten Offset, Trend, oder eine bestimmte Verzerrung der Daten. Die Funktion lässt sich meist durch ein einfaches Polynom beschreiben, wobei in den meisten Fällen ein konstanter Mittelwert eine sehr gute Näherung darstellt, um den Gaußprozess zu zentrieren.

A-Priori Kovarianzfunktion[Bearbeiten | Quelltext bearbeiten]

In praktischen Anwendungen muss aus endlich vielen diskreten Messwerten oder endlich vielen Beispielkurven ein Gaußprozess bestimmt werden. In Analogie zur eindimensionalen Gaußverteilung, die über den Mittelwert und die Standardabweichung diskreter Messwerte vollständig bestimmt ist, würde man zur Berechnung eines Gaußprozesses mehrere einzelne, jedoch vollständige Funktionen erwarten, um damit die Erwartungswertfunktion

und die (empirische) Kovarianzfunktion

zu berechnen.

Meist liegt jedoch keine solche Verteilung exemplarischer Funktionen vor. Beim Regressionsproblem sind stattdessen nur diskrete Stützstellen einer einzelnen Funktion bekannt, die interpoliert oder geglättet werden soll. Auch in einem solchen Fall kann ein Gaußprozess ermittelt werden. Dazu wird anstatt dieser einen Funktion eine Schar aus vielen zueinander verschobenen Kopien der Funktion betrachtet. Diese Verteilung lässt sich nun mithilfe einer Kovarianzfunktion beschreiben. Meist kann sie als relative Funktion dieser Verschiebung durch ausgedrückt werden. Sie heißt dann stationäre Kovarianzfunktion und gilt gleichermaßen für alle Orte der Funktion und beschreibt die immer gleiche (also stationäre) Korrelation eines Punkts zu seiner Nachbarschaft, sowie die Korrelation benachbarter Punkte untereinander.

Die Kovarianzfunktion wird analytisch dargestellt und heuristisch bestimmt oder in der Literatur nachgeschlagen. Die freien Parameter der analytischen Kovarianzfunktionen werden an die Messwerte angepasst. Sehr viele physikalische Systeme weisen eine ähnliche Form der stationären Kovarianzfunktion auf, so dass mit wenigen tabellierten analytischen Kovarianzfunktionen die meisten Anwendungen beschrieben werden können. So gibt es beispielsweise Kovarianzfunktionen für abstrakte Eigenschaften wie Glattheit, Rauigkeit, Periodizität oder Rauschen, die nach bestimmten Vorschriften kombiniert und angepasst werden können, um die Eigenschaften der Messwerte nachzubilden.

Die folgende Tabelle zeigt Beispiele von Kovarianzfunktionen mit solchen abstrakten Eigenschaften. Die Beispiel-Kurven sind zufällige Stichproben des jeweiligen Gaußprozesses und repräsentieren typische Kurvenverläufe. Sie wurden mit der jeweiligen Kovarianzmatrix und einem Zufallsgenerator für mehrdimensionale Normalverteilungen als korrelierter Zufallsvektor erzeugt. Die stationären Kovarianzfunktionen werden hier als eindimensionale Funktionen mit abgekürzt.

Eigenschaft Beispiele stationärer Kovarianzfunktionen Zufallsfunktionen
Konstant Gaussianprocess constant.png
Glatt Gaussianprocess smooth.png
Rau Gaussianprocess rough.png
Periodisch Gaussianprocess periodic.png
Rauschen Gaussianprocess noise.png
Gemischt
(periodisch,
glatt und
verrauscht)
Gaussianprocess mix.png

Die Eigenschaften können nach bestimmten Rechenvorschriften kombiniert werden. Das grundsätzliche Ziel bei der Konstruktion einer Kovarianzfunktion ist, die wahren Kovarianzen möglichst gut wiederzugeben, während gleichzeitig die Bedingung der positiven Definitheit erfüllt wird. Die gezeigten Beispiele besitzen letztere Eigenschaft und auch die Additionen und Multiplikationen solcher Funktionen bleiben positiv definit. Die unterste Kovarianzfunktion in der Tabelle zeigt eine mögliche Mischung verschiedener Eigenschaften. Die Funktionen in diesem Beispiel sind über eine bestimmte Distanz hinweg periodisch, weisen ein relativ glattes Verhalten auf und sind mit einem bestimmten Messrauschen überlagert. Bei additiven Effekten, wie dem übergelagerten Messrauschen, werden die Kovarianzen addiert. Bei sich gegenseitig verstärkenden oder abschwächenden Effekten, wie dem langsamen Abklingen der Periodizität, werden die Kovarianzen multipliziert.

Was hier mit eindimensionalen Funktionen gezeigt ist, lässt sich analog auch auf mehrdimensionale Systeme übertragen, indem lediglich der Abstand durch eine entsprechende n-dimensionale Abstandsnorm ersetzt wird. Die Stützpunkte in den höheren Dimensionen werden in einer beliebigen Reihenfolge abgewickelt und mit Vektoren dargestellt, so dass sie genauso wie im eindimensionalen Fall verarbeitet werden können. Die beiden folgenden Abbildungen zeigen zwei Beispiele mit zweidimensionalen Gaußprozessen und unterschiedlichen stationären und radialen Kovarianzfunktionen. In der rechten Abbildung ist jeweils eine zufällige Stichprobe des Gaußprozesses dargestellt.

Zufällige Stichprobe eines 2D-Gaußprozesses mit absolut-exponentieller radialer Kovarianzfunktion. Zufällige Stichprobe eines 2D-Gaußprozesses mit quadratisch-exponentieller radialer Kovarianzfunktion.

Gaußprozesse können auch nicht-stationäre Eigenschaften der Kovarianzfunktion besitzen, also relative Kovarianzfunktionen, die sich als Funktion des Ortes ändern. In der Literatur wird beschrieben, wie nicht-stationäre Kovarianzfunktionen konstruiert werden können, so dass auch hier die positive Definitheit sichergestellt wird.

Feinabstimmung der Parameter[Bearbeiten | Quelltext bearbeiten]

Die qualitativ konstruierten Kovarianzfunktionen enthalten Parameter, sogenannte Hyperparameter, die an das System angepasst werden müssen, um quantitativ korrekte Ergebnisse erzielen zu können. Dies kann durch direktes Wissen über das System erfolgen, z. B. über den bekannten Wert der Standardabweichung des Messrauschens oder die A-Priori-Standardabweichung des Gesamtsystems (sigma prior, entspricht quadriert den Diagonalelementen der Kovarianzmatrix).

Die Parameter können aber auch automatisch angepasst werden. Dazu verwendet man die Randwahrscheinlichkeit, also die Wahrscheinlichkeitsdichte für eine gegebene Messkurve als ein Maß für die Übereinstimmung zwischen dem vermuteten Gaußprozess und einer vorhandenen Messkurve. Die Parameter werden dann so optimiert, dass diese Übereinstimmung maximal wird. Da die Exponentialfunktion streng monoton ist, genügt es, den Exponenten der Wahrscheinlichkeitsdichtefunktion zu maximieren, die sogenannte Log-Marginal-Likelihood-Funktion:

Mathematisch bewirkt die Maximierung der Randwahrscheinlickeit eine optimale Abwägung zwischen der Genauigkeit (Minimierung der Residuen) und der Einfachheit der Theorie. Die Theorie kann als einfach betrachtet werden, wenn die Kovarianzmatrix möglichst große Werte in den Nebendiagonalen besitzt und dadurch eine hohe Korrelation im System vorliegt. Das bedeutet, dass wenige Freiheitsgrade im System vorhanden sind und somit die Theorie in gewisser Weise mit wenigen Regeln auskommt, um alle Zusammenhänge zu beschreiben. Sind diese Regeln zu einfach gewählt, würden die Messungen nicht hinreichend gut wiedergegeben werden und die residuellen Fehler wachsen zu stark an. Bei einer maximalen Randwahrscheinlichkeit ist das Gleichgewicht einer optimalen Theorie gefunden, sofern hinreichend viele Messdaten für eine gute Konditionierung zur Verfügung standen. Diese implizite Eigenschaft der Maximum-Likelihood-Methode kann auch als Ockhams Sparsamkeitsprinzip verstanden werden.

Bedingter Gaußprozess bei bekannten Stützpunkten[Bearbeiten | Quelltext bearbeiten]

Ist der Gaußprozess eines Systems wie oben bestimmt worden, sind also Erwartungswertfunktion und Kovarianzfunktion bekannt, kann mit dem Gaußprozess eine Vorhersage beliebiger interpolierter Zwischenwerte berechnet werden, wenn nur wenige Stützstellen der gesuchten Funktion durch Messwerte bekannt sind. Die Vorhersage erfolgt durch die bedingte Wahrscheinlichkeit einer mehrdimensionalen Gaußverteilung bei einer gegebenen Teilinformation. Die Dimensionen der mehrdimensionalen Gaußverteilung

werden dabei unterteilt in unbekannte Werte, die vorhergesagt werden sollen (Index U für unbekannt) und in bekannte Messwerte (Index B für bekannt). Vektoren zerfallen dadurch in zwei Teile. Die Kovarianzmatrix wird entsprechend in vier Blöcke unterteilt: Kovarianzen innerhalb der unbekannten Werte (UU), innerhalb der bekannten Messwerte (BB) und Kovarianzen zwischen den unbekannten und bekannten Werten (UB und BU). Die Werte der Kovarianzmatrix werden an diskreten Stellen der Kovarianzfunktion abgelesen und der Erwartungswertvektor an entsprechenden Stellen der Erwartungswertfunktion.

Bei gegebenen bekannten Messwerten ergibt sich (durch Einsetzen der Wahrscheinlichkeitsdichte in die Bayes-Formel) die bedingte Gaußverteilung

,

wobei die gesuchten unbekannten Variablen sind. Diese resultierende bedingte Normalverteilung (A-Posteriori-Verteilung) entspricht dem Schnittbild der Gaußverteilung mit dem durch die bekannten Werte aufgespannten Untervektorraum. Der erste Parameter der resultierenden Gaußverteilung beschreibt den neuen gesuchten Erwartungswert, was dem jetzt wahrscheinlichsten Wert entspricht. Zusätzlich wird im zweiten Parameter die vollständige vorhergesagte neue Kovarianzmatrix gegeben. Diese enthält insbesondere die Vertrauensintervalle der vorhergesagten Erwartungswerte, gegeben durch die Wurzel der Hauptdiagonalelemente.

Bei den Eingangsgrößen wird unkorreliertes weißes Messrauschen durch Addition der Kovarianzfunktion modelliert, was Varianzen zur Diagonale von hinzufügt. Für die Ausgangsgrößen lässt man die entsprechenden Terme normalerweise weg und verwendet für eine Kovarianzfunktion ohne Messrauschen. In diesem Fall erhält man mit dem stationären Messrauschen die A-Posteriori-Verteilung

,

deren Kovarianzmatrix das Vertrauensintervall der Vorhersage bei unterdrücktem Rauschanteil beschreibt. Enthält ebenfalls Rauschterme in der Diagonalen, dann spricht man von einer Prädiktiven Verteilung, die neben der Unsicherheit der Vorhersage auch das Rauschen der Ausgangsgrößen beschreibt.

Beim Übergang zum Kontinuum folgt aus dem Gaußprozess

und den N bekannten Messwerten an den Koordinaten eine neue Verteilung, gegeben durch den bedingten (A-Posteriori) Gaußprozess

mit

.

ist dabei eine Kovarianzmatrix, die sich durch die Auswertung der Kovarianzfunktion an den diskreten Zeilen und Spalten ergibt. Außerdem wurde entsprechend als Vektor von Funktionen gebildet, indem nur an diskreten Zeilen oder diskreten Spalten ausgewertet wurde.

In praktischen numerischen Berechnungen mit endlichen Zahlen von Stützstellen wird nur mit der Gleichung der bedingten mehrdimensionalen Normalverteilung gearbeitet. Die Notation des A-Posteriori-Gaußprozesses dient hier nur dem theoretischen Verständnis, um den Grenzwert in Form von Funktionen darzustellen.

Der Python-Code der Beispiele findet sich auf der jeweiligen Bildbeschreibungsseite.

Interpretation[Bearbeiten | Quelltext bearbeiten]

Aus dem A-Priori-Gaußprozess erhält man mit den Messwerten einen A-Posteriori-Gaußprozess, der die bekannte Teilinformation berücksichtigt. Dieses Ergebnis der Gaußprozess-Regression repräsentiert nicht nur eine Lösung, sondern die Gesamtheit aller möglichen und mit unterschiedlichen Wahrscheinlichkeiten gewichteten Lösungsfunktionen der Interpolation. Die damit ausgedrückte Unentschiedenheit ist keine Schwäche der Methode. Sie wird dem Problem genau gerecht, da bei einer nicht vollständig bekannten Theorie oder bei verrauschten Messwerten die Lösung prinzipiell nicht eindeutig bestimmbar ist. Meist interessiert man sich jedoch speziell für diejenige Lösung mit der zumindest höchsten Wahrscheinlichkeit. Diese ist durch die Erwartungswertfunktion im ersten Parameter des A-Posteriori-Gaußprozesses gegeben. Aus der bedingten Kovarianzfunktion im zweiten Parameter lässt sich die Streuung um diese Lösung ablesen. Die Diagonale der Kovarianzfunktion gibt eine Funktion mit den Varianzen der vorhergesagten wahrscheinlichsten Funktion wieder. Das Vertrauensintervall ist dann durch die Grenzen gegeben.

Sonderfälle[Bearbeiten | Quelltext bearbeiten]

Korrelierte Messunsicherheiten[Bearbeiten | Quelltext bearbeiten]

Korreliertes Messrauschen kann wie unkorreliertes Rauschen durch Addition der Kovarianzmatrix des Rauschens zur Kovarianzmatrix des Systems berücksichtig werden, was einer Faltung der beiden Normalverteilungen entspricht. Die Messwerte werden dabei als genau bekannt angenommen, selbst bei darin enthaltenem Rauschen. Es gibt jedoch auch Fälle, z. B. bei indirekten Messungen, bei denen nur eine unscharfe Information über die Messwerte vorliegt oder nur unvollständige Zusammenhänge bekannt sind, was sich durch korrelierte Unsicherheiten ausdrücken lässt. In einem solchen Fall liegen für dieselben Stützstellen zwei unterschiedliche Normalverteilungen vor: die Verteilung des A-Priori-Gaußprozesses und die Verteilung mit den Messwerten und Messunsicherheiten. Diese beiden Wahrscheinlichkeitsverteilungen mit einem im Allgemeinen geringen Überlapp können durch eine Multiplikation der Wahrscheinlichkeitsdichten fusioniert werden, was wiederum eine Normalverteilung

als Produkt ergibt. Die so resultierende Verteilung der Verbundwahrscheinlichkeiten entspricht dann bereits einer A-Posteriori-Verteilung, insbesondere wenn die Präzisionsmatrix der Messwerte auch Nullen in der Diagonale enthält, wenn also vollständig unbestimmte Werte enthalten sind. Sie kann aber auch mit der Formel für die bedingte Verteilung als A-Priori-Verteilung zur Berechnung weiterer Stützstellen verwendet werden.

Zielfunktion in Form einer Linearkombination[Bearbeiten | Quelltext bearbeiten]

Soll für einen gegebenen Gaußprozess die optimale Linearkombination aus gegebenen Basisfunktionen ermittelt werden, dann kann die Methode der Generalisierten Kleinsten Quadrate (GLS)

mit

verwendet werden. Die Matrix enthält die Funktionswerte der Basisfunktionen an den Stützstellen . Die Koeffizienten werden dadurch so optimiert, dass die Wahrscheinlichkeitsdichte von an den Koordinaten der Linearkombination den höchstmöglichen Wert hat. Die Linearkombination passt dann also mit der höchsten Wahrscheinlichkeit zu dem gegebenen Gaußprozess. Die Programmbibliothek Scikit-learn nutzt diese Methode beispielsweise, um eine polynomiale Erwartungswertfunktion eines Gaußprozesses empirisch zu schätzen.

Approximation durch ein lineares Modell[Bearbeiten | Quelltext bearbeiten]

Ein Gaußprozess, der nur wenige stark ausgeprägte Freiheitsgrade besitzt, kann durch ein lineares Modell

mit der Erwartungswertfunktion , den Basisfunktionen und den Koeffizienten approximiert werden. Mittels einer Eigenwertzerlegung

der Kovarianzmatrix werden zu den größten Eigenwerten die Eigenvektoren berechnet und als Funktionen dargestellt, was die gesuchten Basisfunktionen ergibt (siehe Hauptkomponentenanalyse). Soll aus dem linearen Modell wiederum eine Zufallsverteilung gebildet werden, um den ursprünglichen Gaußprozess zu approximieren, dann werden die Koeffizienten gemäß der Kovarianzmatrix

normalverteilt, indem also jeder Koeffizient mit einer unabhängigen Zufallsvariable der Varianz um den Mittelwert Null gestreut wird.

Mischung zwischen empirischer und stationärer Kovarianz[Bearbeiten | Quelltext bearbeiten]

Bei sehr wenigen, unvollständigen oder nur grob gerasterten exemplarischen Funktionen kann der Fall vorliegen, dass die Kovarianzmatrix nicht hinreichend genau empirisch berechnet werden kann. Gleichzeitig könnte auch eine stationäre Kovarianzfunktion allein nicht ausreichen, um langreichweitige Trends genügend stabil vorherzusagen. In einem solchen Fall kann ein gemischter Gaußprozess gebildet werden. Dazu wird die Mittelwertfunktion sowie die empirische Kovarianzfunktion

berechnet, wobei die exemplarischen Funktionen eventuell vorher interpoliert werden müssen. Aufgrund der geringen Datenbasis werden jedoch nur die langreichweitigen Hauptkomponenten dieser Kovarianzfunktion beibehalten, während kleinskalige Variationen herausgefiltert und durch eine geeignete stationäre Kovarianzfunktion ersetzt werden. Dies geschieht durch eine Singulärwertzerlegung der Kovarianzmatrix , die sich in der Form

schreiben lässt, wobei die Singulärwerte durch die Diagonalmatrix S gegeben sind. Wie im vorherigen Abschnitt werden nur die größten Eigenwerte bzw. Singulärwerte verwendet. Die zugehörigen Spalten von entsprechen den gesuchen Hauptkomponenten, die den langreichweitigen Trend beschreiben und sich als Funktionen darstellen lassen. Der gemischte Gaußprozess ist dann gegeben durch die Erwartungswertfunktion und die Kovarianzfunktion

.

Anwendungsbeispiele[Bearbeiten | Quelltext bearbeiten]

Beispiel: Trend-Vorhersage[Bearbeiten | Quelltext bearbeiten]

In einem Anwendungsbeispiel aus der Marktforschung soll die zukünftige Nachfrage zum Thema "Snowboard" vorhergesagt werden. Dazu soll eine Extrapolation der Anzahl von Google-Suchanfragen [1] zu diesem Begriff berechnet werden. In den vergangenen Daten erkennt man eine periodische, jedoch nicht sinusförmige Jahreszeitabhängigkeit, die durch den Winter auf der Nordhalbkugel zu erklären ist. Außerdem nahm der Trend über das letzte Jahrzehnt kontinuierlich ab.

Die Kovarianzfunktion wurde daher mit einem langsamen Trend sowie einer ein- und vierjährigen Periode modelliert, so dass auch die wiederkehrende Erhöhung der Suchanfragen während der olympischen Spiele vorhergesagt wird (2018 und 2022). Aufgrund der Asymmetrie der Werteverteilung wurde die Gaußprozess-Regression auf den Logarithmus der Daten angewandt, der eher einer symmetrischen Gaußverteilung entspricht. Eine solche Log-Normal-Verteilung liegt vor, wenn ein Zufallsprozess aus vielen unabhängigen Zufallsgrößen zusammengesetzt ist, die sich gegenseitig verstärken, was im vorliegenden Fall von Trends plausibel erscheint. Die Abbildung zeigt schließlich die Extrapolation (rechts der gestrichelten Linie) mit einem nun ebenfalls asymmetrischen Vertrauensintervall (graue Fläche).

Dieses Problem zeigt sehr deutlich die Universalität der Gaußprozess-Regression gegenüber anderen auf spezielle Probleme optimierte Interpolationsverfahren: Im Gegensatz zur Polynom Regression, Trigonometrischen Interpolation oder Splines können Gaußprozesse sehr einfach auf solche gemischten Eigenschaften angepasst werden.

Gaußprozess-Regression für die Google-Trend-Statistik für den Suchbegriff "Snowboard"

Python Quellcode der Abbildung

Beispiel: Sensorkalibrierung[Bearbeiten | Quelltext bearbeiten]

In einem Anwendungsbeispiel aus der Industrie sollen mithilfe von Gaußprozessen Sensoren kalibriert werden.[2][3] Aufgrund von Toleranzen bei der Herstellung zeigen die Kennlinien der Sensoren große individuelle Unterschiede. Das verursacht hohe Kosten bei der Kalibrierung, da für jeden Sensor eine vollständige Kennlinie gemessen werden müsste. Der Aufwand kann jedoch minimiert werden, indem das genaue Verhalten der Streuung durch einen Gaußprozess erlernt wird. Dazu werden von zufällig ausgewählten repräsentativen Sensoren die vollständigen Kennlinien gemessen und damit der Gaußprozess der Streuung durch

berechnet. Im gezeigten Beispiel sind 15 repräsentative Kennlinien gegeben. Der daraus resultierende Gaußprozess ist durch die Mittelwertfunktion und das Vertrauensintervall dargestellt.

15 vollständige repräsentative Kennlinien, die zur Berechnung eines Gaußprozesses zufällig ausgewählt wurdenA-Priori-Gaußprozess: Mittelwertfunktion und Vertrauensintervall der Kennlinien

Mit dem bedingten Gaußprozess mit

kann nun für jeden neuen Sensor mit wenigen einzelnen Messwerten and den Koordinaten das vollständige Kennfeld rekonstruiert werden. Die Anzahl von Messwerten muss dabei mindestens der Anzahl der Freiheitsgrade der Toleranzen entsprechen, die einen unabhängigen linearen Einfluss auf die Form der Kennlinie haben.

Im dargestellten Beispiel genügt ein einzelner Messwert noch nicht, um die Kennlinie eindeutig und präzise zu bestimmen. Das Vertrauensintervall zeigt den Bereich der Kurve, der noch nicht ausreichend genau ist. Mit einem weiteren Messwert in diesem Bereich kann schließlich die verbleibende Unsicherheit vollständig eliminiert werden. Die Exemplarschwankungen der sehr unterschiedlich wirkenden Sensoren in diesem Beispiel scheinen also durch die Toleranzen von nur zwei relevanten inneren Freiheitsgraden verursacht zu werden.

Kalibrierung eines neuen Sensors: Ein einzelner Messpunkt scheint für eine Rekonstruktion der Kennlinie nicht auszureichenMit zwei Messpunkten verbleiben keine Freiheitsgrade mehr und die Kennlinie wird eindeutig rekonstruiert.

Python Quellcode der Abbildungen

Literatur[Bearbeiten | Quelltext bearbeiten]

  • C. E. Rasmussen, C. K. I. Williams, Gaussian Processes for Machine Learning (pdf), MIT Press, 2006. ISBN 0-262-18253-X.
  • R. M. Dudley, Real Analysis and Probability, Wadsworth and Brooks/Cole, 1989.
  • B. Simon, Functional Integration and Quantum Physics, Academic Press, 1979.
  • M.L. Stein, Interpolation of Spatial Data: Some Theory for Kriging, Springer, 1999

Weblinks[Bearbeiten | Quelltext bearbeiten]

Lehrmaterial[Bearbeiten | Quelltext bearbeiten]

Software[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. Die Daten sind erhältlich bei Google-Trends zum Suchbegriff "Snowboard".
  2. Mit stationären Gaußprozessen: Tao Chen et. al.: Calibration of Spectroscopic Sensors with Gaussian Process and Variable Selection, IFAC Proceedings Volumes (2007), Volume 40, Issue 5, DOI:10.3182/20070606-3-MX-2915.00141
  3. Honicky, R. "Automatic calibration of sensor-phones using gaussian processes." EECS Department, UC Berkeley, Tech. Rep. UCB/EECS-2007-34 (2007), pdf