Gram-Schmidtsches Orthogonalisierungsverfahren

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Das Gram-Schmidtsche Orthogonalisierungsverfahren ist ein Algorithmus aus dem mathematischen Teilgebiet der linearen Algebra. Er erzeugt zu jedem System linear unabhängiger Vektoren aus einem Prähilbertraum (einem Vektorraum mit Skalarprodukt) ein Orthogonalsystem, das denselben Untervektorraum erzeugt. Eine Erweiterung stellt das Gram-Schmidtsche Orthonormalisierungsverfahren dar: Statt eines Orthogonalsystems berechnet es ein Orthonormalsystem. Verwendet man ein System von Basisvektoren als Eingabe für die Algorithmen, so berechnen sie eine Orthogonal- bzw. Orthonormalbasis.

Die beiden Verfahren sind nach Jørgen Pedersen Gram und Erhard Schmidt benannt. Sie wurden allerdings bereits früher in den Werken von Pierre-Simon Laplace und Augustin-Louis Cauchy verwendet.

Für die numerische Berechnung durch einen Computer mit Gleitpunktarithmetik sind die Gram-Schmidt-Verfahren schlecht geeignet. Durch akkumulierte Rundungsfehler sind die berechneten Vektoren nicht mehr orthogonal. Es existieren aber Modifikationen des Verfahrens, die diesen Fehler nicht haben. Weitere Möglichkeiten für Orthogonalisierungsverfahren basieren auf Householdertransformationen oder Givens-Rotationen.

Vorbemerkung[Bearbeiten]

Im Folgenden werden Elemente des betrachteten Vektorraums (Vektoren) mit einfachen lateinischen Buchstaben wie v und w bezeichnet, gegebenenfalls mit Indizes wie v_i und w_2. Es wird sowohl auf übergesetzte Pfeile als auch auf Fettdruck verzichtet. Das Skalarprodukt wird durch spitze Klammern dargestellt: \langle v, w \rangle. Im komplexen Fall wird dabei die Konvention verwendet, dass das Skalarprodukt im ersten Argument semilinear, im zweiten Argument linear ist, das heißt

\langle \lambda v, w \rangle = \overline \lambda \langle v, w \rangle,\quad \langle  v, \lambda w \rangle = \lambda \langle v, w \rangle

für alle Vektoren v, w und alle \lambda \in \C. Im komplexen Fall kommt es deshalb bei den unten dargestellten Formeln auf die Reihenfolge der Faktoren im Skalarprodukt an, im reellen Fall jedoch nicht.

Algorithmus des Orthogonalisierungsverfahrens[Bearbeiten]

Illustration des Gram-Schmidt-Verfahrens an einem Beispiel mit drei Vektoren

Der folgende Algorithmus berechnet zu den linear unabhängigen Vektoren w_1, \dots, w_n ein Orthogonalsystem von n paarweise orthogonalen Vektoren, das denselben Untervektorraum erzeugt.

Die einzelnen Vektoren v_1, \dots, v_n des Orthogonalsystems berechnen sich wie folgt:

v_1 = w_1\,
v_2 = w_2 - \frac{\langle v_1, w_2\rangle}{\langle v_1, v_1\rangle} \, v_1
v_3 = w_3 - \frac{\langle v_1, w_3\rangle}{\langle v_1, v_1\rangle} \, v_1 - \frac{\langle v_2, w_3\rangle}{\langle v_2, v_2\rangle} \, v_2
\vdots
v_n = w_n - \frac{\langle v_1, w_n\rangle}{\langle v_1, v_1\rangle} \, v_1 - \frac{\langle v_2, w_n\rangle}{\langle v_2, v_2\rangle} \, v_2 - \dots - \frac{\langle v_{n-1}, w_n\rangle}{\langle v_{n-1}, v_{n-1}\rangle} \, v_{n-1}
= w_n - \sum_{i=1}^{n-1} \frac{\langle v_i, w_n\rangle}{\langle v_i, v_i\rangle} \, v_i

Beispiel[Bearbeiten]

Im \mathbb{R}^3 versehen mit dem Standardskalarprodukt \langle\cdot,\cdot \rangle seien zwei linear unabhängige Vektoren vorgegeben, die einen Untervektorraum erzeugen:

 w_1 = \begin{pmatrix} 3 \\ 1 \\ 2 \end{pmatrix},\quad w_2 = \begin{pmatrix} 2 \\ 2 \\ 2 \end{pmatrix}

Es werden nun zwei orthogonale Vektoren v_1 und v_2 berechnet, die denselben Untervektorraum erzeugen:

v_1 = w_1 = \begin{pmatrix} 3 \\ 1 \\ 2 \end{pmatrix}
v_2 = w_2 - \frac{\langle v_1, w_2\rangle}{\langle v_1, v_1\rangle} \cdot v_1
= \begin{pmatrix} 2 \\ 2 \\ 2 \end{pmatrix} - \frac{12}{14} \cdot \begin{pmatrix} 3 \\ 1 \\ 2 \end{pmatrix}
= \frac{1}{7} \begin{pmatrix} -4 \\ 8 \\ 2 \end{pmatrix}

Algorithmus des Orthonormalisierungsverfahrens[Bearbeiten]

Der folgende Algorithmus berechnet zu den linear unabhängigen Vektoren w_1, \dots, w_n ein Orthonormalsystem von n normierten, paarweise orthogonalen Vektoren, das denselben Untervektorraum erzeugt.

Die einzelnen Vektoren v_1, \dots, v_n des Orthonormalsystems erhält man, indem zuerst jeweils ein orthogonaler Vektor berechnet und anschließend normalisiert wird:

v_1 = \frac{w_1}{\left\|w_1\right\|} (Normalisieren des ersten Vektors w_1)
v_2^\prime = w_2 - \langle v_1, w_2 \rangle \cdot v_1 (Orthogonalisieren des zweiten Vektors w_2)
v_2 = \frac{v_2^\prime}{\left\|v_2^\prime\right\|} (Normalisieren des Vektors v_2^\prime)
v_3^\prime = w_3 - \langle v_1, w_3 \rangle \cdot v_1 - \langle v_2, w_3 \rangle \cdot v_2 (Orthogonalisieren des dritten Vektors w_3)
v_3 = \frac{v_3^\prime}{\left\|v_3^\prime\right\|} (Normalisieren des Vektors v_3^\prime)
\vdots
v_n^\prime = w_n - \sum_{i=1}^{n-1} \langle v_i, w_n \rangle \cdot v_i (Orthogonalisieren des n-ten Vektors w_n)
v_n = \frac{v_n^\prime}{\left\|v_n^\prime\right\|} (Normalisieren des Vektors v_n^\prime)

Im Allgemeinen erhält man durch dieses Verfahren kein besonders ausgezeichnetes System. Im \R^3 muss z.B. erst ein Umordnungsschritt nachgeschaltet werden, um ein Rechts- oder Linkssystem zu erhalten.

Beispiel[Bearbeiten]

Im \mathbb{R}^2 versehen mit dem Standardskalarprodukt \langle\cdot,\cdot \rangle seien zwei Basisvektoren gegeben:

 w_1 = \begin{pmatrix} 3 \\ 1  \end{pmatrix},\quad w_2 = \begin{pmatrix} 2 \\ 2 \end{pmatrix}

Es werden nun zwei Vektoren v_1 und v_2 berechnet, die eine Orthonormalbasis des \mathbb{R}^2 bilden.

v_1 = \frac {w_1} {\left\|w_1\right\|} = \frac {1} {\sqrt{10}} \cdot \begin{pmatrix} 3 \\ 1 \end{pmatrix}
v_2^\prime = w_2 - \langle v_1, w_2 \rangle \cdot v_1
= \begin{pmatrix} 2 \\ 2 \end{pmatrix} - \frac{1}{\sqrt{10}}\cdot \left\langle \begin{pmatrix} 3 \\ 1 \end{pmatrix},\begin{pmatrix} 2 \\ 2 \end{pmatrix} \right\rangle \cdot \frac{1}{\sqrt{10}} \begin{pmatrix} 3 \\ 1 \end{pmatrix}
= \frac{1}{5} \begin{pmatrix} -2 \\ 6 \end{pmatrix}
v_2 = \frac{v_2^\prime}{\left\|v_2^\prime\right\|}
= \sqrt{\frac{25}{40}} \cdot \frac{1}{5} \begin{pmatrix} -2 \\ 6 \end{pmatrix}
= \frac{1}{\sqrt{10}} \cdot \begin{pmatrix} -1 \\ 3 \end{pmatrix}

Anmerkungen[Bearbeiten]

Eine besondere Eigenschaft der beiden Verfahren ist, dass nach jedem Zwischenschritt die bisher berechneten Vektoren v_1, \dots, v_i den gleichen Vektorraum erzeugen wie die Vektoren w_1, \dots, w_i. Die Vektoren v_1, \dots, v_i bilden also eine Orthogonal- bzw. Orthonormalbasis der entsprechenden Untervektorräume. Anders ausgedrückt ist die Transformationsmatrix, die die Koordinaten des einen Systems im anderen ausdrückt, eine rechtsobere Dreiecksmatrix. Fasst man die orthonormalen Vektoren v_1, \dots, v_n als Spalten einer Matrix Q zusammen, ebenso die Vektoren des Ausgangssystems w_1, \dots, w_n zu einer Matrix A, so gibt es eine Dreiecksmatrix R mit A=QR, es wird also eine QR-Zerlegung bestimmt. Dementsprechend kann das Ergebnis der Gram-Schmidt-Orthonormalisierung auch mit anderen Methoden zur QR-Zerlegung bestimmt werden, die mit Givens-Rotationen oder Householder-Spiegelungen arbeiten.

Berechnet man ein Orthonormalsystem von Hand, ist es oftmals einfacher, zunächst ein Orthogonalsystem auszurechnen und dann die einzelnen Vektoren zu normieren. Dadurch erspart man sich das zweifache Normieren und kann oftmals mit einfacheren Werten rechnen. Gegebenenfalls lohnt es sich, vor dem Erstellen des Orthogonalsystems/Orthonormalsystems das Gaußsche Eliminationsverfahren durchzuführen.

Prinzip des Verfahrens[Bearbeiten]

Sind die orthogonalen Vektoren v_1, \ldots, v_{k-1} bereits bestimmt, versuchen wir, von w_k eine passende Linearkombination der Vektoren v_1, \ldots, v_{k-1} abzuziehen, sodass der Differenzvektor

v_k = w_k - \sum_{i=1}^{k-1} \lambda_i v_i

zu allen Vektoren v_1, \ldots, v_{k-1} orthogonal wird. Dies ist gleichbedeutend damit, dass das Skalarprodukt \langle v_j,v_k \rangle für alle j=1,\ldots,k-1 den Wert 0 ergibt. Eine solche Linearkombination ergibt sich, wenn für jedes i der Ausdruck

\lambda_i = \frac {\langle v_i,w_k \rangle}{\langle v_i,v_i \rangle}

gewählt wird. Eine Kontrollrechnung zeigt, dass dadurch alle Skalarprodukte \langle v_j,v_k \rangle mit j \neq k den Wert 0 annehmen:

\begin{align}\langle v_k,v_j \rangle
&= \left\langle v_j,w_k - \sum_{i=1}^{k-1} \lambda_i v_i \right\rangle\\
&= \langle v_j,w_k \rangle - \sum_{i=1}^{k-1} \frac {\langle v_i,w_k \rangle}{\langle v_i,v_i \rangle} \langle v_j,v_i \rangle\\
&= \langle v_j,w_k \rangle - \langle v_j,w_k \rangle\\
&= 0\end{align}

Orthonormalisierung unendlicher Systeme von Vektoren[Bearbeiten]

In einem beliebigen Hilbertraum H lässt sich das Verfahren auch auf unendliche Systeme unabhängiger Vektoren anwenden, wobei die Unabhängigkeit in dem Sinne zu verstehen ist, dass kein Element im Abschluss der linearen Hülle der übrigen Vektoren liegt. Den Fall eines abzählbaren Systems (d. h. H ist ein separabler Hilbertraum) kann direkt auf den oben dargestellten endlichen Fall zurückgeführt werden: Gegeben sei eine unabhängige Folge \left(w_n\right)_{n\in \N}, so erhält man eine entsprechende orthonormale Folge \left(v_n\right)_{n\in \N}, indem man für jedes n\in \N das obige Verfahren anwendet und v_n erhält. Allgemeiner kann jedes unabhängige System nach dem Wohlordnungssatz als Folge \left(w_\alpha\right)_{\alpha<d} für eine Kardinalzahl d und Ordinalzahlen \alpha angesehen werden (im Falle einer dichten linearen Hülle des unabhängigen Systems ist d gerade die Dimension von H). Bezeichne nun \pi_A\colon H \to A die orthogonale Projektion auf einen abgeschlossenen Teilraum A, die aufgrund der Vollständigkeit des Raumes stets existiert, \hat{x} bezeichne die Normierung \textstyle \frac{x}{\left\|x\right\|}. So ergibt sich ein Orthonormalsystem \left(v_\alpha\right)_{\alpha<d} durch

A_\alpha := \overline{\operatorname{span}\left(\left\{w_\beta \colon \beta < \alpha\right\}\right)}
v_\alpha := \widehat{\left(w_\alpha - \pi_{A_\alpha}\left(w_\alpha\right)\right)}.

Per transfiniter Induktion lässt sich dann zeigen, dass A_\alpha = \overline{\operatorname{span}\left(\left\{v_\beta \colon \beta < \alpha\right\}\right)}, sogar für \alpha=d. Expliziter lässt sich das Verfahren per transfiniter Rekursion wie folgt schreiben:

v_\alpha := \widehat{\left(w_\alpha - \sum_{\beta < \alpha}\langle v_\beta, w_\alpha\rangle \cdot v_\beta\right)}

Hierbei ist die Summe aufgrund der besselschen Ungleichung wohldefiniert (insbesondere sind stets nur abzählbar viele Summanden ungleich Null).

Literatur[Bearbeiten]

  • Andrzej Kielbasiński, Hubert Schwetlick: Numerische lineare Algebra. Eine computerorientierte Einführung. Deutscher Verlag der Wissenschaften, Berlin 1988, ISBN 3-326-00194-0.

Weblinks[Bearbeiten]