Hesse-Matrix

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die nach Otto Hesse benannte Hesse-Matrix ist eine Matrix, die in der mehrdimensionalen reellen Analysis ein Analogon zur zweiten Ableitung einer Funktion ist.

Die Hesse-Matrix taucht bei der Approximation einer mehrdimensionalen Funktion in der Taylor-Entwicklung auf. Sie ist unter anderem in Zusammenhang mit der Optimierung von Systemen von Bedeutung, die durch mehrere Parameter beschrieben werden, wie sie beispielsweise in den Wirtschaftswissenschaften, in der Physik, theoretischen Chemie oder in den Ingenieurwissenschaften häufig auftreten.

Definition[Bearbeiten]

Sei f \colon D \subset \R^n \to \R eine zweimal stetig differenzierbare Funktion. Dann ist die Hesse-Matrix von f am Punkt x=(x_1, \ldots , x_n) \in D definiert durch


\operatorname{H}_f(x):=
\left(\frac{\partial^2f}{\partial x_i\partial x_j}(x)\right)_{i,j=1,\dots, n}=
\begin{pmatrix}
\frac{\partial^2 f}{\partial x_1\partial x_1}(x)&\frac{\partial^2 f}{\partial x_1\partial x_2}(x)&\cdots&\frac{\partial^2  f}{\partial x_1\partial x_n}(x)\\[0.5em]
\frac{\partial^2 f}{\partial x_2\partial x_1}(x)&\frac{\partial^2 f}{\partial x_2\partial x_2}(x)&\cdots&\frac{\partial^2  f}{\partial x_2\partial x_n}(x)\\
\vdots&\vdots&\ddots&\vdots\\
\frac{\partial^2 f}{\partial x_n\partial x_1}(x)&\frac{\partial^2 f}{\partial x_n\partial x_2}(x)&\cdots&\frac{\partial^2  f}{\partial x_n\partial x_n}(x)
\end{pmatrix}.

Mit \tfrac{\partial^2f}{\partial x_i\partial x_j} werden die zweiten partiellen Ableitungen bezeichnet. Die Hesse-Matrix entspricht dem Transponierten der Jacobi-Matrix des Gradienten, ist aber bei stetigen zweiten Ableitungen wegen der Vertauschbarkeit der Differentiationsreihenfolge symmetrisch,[1] so dass das Transponieren der Matrix keine Änderung bewirkt.

Beispiele[Bearbeiten]

  • Für f \colon \R^2 \to \R, f(x,y) = x^3 + y^3 - 3xy gilt \frac{\partial f}{\partial x}(x,y) = 3x^2 - 3y und \frac{\partial f}{\partial y}(x,y) = 3y^2 - 3x, also
\operatorname{H}_f(x,y) = \begin{pmatrix} 6x & -3 \\ -3 & 6y\end{pmatrix}.
  • Die Funktion r \colon \R^n \to \R, r(x) = \|x\| = \sqrt{\sum_{j=1}^n x_j^2}, die jedem Vektor im \R^n seine euklidische Norm zuordnet, ist für alle x \neq 0 zweimal stetig differenzierbar und es gilt nach der Kettenregel
\frac{\partial r}{\partial x_j}(x) = \frac{x_j}{\|x\|}
sowie weiter nach der Quotientenregel
\frac{\partial^2 r}{\partial x_i \partial x_j}(x) = \frac{\delta_{ij} \|x\| - x_j\frac{x_i}{\|x\|}}{\|x\|^2} = \frac{1}{\|x\|} \delta_{ij} - \frac{x_i x_j}{\|x\|^3},
wobei \delta_{ij} = \frac{\partial x_j}{\partial x_i} das Kronecker-Delta bezeichnet. In Matrixschreibweise folgt also
\operatorname{H}_r(x) = \frac{1}{\|x\|} E_n - \frac{1}{\|x\|^3} x x^T
mit der n\times n-Einheitsmatrix E_n.

Anwendungen[Bearbeiten]

Taylor-Entwicklung[Bearbeiten]

Die Taylor-Entwicklung einer zweimal stetig differenzierbaren Funktion f \colon D \to \R mit D \subseteq \R^n um eine Entwicklungsstelle a \in D beginnt mit

T(x) = f(a) + (x-a)^T \operatorname{grad}f(a) + \frac{1}{2}(x-a)^T \operatorname{H}_f(a)(x-a) + \ldots

Die Terme zweiter Ordnung dieser Entwicklung sind also durch die quadratische Form gegeben, deren Matrix die an der Entwicklungsstelle ausgewertete Hesse-Matrix ist.

Extremwerte[Bearbeiten]

Mit Hilfe der Hesse-Matrix lässt sich der Charakter der kritischen Punkte einer Abbildung in \mathbb R^n bestimmen. Dazu bestimmt man für die zuvor ermittelten kritischen Punkte die Definitheit der Hesse-Matrix.

  • Ist die Matrix an einer Stelle positiv definit, so befindet sich an diesem Punkt ein lokales Minimum der Funktion.
  • Ist die Hesse-Matrix dort negativ definit, so handelt es sich um ein lokales Maximum.
  • Ist sie indefinit, dann handelt es sich um einen Sattelpunkt der Funktion.

Falls die Hesse-Matrix an der untersuchten Stelle nur semidefinit ist, so versagt dieses Kriterium und der Charakter des kritischen Punktes muss auf anderem Wege ermittelt werden. Welcher dieser Fälle vorliegt, kann – wie unter Definitheit beschrieben – zum Beispiel mit Hilfe der Vorzeichen der Eigenwerte der Matrix oder ihrer Hauptminoren entschieden werden.

Beispiel: Die Funktion f(x,y) = x^2-y^2 hat in (0,0) einen kritischen Punkt, aber H(f)(0,0) = (\begin{smallmatrix}2&0\\0&-2\end{smallmatrix}) ist weder positiv noch negativ definit. Die Funktion hat in diesem Punkt kein Extremum, sondern einen Sattelpunkt, indem sich zwei Höhenlinien schneiden.

Konvexität[Bearbeiten]

Es besteht zudem ein Zusammenhang zwischen der positiven Definitheit der Hesse-Matrix und der Konvexität einer zweimal stetig differenzierbaren Funktion f, die auf einer offenen, konvexen Menge D definiert ist: Eine solche Funktion ist genau dann konvex, wenn ihre Hesse-Matrix überall in D positiv semidefinit ist. Ist die Hesse-Matrix sogar positiv definit in D, dann ist die Funktion auf D strikt konvex. Entsprechend gilt: Eine zweimal stetig differenzierbare Funktion f ist auf ihrer konvexen Definitionsmenge D genau dann konkav, wenn ihre Hesse-Matrix negativ semidefinit ist. Ist die Hessematrix sogar negativ definit auf D, so ist f auf D strikt konkav.

Ist f auf ihrer Definitionsmenge D strikt konvex, so besitzt f höchstens ein globales Minimum auf D. Jedes lokale Minimum ist zugleich das (einzige) globale Minimum. Ist f strikt konkav, so besitzt f höchstens ein globales Maximum. Jedes lokale Maximum ist zugleich ihr (einziges) globales Maximum.[2]

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]

Literatur und Einzelnachweise[Bearbeiten]

  1.  Otto Forster: Analysis 2. Differentialrechnung im Rn, gewöhnliche Differentialgleichungen. 8 Auflage. Vieweg+Teubner Verlag, Wiesbaden 2008, ISBN 978-3-8348-0575-1, S. 78, DNB http://d-nb.info/98964216X.
  2. Konvexe Funktionen. Abgerufen am 16. September 2012.