5.4. Totale Differenzierbarkeit¶
Im letzten Abschnitt haben wir gesehen, dass der Begriff der partiellen Ableitung die nächstliegendste Strategie ist um Ableitungen für Funktionen mehrerer Veränderlicher zu definieren. Allerdings wurde aus den obigen Beispielen auch klar, dass Definition über Einschränkung auf einzelne Koordinatenachsen, einerseits willkürlich ist, aber insbesondere auch keine befriedigende Verallgemeinerung des Ableitungsbegriffs darstellt. So gilt z.B. die aus dem Eindimensionalen bekannte Implikation für Funktionen \(f \colon \R \rightarrow \R\) nicht für den Begriff der partiellen Differenzierbarkeit.
Eindimensionaler Fall
\(f\) ist differenzierbar \(\Rightarrow\) \(f\) ist stetig
Aus diesem Grund, wollen wir nun einen weiteren Ableitungsbegriff kennenlernen, welcher eine tatsächliche Verallgemeinerung dieser Beobachtung darstellt. Insbesondere erlaubt es uns dieser neue Begriff auch Ableitung von vektorwertigen Funktionen \(f:U\rightarrow\R^m\) für eine offene Teilmenge \(U\subset\R^n\) zu definieren.
(Totale Differenzierbarkeit)
Sei \(U\subset\R^n\) eine offene Teilmenge. Dann heißt eine Funktion \(f:U\rightarrow \R^m\) total differenzierbar im Punkt \(x\in U\), falls für einen beliebigen Vektor \(\xi \in \R^n\) eine lineare Abbildung \(L:\R^n\rightarrow\R^m\) existiert, so dass
Die folgende Bemerkung beschreibt die Intuition hinter der Definition von totaler Differenzierbarkeit.
Zur totalen Differenzierbarkeit können wir folgende Beobachtungen festhalten.
In (5.4) betrachtet man das sogenannte Fehlerfunktional
welches die Abweichung zwischen der Linearisierung und der eigentlichen Differenz misst. Bei der Definition von totaler Differenzierbarkeit fordern wir also, dass diese Diskrepanz schnell genug gegen Null konvergiert.
Zudem erkennen wir, dass Definition Definition 5.6 konsistent mit dem herkömmlichen Begriff der Differenzierbarkeit einer Funktion \(f\) im Eindimensionalen (\(n=m=1\)) ist, da die Funktion \(L\) in diesem Fall als
gewählt werden kann. \item% Die lineare Abbildung \(L\) wird typischerweise mit der darstellenden Matrix
bezüglich der kanonischen Basen von \(\R^n\) und \(\R^m\) identifiziert. Das Fehlerfunktional, hat dann komponentenweise die Form
Somit sehen wir, dass \(f\) genau dann total differenzierbar ist, falls jede Komponente von \(f\) im Bildraum total differenzierbar ist. \end{enumerate}
Sei \(C\in\R^{n,n}\) eine symmetrische Funktion und die Funktion \(f:\R^n\rightarrow\R\) als quadratische Form gegeben durch
Wir berechnen nun für einen beliebigen Punkt \(x\in\R^n\) und einen Richtungsvektor \(\xi \in \R^n\)
Das Fehlerfunktional ist also gegeben durch
Mit Hilfe der Cauchy-Schwarz Ungleichung aus Satz \ref{satz:cauchy-schwarz_r} sehen wir, dass
Damit können wir schließlich folgern
Wir sehen also, dass die Funktion \(f(x) = \langle x, Cx \rangle\) total differenzierbar in allen Punkten \(x\in \R^n\) ist.
5.4.1. Stetigkeit total diffbarer Funktionen¶
Der folgende Satz liefert uns nun die gewünschte Aussage, dass totale Differenzierbarkeit einer Funktion schon Stetigkeit impliziert. Zudem stellt er einen Bezug zum Begriff der partiellen Differenzierbarkeit her.
Sei \(U\subset\R^n\) eine offene Teilmenge und sei \(f:U\rightarrow \R^m\) eine im Punkt \(x\in U\) total differenzierbare Funktion, d.h., es existiert eine Matrix \(L\in\R^{m\times n}\), so dass,
die Gleichung (5.4) erfüllt. Dann gilt
f ist stetig im Punkt \(x\),
jede Komponente von \(f\) im Bildraum ist partiell differenzierbar in \(x\) und die Einträge der Matrix \(L\) sind gerade die partiellen Ableitungen von \(f\), d.h.,
Proof. Die Stetigkeit ist eine direkte Folgerung aus der Definition, denn mittels Dreiecksungleichung können wir zeigen, dass gilt
Da auf Grund der Linearität von \(L\) offensichtlich \(\lim_{\xi\rightarrow 0}\norm{L\xi} = 0\) gilt und \(f\) total differenzierbar ist, d.h.,
folgt somit schon
Da der obige Grenzwerte beliebige Nullfolgen betrachtet folgt die Stetigkeit von \(f\). \par Für den Zusammenhang mit der partiellen Differenzierbarkeit in der zweiten Aussage des Satzes betrachten wir eine Komponente \(f_i\) von \(f\) für \(i\in\{1,\ldots,m\}\) und damit gilt nach Bemerkung \ref{bem:fehlerfunktional}
Treffen wir nun die spezielle Wahl \(\xi=h \cdot e_j\) für eine Koordinatenrichtung \(e_j, 1 \leq j \leq n\), so sehen wir
Setzen wir nun die Definition der totalen Differenzierbarkeit für die Komponente \(r_i\) ein folgt
Damit haben wir gezeigt, dass die Einträge der Matrix \(L\) mit den partiellen Ableitungen der Funktion \(f\) übereinstimmen.
5.4.2. Die Jacobi-Matrix¶
Speziell die besondere Gestalt der Matrix \(L\) in der zweiten Aussage des Satzes \ref{thm:totdiff} motiviert die Definition der Jacobi-Matrix einer vektorwertigen, partiell differenzierbaren Funktion.
(Jacobi-Matrix)
Sei \(U\subset \R^n\) eine offene Teilmenge und sei \(f:U\rightarrow \R^m\) eine partiell differenzierbare Funktion (d.h. jede Komponente \(f_i\) ist partiell differenzierbar), dann heißt die Matrix
Jacobi-Matrix am Punkt \(x\in U\).
Im Folgenden wollen wir wichtige Beobachtungen zur Bedeutung der Jacobi-Matrix festhalten.
Sei \(U \subset \R^n\) eine offene Teilmenge und sei \(f \colon U \rightarrow \R^m\) eine partiell differenzierbare Funktion. Dann können wir folgendes feststellen.
Falls \(f\) eine reellwertige Funktion ist, d.h., \(m=1\), so stimmt die Jacobi-Matrix von \(f\) am Punkt \(x\in U\) mit dem Gradienten von \(f\) in \(x\) überein, d.h.
Aus Satz Theorem 5.2, folgt insbesondere, dass die lineare Abbildung \(L\) in der Definition der totalen Differenzierbarkeit eindeutig bestimmt ist durch die Jacobi-Matrix. Das Fehlerfunktional (5.5) ist also gegeben durch
Wir wissen nun, dass für Funktionen \(f \colon U \rightarrow \R^m\) die Implikation
Mehrdimensionaler Fall
\(f\) ist total differenzierbar \(\Rightarrow\) \(f\) ist partiell differenzierbar
gilt. Die Umkehrung gilt offensichtlich nicht, wie wir in Beispiel Example 5.2 gesehen haben. Nehmen wir jedoch eine zusätzliche zusätzliche Stetigkeitsannahme hinzu, erhalten wir wieder totale Differenzierbarkeit, wie folgender Satz zeigt.
Sei \(U\subset\R^n\) eine offene Teilmenge und sei \(f:U\rightarrow\R\) eine in \(U\) partiell differenzierbare Funktion für die alle partiellen Ableitungen \(\partial_i f\) stetig sind im Punkt \(x\in U\).
Dann ist \(f\) in \(x \in U\) total differenzierbar.
Proof. Wir wählen \(x\in U\) und ein \(\delta>0\), so dass \(B_\delta(x)\subset U\). Wir betrachten nun einen beliebigen Vektor \(\xi\in B_\delta(0)\) und definieren basierend auf \(\xi\) einen Familie von Vektoren \(z_0, \ldots, z_n \in B_\delta(x)\) mit
Wir erkennen, dass \(z_0=x\) und \(z_n = x + \xi\) gilt und die Vektoren \(z_k\) dadurch entstehen, dass wir sukzessive weitere Komponenten von \(\xi\) hinzunehmen. Das bedeutet, dass ich zwei aufeinanderfolgende Vektoren \(z_k\) und \(z_{k-1}\) nur in der \(k\)-ten Koordinatenrichtung unterscheiden.
Im Folgenden beschränken wir die Funktion \(f\) auf die \(k\)-te Komponente, d.h., wir betrachten
Durch diese eindimensionale Beschränkung sehen wir, dass gilt
Wenden wir nun den Mittelwertsatz für Funktionen in einer Veränderlichen \cite[Kapitel 6.2]{burger_2020} an, so sehen wir, dass ein \(\theta_{k}\in(0,\xi_{k})\) existiert, so dass
Wegen der Identität (5.6) folgt damit schon, dass
Da (5.7) für jedes \(0 \leq k \leq n\) gilt, können wir über diese Indizes summieren und erhalten damit die folgende Teleskopsumme:
Wir betrachten nun das folgende Fehlerfunktional für die spezielle Wahl der Linearform \(L\) in Definition \ref{def:totale_differenzierbarkeit} als Jacobi-Matrix \(J_f\). In diesem Fall entspricht die Jacobi-Matrix dem transponierten Gradienten von \(f\) nach Bemerkung \ref{rem:jacobi_matrix}, d.h., \(J_f(x) = (\nabla f(x))^T\). Man beachte, dass wir nur irgendeine Linearform finden müssen, die die Definition von totaler Differenzierbarkeit erfüllt.
Mittels der Cauchy-Schwarz Ungleichung in Satz \ref{satz:cauchy-schwarz_r} können wir damit sofort folgern , dass
Per Konstruktion gilt stets \(\theta_k\leq\xi_k\) für \(0 \leq k \leq n\) und somit
Benutzen wir nun die Stetigkeit der partiellen Ableitungen folgt damit schon die totale Differenzierbarkeit von \(f\) in \(x\) durch
Insgesamt haben wir nun eine Abstufung der Stärke der verschiedenen Begriffe von Differenzierbarkeit von Funktionen in mehreren Veränderlichen, wie folgende Bemerkung zusammenfasst.
Sei \(U \subset \R^n\) eine offene Teilmenge und \(f \colon U \rightarrow \R^m\) eine Funktion. Zusammengefasst habe wir folgende Implikationskette:
\(f\) ist stetig partiell differenzierbar \(\Rightarrow\) \(f\) ist total differenzierbar \(\Rightarrow\) \(f\) ist partiell differenzierbar.
Die Umkehrungen obiger Implikationen gelten im Allgemeinen nicht, wie wir in verschiedenen Beispielen zeigen konnten.
5.4.3. Die Kettenregel¶
In diesem Abschnitt beweisen wir eine Verallgemeinerung der Kettenregel für Funktionen mehrerer Veränderlicher, welche im nächsten Satz beschrieben ist.
(Kettenregel)
Seien \(U\subset\R^n, V\subset\R^k\) zwei offene Teilmengen. Außerdem sei \(g:U\rightarrow V\) eine im Punkt \(x\in U\) und \(f:V\rightarrow \R^m\) eine im Punkt \(g(x) \in V\) total differenzierbare Funktion. Dann ist die Funktion
im Punkt \(x \in U\) total differenzierbar und für das Differential (d.h. für die Jacobi-Matrix) gilt
Proof. Wir wählen einen beliebigen Vektor \(\xi\in\R^n\), so dass \(x + \xi \in U\) ist und betrachten zunächst das Fehlerfunktional \(r_g\) für \(g\) bezüglich \(\xi\) im Punkt \(x \in U\) mit
Damit gilt für die Konkatenation der Funktionen
Analog sehen wir für das Fehlerfunktional \(r_f\) für \(f\) bezüglich \(\eta\) im Punkt \(g(x) \in V\),
Insgesamt erhalten wir also den folgenden Zusammenhang
Durch Umstellen von (5.8) erhalten wir folgende Identität:
Es ist klar, dass der Term \((Df(g(x)) \cdot Dg(x))\) ein linearer Operator ist. Um zu zeigen, dass es sich auch wirklich um das Differential von \((f \circ g)\) im Punkt \(x \in U\) handelt müssen wir zeigen, dass das Fehlerfunktional \(r_{f\circ g}(\xi)\) gegen Null konvergiert, wenn \(\xi\) gegen Null geht und somit \((f \circ g)\) total differenzierbar in \(x \in U\) ist.
Um zeigen, dass die Konkatenation \(f\circ g\) total differenzierbar in \(x \in U\) ist, wählen wir ein beliebiges \(\varepsilon>0\). Da \(g\) total differenzierbar in \(x \in U\) ist nach Voraussetzung, wissen wir, dass ein \(\delta_1 > 0\) existiert, so dass für \(\norm{\xi}\leq \delta_1\) gilt
Somit gilt insbesondere durch Anwendung der Dreiecksungleichung und der Cauchy-Schwarz-Ungleichung
Da \(f\) total differenzierbar im Punkt \(g(x) \in V\) nach Voraussetzung ist, wissen wir, dass ein \(\delta_2\leq\delta_1\) existiert, so dass für beliebiges \(\tilde\eta\in\R^k\), mit \(\norm{\tilde\eta} < \delta_2\) gilt, dass
Wählen wir nun
so folgt, dass \(\norm{\eta}\leq \delta_2\) und somit gilt schon für alle \(\xi\) mit \(\norm{\xi}\leq \delta\)
Wir haben insgesamt also
gezeigt und somit gilt wegen der totalen Differenzierbarkeit von \(g\) in \(x \in U\) für die Konkatenation
Im Folgenden wollen wir die Anwendung der mehrdimensionalen Kettenregel an Hand eines einfachen Beispiels illustrieren
Wir betrachten zwei total differenzierbare Funktionen \(f,g \colon \R^2 \rightarrow \R^2\) mit
Wir betrachten die Konkatenation \(h \coloneqq f \circ g \colon \R^2 \rightarrow \R^2\) der beiden Funktionen mit
Wir können die Jacobi-Matrix \(J_h\) direkt berechnen als
Andererseits können wir über die mehrdimensionale Kettenregel in Satz Theorem 5.4 das Differential berechnen als
Wir berechnen also zunächst die Jacobi-Matrizen \(Df = J_f\) von \(f\) und \(Dg = J_g\) von \(g\):
Durch Einsetzen erhalten wir also insgesamt
Die mehrdimensionale Kettenregel liefert also das gleiche Ergebnis für das Differential der Konkatenation von \(f\) und \(g\).
5.4.4. Richtungsableitung¶
Wir führen nun zusätzlich noch das Konzept der Richtungsableitung ein, welches analog zur partiellen Ableitung in Kapitel Partielle Integration Differenzen entlang eindimensionaler Linien betrachtet, mit dem wichtigen Unterschied, dass wir nun beliebige Richtungen im \(\R^n\) zulassen werden.
Für stetig partiell differenzierbare Funktionen lassen sich Richtungsableitungen leicht über den Gradienten darstellen, wie der folgende Satz aussagt.
Sei \(U\subset\R^n\) eine offene Teilmenge und sei \(f:U\rightarrow\R\) eine stetig partiell differenzierbare Funktion. Dann gilt für jeden Richtungsvektor \(v\in\R^n\) mit \(\norm{v}=1\), dass gilt
für alle \(x\in U\).
Proof. In der Hausaufgabe zu zeigen.
Die folgende Bemerkung motiviert die Betrachtung der speziellen Richtung des stärksten Gradientenanstiegs bzw. -abstiegs in numerischen Methoden der Optimierung.
Sofern \(\nabla f(x) \neq 0\) können wir den Winkel \(\theta \coloneqq \sphericalangle(\nabla f(x), v)\) zwischen \(\nabla f(x)\) und \(v\) definieren. In diesem Fall gilt nach Definition \ref{def:winkelmessung} die Identität
Dieser Ausdruck wird maximal bzw. minimal wenn für den Winkel \(\theta\) gilt
Anschaulich bedeutet diese Beobachtung, dass am Punkt \(x\) der steilste Aufstieg bzw. Abstieg in Richtung des (negativen) Gradienten erfolgt. Diese Überlegung bildet die Grundlagen vieler numerischer Optimierungsverfahren, da diese Richtung offensichtlich die Funktionswerte am stärksten verändert.
5.4.5. Der Mittelwertsatz¶
Für Funktionen mehrerer Veränderlicher haben wir bisher häufig alle Koordinatenrichtungen bis auf eine fixiert haben, so dass wir effektiv den Mittelwertsatz für Funktionen in einer Veränderlichen benutzen konnten. Analog können wir reellwertige Funktionen in mehreren Veränderlichen auch entlang beliebiger Richtungen betrachten was zu folgender Aussage führt.
(Mittelwertsatz für reellwertige Funktionen)
Sei \(U\subset\R^n\) eine offene Teilmenge und \(f:U\rightarrow\R\) eine stetig partiell differenzierbare Funktion. Für einen Punkt \(x\in U\) und einem Richtungsvektor \(\xi\in\R^n\) mit \((x+t\xi) \in U\) für alle \(t\in[0,1]\) existiert ein \(\theta\in[0,1]\), so dass
Proof. Wir betrachten die eindimensionale Einschränkung \(g(t):=f(x+t\xi)\) von \(f\) und sehen mit Hilfe des Mittelwertsatzes für Funktionen in einer Veränderlichen (\citep{burger_2020}, Kapitel 6.2), dass ein \(\theta\in[0,1]\) existiert, so dass wir mit der Kettenregel aus Satz Theorem 5.4 erhalten
Die obige Darstellung des Mittelwertsatzes funktioniert leider nur für reellwertige Funktionen, wie die folgende Bemerkung feststellt.
Für vektorwertige Funktionen \(f:U\rightarrow\R^m\) scheitert die Überlegung aus Satz Theorem 5.6 leider, da wir hier verschiedene unabhängige Komponenten im Bildbereich haben. Wir müssten also den Mittelwertsatz für reellwertige Funktionen auf jede Komponente \(f_i\) von \(f\) einzeln anwenden und erhalten in obiger Notation \(m\) verschiedene Zwischenstellen \(x + \theta_i\xi \in \R^n\). Da diese Zwischenstellen im Allgemeinen verschieden sind scheitert das Argument.
Das Konzept lässt sich allerdings durch folgende Überlegungen verallgemeinern. Für eine stetig differenzierbare Funktion \(f:I\rightarrow\R\), wobei \(I\subset\R\) eine offene Teilmenge sei, folgt aus dem Hauptsatz der Differential- und Integralrechnung \cite[Kapitel 7.2]{burger_2020}, dass
Diese Integralform lässt sich nun auch auf Funktionen mit mehreren Komponenten übertragen. Dazu bemerken wir kurz, dass das Integral einer matrixwertigen Funktion \(A:\R\rightarrow\R^{n\times m}\) durch das Integral der einzelnen Matrix-Einträge gegeben ist, das heißt es gilt
für \(1\leq i \leq n, 1 \leq j \leq m\).
Basierend auf der Beobachtung in Bemerkung Remark 5.10 können wir im Folgenden den Mittelwertsatz für vektorwertige Funktionen in mehreren Veränderlichen formulieren.
(Mittelwertsatz)
Sei \(U\subset\R^n\) eine offene Teilmenge und sei \(f:U\rightarrow\R^m\) eine stetig partiell differenzierbare, vektorwertige Funktion. Für einen beliebigen Punkt \(x\in U\) und einen Richtungsvektor \(\xi\in\R^n\) mit \(x+t\xi\in U\) für alle \(t\in[0,1]\) gilt
\end{satz} \begin{proof} Für jede Komponente \(f_i\) im Bild von \(f\) betrachten wir eine eindimensionale Funktion \(g_i:[0,1]\rightarrow\R\) mit
Wenden wir auf diese Funktionen den Hauptsatz der Differential- und Integralrechnung \cite[Kapitel 7.2]{burger_2020} an und benutzen die Darstellung der Richtungsableitung aus Satz Theorem 5.5, so sehen wir, dass für jede Komponente \(i \in \lbrace 1, \ldots, m \rbrace\) gilt
Der allgemeine Mittelwertsatz Theorem 5.7 erlaubt es uns zusätzlich eine sehr praktische Norm-Abschätzung herzuleiten. Dafür benötigen wir jedoch zunächst folgendes Hilfslemma.
Sei \(f:[t_0,t_1]\rightarrow\R^m\) eine stetige Funktion, dann gilt
Proof. In der Hausaufgabe zu zeigen.
Mit Hilfe des Lemmas Lemma 5.3 können wir nun ein nützliche Abschätzung für die Abstand zweier Funktionswerte in Abhängigkeit des Differentials zeigen.
Sei \(U\subset\R^n\) eine offene Teilmenge und sei \(f:U\rightarrow\R^m\) eine stetig partiell differenzierbare, vektorwertige Funktion. Für einen Punkt \(x\in U\) und einem Richtungsvektor \(\xi\in\R^n\) mit \((x+t\xi) \in U\) für alle \(t\in[0,1]\) sei außerdem
Dann gilt die folgende Abschätzung
Proof. In der Hausaufgabe zu zeigen.