6.2. Optimierung unter Nebenbedingungen¶
Bisher haben wir uns nur mit unrestringierten Optimierungsproblemen beschäftigt und für diese Optimalitätsbedingungen hergeleitet. Viele reale Aufgabenstellungen erfordern jedoch die Optimierung einer Zielfunktion unter Nebenbedingungen. Daher wollen wir uns im Folgenden mit solchen Problemen beschäftigen und eine Möglichkeit aufzeigen stationäre Punkte unter Nebenbedingungen zu identifizieren.
Wir beschränken uns hierbei auf Optimierungsprobleme, bei denen die Nebenbedingung eine Gleichheit erfüllen müssen, lassen jedoch keine Ungleichungen zu, d.h., für die Indexmenge \(\mathcal{I}\) der Ungleichungen im allgemeinen Optimierungsproblem (6.1) gilt \(\mathcal{I} = \emptyset\). Der Grund für diese Einschränkung ist, dass die zugehörige Theorie der sogenannten Karush-Kuhn-Tucker (KKT) Bedingungen für Optimierungsprobleme mit Ungleichungsnebenbedingungen den Rahmen dieser Vorlesung sprengen würde. Interessierte Leser*innen seien auf Kapitel 12.3 [uSJW06] verwiesen.
Wir beginnen direkt mit der wichtigen geometrischen Beobachtung, dass die Gradienten einer Zielfunktion und der zugehörigen Nebenbedingung in einem Minimierer parallel ausgerichtet sein müssen.
(Lagrange-Multiplikatoren)
Seien \(F,c \colon \Omega \rightarrow \R\) zwei stetig partiell differenzierbare Funktionen und sei
eine Untermannigfaltigkeit (z.B. eine Kurve in \(\Omega\)), die alle Nullstellen von \(c\) enthält.
Zu jeder Lösung \(x^*\in M\) des Minimierungsproblems
und \(\nabla c(x^*) \neq 0\) existiert ein Lagrange-Multiplikator \(\lambda^* \in \R\), so dass
Das heißt die beiden Gradienten \(\nabla F\) und \(\nabla c\) sind parallel in \(x^* \in \Omega\).
Proof. Sei \(x^* \in M\) eine Lösung des Minimierungsproblems mit Nebenbedingung. Wir sehen zunächst ein, dass der Gradient \(\nabla c(x^*)\) senkrecht zu allen Tangentialvektoren der Untermannigfaltigkeit \(M\) steht, da sich \(c\) entlang aller Tangentialrichtungen von \(M\) nicht ändert. Wir schreiben nun den Gradienten der Zielfunktion \(\nabla F\) mittels orthogonaler Projektion (vgl. Kapitel Orthogonalisierung und Orthonormalisierung) als eindeutige Summe zweier Vektoren \(v_\perp \in \R^n\) und \(v_\parallel \in \R^n\), die jeweils orthogonal und parallel zu \(\nabla c\) sind mit
Wir führen nun den Beweis über einen Widerspruch. Nehmen wir an, dass \(\nabla F\) und \(\nabla c\) nicht parallel sind, dann folgt, dass \(v_\perp \neq 0\) ist. Betrachten wir nun die Richtungsableitung von \(F(x^*)\) in Richtung des Vektors \(-v_\perp \in \R^n\), dann gilt
Das bedeutet, dass wir den Funktionswert der Zielfunktion \(F\) noch weiter verkleinern können, indem wir entlang der Untermannigfaltigkeit \(M\) in Richtung \(-v_\perp \in \R^n\) gehen. Dies ist jedoch ein Widerspruch zur Optimalität des Punkts \(x^* \in M\). Also müssen \(\nabla F\) und \(\nabla c\) parallel sein und es gilt:
Der Lagrange-Multiplikator \(\lambda \in \R\) taucht in der Formel auf, da die Gradienten parallel aber nicht gleich lang sein müssen.
Die folgenden Bemerkungen erklären wie aus Satz Theorem 6.4 das sogenannte Verfahren der Lagrange-Multiplikatoren gewonnen werden kann, welches beispielsweise in der Physik bei Anwendungen der klassischen Mechanik eine Schlüsselrolle spielt.
Wir wollen folgende Beobachtungen festhalten. \begin{enumerate} \item Die notwendige Bedingung, dass die Gradienten der Zielfunktion \(F\) und der Nebenbedingung \(c\) in einem Minimierer \(x^* \in M\) parallel ausgerichtet sein müssen, d.h.,
lässt sich für das Verfahren der Lagrange-Multiplikatoren ausnutzen. Hierzu definieren wir zunächst eine neue Funktion \(\Lambda \colon \Omega \times \R \rightarrow \R\), genannt Lagrange-Funktion, die eine zusätzliche Variable \(\lambda \in \R\) für die Nebenbedingung besitzt, als
Betrachtet man nämlich nun stationäre Punkte \((x^*, \lambda^*) \in \Omega \times \R\) von \(\Lambda\), d.h.,
so erfüllen diese Punkte automatisch die notwendigen Kriterien für einen Minimierer des ursprünglichen Optimierungsproblems unter Nebenbedingungen. \item Das oben beschriebene Verfahren der Lagrange-Multiplikatoren lässt sich auch auf Optimierungsprobleme mit mehreren Nebenbedingungen \(c_i \colon \Omega \rightarrow \R\) für \(1 \leq i \leq m\) verallgemeinern. Hierzu wird die Lagrange-Funktion als eine Linearkombination der Zielfunktion und den \(m\in\N\) Nebenbedingungen geschrieben als
Zur Bestimmung stationärer Punkte geht man nun analog zum Fall mit nur einer Nebenbedingung vor. \end{enumerate}
Wir wollen im Folgenden eine Zielfunktion \(F \colon \R^2 \rightarrow \R\) mit
minimieren unter der Nebenbedingung, dass der Lösungsvektor \(x^* = (x,y)^T \in \R^2\) normiert sein soll, d.h., \(x^2 + y^2 = 1\). Dies führt also zu einem Optimierungsproblem mit Nebenbedingung der folgenden Gestalt:
Wir identifizieren zunächst Punkte in denen der Gradient von \(c(x,y)\) verschwindet, d.h.,
Dies kann nur im Ursprung \((0,0)^T\) passieren. Da dieser Punkt nicht die Nebenbedingung erfüllt, müssen wir ihn also bei den folgenden Berechnungen nicht explizit beachten.
Um das Verfahren der Lagrange-Multiplikatoren anwenden zu können, stellen wir zunächst die Lagrange-Funktion auf:
Nach dem Satz Theorem 6.4 müssen wir für potentielle Lösungen des Optimierungsproblems (6.4) nur Extremstellen der Lagrange-Funktion berechnen, d.h., wir betrachten stationäre Punkte von \(\Lambda\) durch
Obwohl es sich nicht um lineares Gleichungssystem handelt können wir dennoch eine Lösung für die drei Gleichungen herleiten. Wenn wir annehmen, dass \(\lambda \neq 0\) gilt, so können wir die ersten beiden Gleichungen jeweils nach \(x\) und \(y\) umstellen und erhalten so, dass
Setzen wir diese Identitäten in die dritte Gleichung können wir für den Lagrange-Multiplikator folgende Bedingung herleiten
Wir erhalten für \(\lambda\) also die beiden möglichen Lösungen
Setzen wir diese beiden Lagrange-Multiplikatoren wieder in die beiden ersten Optimalitätsbedingungen ein erhalten wir als stationäre Punkte der Lagrange-Funktion:
Durch Einsetzen der Punkte in die Zielfunktion \(F\) sehen wir, dass es sich bei \(x_1^*\) um ein Maximum des Optimierungsproblems handelt und bei \(x_2^*\) um ein Minimum, da