Optymalizacja II

124
Matematyka stosowana Optymalizacja II Jan Palczewski [email protected] http://www.mimuw.edu.pl/~jpalczew Uniwersytet Warszawski, 2014

Transcript of Optymalizacja II

Page 1: Optymalizacja II

Matematyka stosowana

Optymalizacja II

Jan [email protected]

http://www.mimuw.edu.pl/~jpalczew

Uniwersytet Warszawski, 2014

Page 2: Optymalizacja II

Streszczenie. Wykład prezentuje teorię optymalizacji nieliniowej z ogranicze-niami równościowymi i nierównościowymi. Uzupełniony jest z wprowadzeniemdo metod numerycznych.

Wersja internetowa wykładu:http://mst.mimuw.edu.pl/lecture.php?lecture=op2

(może zawierać dodatkowe materiały)

Niniejsze materiały są dostępne na licencji Creative Commons 3.0 Polska:Uznanie autorstwa — Użycie niekomercyjne — Bez utworów zależnych.

Copyright c© J. Palczewski, Uniwersytet Warszawski, Wydział Matematyki, Informatyki i Mechaniki, 2014. Ni-

niejszy plik PDF został utworzony 24 stycznia 2014.

Projekt współfinansowany przez Unię Europejską w ramachEuropejskiego Funduszu Społecznego.

Skład w systemie LATEX, z wykorzystaniem m.in. pakietów beamer oraz listings. Szablony podręcznika i prezentacji:

Piotr Krzyżanowski; koncept: Robert Dąbrowski.

Page 3: Optymalizacja II

Spis treści

Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5Notacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6Podziękowania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1. Wiadomości wstępne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1. Problem optymalizacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2. Istnienie minimum funkcji ciągłej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3. Minima lokalne funkcji jednej zmiennej . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4. Wzory Taylora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.5. Dowody twierdzeń 1.5-1.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.6. Ekstrema globalne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.7. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2. Ekstrema funkcji wielu zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1. Notacja i twierdzenia Taylora w wielu wymiarach . . . . . . . . . . . . . . . . . . . . . . 162.2. Znikanie gradientu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3. Dodatnia i ujemna określoność macierzy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4. Warunki II-go rzędu (kryterium drugiej różniczki) . . . . . . . . . . . . . . . . . . . . . . 19

2.4.1. Ekstrema globalne i określoność drugiej różniczki . . . . . . . . . . . . . . . . . . 202.5. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3. Funkcje wypukłe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1. Zbiory wypukłe i twierdzenia o oddzielaniu . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2. Definicja funkcji wypukłej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3. Własności funkcji wypukłych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.4. Charakteryzacje funkcji wypukłej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.5. Subróżniczka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.6. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4. Ekstrema funkcji wypukłej z ograniczeniami . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.1. Problem minimalizacyjny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2. Funkcje pseudowypukłe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3. Maksymalizacja funkcji wypukłej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.4. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5. Warunek konieczny I rzędu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.1. Stożek kierunków stycznych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.2. Ograniczenia nierównościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.3. Warunki konieczne Kuhna-Tuckera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.4. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6. Warunki regularności i przykłady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

6.1. Warunki regularności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606.2. Przykłady . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

7. Funkcje quasi-wypukłe i warunki dostateczne . . . . . . . . . . . . . . . . . . . . . . . . 66

7.1. Quasi-wypukłość . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 667.2. Maksymalizacja funkcji quasi-wypukłej . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 4: Optymalizacja II

4 Spis treści

7.3. Warunki dostateczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727.4. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8. Warunek konieczny dla ograniczeń mieszanych . . . . . . . . . . . . . . . . . . . . . . . 768.1. Warunek konieczny pierwszego rzędu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.2. Warunki regularności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

9. Warunki drugiego rzędu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 829.1. Warunki drugiego rzędu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 829.2. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859.3. Przykład . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859.4. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

10.Teoria dualności . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8910.1. Warunek dostateczny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8910.2. Warunek konieczny dla programowania wypukłego . . . . . . . . . . . . . . . . . . . . . . 9110.3. Zadanie pierwotne i dualne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9510.4. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

11.Teoria wrażliwości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9911.1. Ograniczenia równościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9911.2. Ograniczenia nierównościowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10111.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

12.Metody numeryczne. Optymalizacja bez ograniczeń . . . . . . . . . . . . . . . . . . . . 10512.1. Optymalizacja bez użycia pochodnych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10512.2. Metoda Newtona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10712.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

13.Metody spadkowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11013.1. Reguły minimalizacyjne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11113.2. Reguła Armijo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11413.3. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

14.Metody optymalizacji z ograniczeniami . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11614.1. Algorytm Zoutendijk’a dla ograniczeń liniowych . . . . . . . . . . . . . . . . . . . . . . . 11614.2. Algorytm Zoutendijk’a dla ograniczeń nieliniowych . . . . . . . . . . . . . . . . . . . . . . 11814.3. Modyfikacja Topkis’a-Veinott’a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12214.4. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12314.5. Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

Page 5: Optymalizacja II

Wprowadzenie

„Optymalizacja” to poszukiwanie czegoś „najlepszego”. Sprawdzenie, czy coś (np. decyzja)jest najlepsze, wymaga, przede wszystkim, określenia jakiejś miary, która pozwoli tą decyzjęocenić – funkcji celu. Konieczne jest także opisanie zbioru wszystkich dopuszczalnych decyzji –zbioru punktów dopuszczalnych. Matematyczne przedstawienie zadania optymalizacyjnego, którezaprezentujemy na tym wykładzie, może wydać się dużym uproszczeniem, lecz okazuje się onobyć wystarczające w wielu praktycznych zastosowaniach. Będziemy opisywać zbiór punktówdopuszczalnych jako podzbiór wielowymiarowej przestrzeni rzeczywistej opisany przez układrówności i/lub nierówności. Funkcja celu będzie przyporządkowywała każdemu punktowi tegozbioru liczbę rzeczywistą mierzącą jego optymalność. W przypadku minimalizacji, funkcja celuczęsto zwana jest funkcją kosztu, a celem optymalizacji jest wybranie spośród dozwolonych, opi-sanych przez ograniczenia, sposobów postępowania tych, które ten koszt uczynią najmniejszym.

Jeśli funkcja celu i wszystkie funkcje opisujące ograniczenia są liniowe, to mamy do czynieniaz programowaniem liniowym. Istnieje wówczas algorytm (tzw. algorytm sympleks) pozwalającyna szybkie i dokładne rozwiązywanie takich zagadnień (patrz monografie Bazaraa, Jarvis’a iSherali [2] oraz Gass’a [8]). Sprawa znacznie się komplikuje, jeśli choć jedna z funkcji jest nieli-niowa. Przenosimy się wówczas do świata programowania nieliniowego, który jest dużo bogatszyi trudniejszy. W ten właśnie świat mają wprowadzić czytelnika niniejsze notatki.

Okazuje się, że wiele zastosowań matematyki sprowadza się właśnie do problemów optymali-zacyjnych. Zarządzanie procesami produkcyjnymi, logistyka, czy decyzje inwestycyjne to typoweproblemy programowania nieliniowego. Nie dziwi zatem, że wielu ekonomistów jest ekspertamiw tej dziedzinie. Co więcej, wiele teorii ekonomicznych opiera się na założeniu, że świat dążylub oscyluje wokół punktu równowagi, czyli punktu będącego rozwiązaniem pewnego problemuoptymalizacyjnego.

Równie ważne zastosowania ma programowanie nieliniowe w mechanice, elektronice, za-rządzaniu zasobami wodnymi (tamy, irygacja itp.) oraz budownictwie. Można się pokusić ostwierdzenie, że to jedna z najczęściej stosowanych przez niematematyków dziedzin matematy-ki. Nie można też pominąć statystyki: np. metoda najmniejszych kwadratów, czy największejwiarogodności.

Zwykle, gdy teoria matematyczna zostaje użyta w praktyce, eleganckie metody analityczneoddają pola metodom numerycznym. Metody numeryczne mają na celu znalezienie przybliżeniarozwiązania zadania optymalizacyjnego, gdy staje się ono zbyt skomplikowane, by rozwiązać jew piękny analityczny sposób. Trzy ostatnie rozdziały tych notatek stanowią wprowadzenie do tejważnej dziedziny. Zainteresowany czytelnik może poszerzyć swoją wiedzę czytając monografieBertsekasa [4, 5], Luenbergera [9] lub Bazaraa, Sherali i Shetty [3].

Literatura

Monografia Bazaraa, Sherali i Shetty [3] prezentuje podejście bardziej inżynierskie, utyli-tarne. Prezentuje zarówno teorię, jak i metody numeryczne. Wszystkie twierdzenia poparte sądowodami i uzupełnione przykładami, tak więc stwierdzenie, że jest to pozycja inżynierska,

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 6: Optymalizacja II

6 Wprowadzenie

tyczy się tego, że autorzy ilustrują matematyczne rozumowania intuicjami pochodzącymi zzastosowań.

Bertsekas jest ekspertem od metod numerycznych programowania nieliniowego. W jego książ-kach [4, 5] czytelnik może szukać zaawansowanych algorytmów. Teoria jest jednak zaprezentowa-na dość skrupulatnie, więc i tutaj można się całkiem dużo dowiedzieć o metodach analitycznych.

Książka Luenbergera [9] prezentuje zarówno teorię programowania liniowego jak i nielinio-wego. Większy nacisk położony jest w niej na metody numeryczne niż na prezentację matema-tycznej teorii w pełnej ogólności.

Programowanie liniowe nie jest przedmiotem tych notatek, lecz co jakiś czas wspominane,szczególnie w przypadku metod numerycznych. Czytelnik chcący pogłębić wiedzę na jego tematodsyłany jest do książek Bazaraa, Jarvis’a, Shetty [2] i Gass’a [8].

Literatura w języku polskim nie jest zbyt obszerna. Warto tu wspomnieć monografie Zan-gwill’a [12] i Canon’a, Cullum’a i Polak’a [6].

Notacja

R – zbiór liczb rzeczywistych,x = (x1, . . . , xn) – wektor (pogrubiona litery)x ¬ y – relacja pomiędzy dwoma wektorami; równoważna xi ¬ yi dla każdego i

‖x‖ =√x2

1 + x22 + . . .+ x2

n – norma euklidesowa w Rn,clW – domknięcie zbioru W w domyślnej normie (najczęściej euklidesowej)f ′(x), f ′′(x) – pierwsza i druga pochodna funkcji jednej zmiennejDf(x) – pierwsza pochodna funkcji wielu zmiennych, wektor wierszowyD2f(x) – macierz drugich pochodnych funkcji wielu zmiennych

Podziękowania

Część wykładów i zadań bazuje na notatkach prof. Bronisława Jakubczyka. W największymstopniu dotyczy to wykładów 1, 2, 10, 11. Niektóre zadania pochodzą od dr. Wojciecha Kryń-skiego. Ogromne wyrazy wdzięczności należą się Agnieszce Wiszniewskiej-Matyszkiel za liczneuwagi i komentarze dotyczące zarówno samego doboru materiału jak i jego przedstawienia.

Page 7: Optymalizacja II

1. Wiadomości wstępne

1.1. Problem optymalizacji

Niech W ⊂ Rn będzie niepustym zbiorem, zaś f : W → R dowolną funkcją. Będziemyrozważać problem minimalizacji funkcji f na zbiorze W , przyjmując różne postaci W , w tym:— W = Rn (problem optymalizacji bez ograniczeń),— W = x ∈ Rn : g1(x) = 0, . . . , gm(x) = 0, gdzie g1, . . . gm : Rn → R pewne funkcje

(problem optymalizacji z ograniczeniami równościowymi),— W = x ∈ Rn : g1(x) ¬ 0, . . . , gm(x) ¬ 0, gdzie g1, . . . gm : Rn → R pewne funkcje

(problem optymalizacji z ograniczeniami nierównościowymi).Zbiór W nosi nazwę zbioru punktów dopuszczalnych.

Definicja 1.1. Punkt x0 ∈W nazywamy minimum globalnym funkcji f na zbiorze W jeśli

f(x) ­ f(x0) dla każdego x ∈W.

Definicja 1.2. Punkt x0 ∈W nazywamy minimum lokalnym funkcji f jeśli istnieje ε > 0 takie,że dla kuli B(x0, ε) o środku w x0 i promieniu ε zachodzi

f(x) ­ f(x0) dla każdego x ∈ B(x0, ε) ∩W.

Oczywiście, jeśli x0 jest minimum globalnym to jest minimum lokalnym. Minimum nazywa-my ścisłym, jeśli w powyższych definicjach zachodzi f(x) > f(x0), dla x 6= x0. Analogiczniedefiniujemy globalne i lokalne maksimum. Punkt x0 nazywamy ekstremum (lokalnym, global-nym) jeśli jest on maksimum lub minimum (lokalnym, globalnym).

Minimum (globalne, lokalne) nie musi istnieć, tzn. może się okazać, że nie istnieje x0 speł-niające warunek z definicji 1.1 lub 1.2. W szczególności minimum globalne f na zbiorze W nieistnieje gdy:(a) infx∈W f(x) = −∞, lub(b) infx∈W f(x) = c ∈ R, ale @ x ∈ U takie, że f(x) = c.

Przykład 1.1. Niech W = R, f(x) = x sinx. Dla tej funkcji infx∈W f(x) = −∞, zatemminimum globalne nie istnieje. Jeżeli natomiast ograniczymy się do przedziału W = [a, b], tominimum globalne będzie istnieć. Funkcja ta osiąga minimum lokalne w nieskończonej ilościpunktów, dla W = R. Jeżeli za W przyjmiemy odcinek otwarty, to minimum globalne istniejelub nie istnieje, w zależności od tego odcinka. Ogólnie, funkcja ciągła może nie osiągać kresówna zbiorze niezwartym, w szczególności na podzbiorze otwartym W ⊂ Rn.

1.2. Istnienie minimum funkcji ciągłej

Przypomnijmy, że podzbiór zwarty w Rn to podzbiór domknięty i ograniczony.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 8: Optymalizacja II

8 1. Wiadomości wstępne

Twierdzenie 1.1. Jeśli W jest zbiorem zwartym i f : W → R jest funkcją ciągłą, tof osiąga kresy na W (dolny i górny). Oznacza to, że istnieją x0, y0 ∈W takie, że dladowolnego x ∈W zachodzi

f(x0) ¬ f(x) ¬ f(y0).

Będziemy oznaczali normę euklidesową w Rn przez

‖x‖ =√x2

1 + x22 + . . .+ x2

n.

Warunek zwartości zbioru w powyższym twierdzeniu możemy osłabić do warunku domknię-tości, jeśli funkcja jest koercywna. Koercywność funkcji definiujemy następująco:

Definicja 1.3. Funkcję f : W → R na podzbiorze W ⊂ Rn nazywamy koercywną, jeśli f(x)→∞ dla ‖x‖ → ∞. Można ten warunek zapisać równoważnie

∀r>0 ∃s>0 ∀x∈W : ‖x‖ > s =⇒ f(x) > r.

W szczególności, jeśli W jest ograniczony, to f jest automatycznie koercywna na W .

Twierdzenie 1.2. Jeśli zbiór W jest domknięty oraz funkcja f : W → R jest ciągła ikoercywna, to istnieje punkt x0 w którym funkcja f przyjmuje minimum, tzn. istniejex0 ∈W taki, że f(x0) = infx∈W f(x).

Dowód. Niech y będzie ustalonym punktem w zbiorze W ⊂ Rn. Rozpatrzmy zbiór U = x ∈W : f(x) ¬ f(y). Zauważmy, że U jest zbiorem domkniętym w W , bo funkcja f jest ciągła,a nierówność w warunku nieostra. Z domkniętości W wynika, że U jest domknięty w Rn. Jeston też ograniczony. Mianowicie, dla r = f(y), z koercywności f istnieje s > 0 takie, że jeśli‖x‖ > s, to f(x) > r = f(y), skąd U jest zawarte w kuli B(s) = x : ‖x‖ ¬ s. Zatem U jestzbiorem zwartym. Wówczas istnieje x0 ∈ U – punkt minimum na zbiorze U . Dla x 6∈ U mamyf(x) > f(y) ­ f(x0), więc x0 jest globalnym minimum na całym W .

Domkniętość W nie jest potrzebna, jeśli f odpowiednio rośnie w pobliżu granicy ∂W .

Twierdzenie 1.3. Niech W ⊂ Rn będzie dowolnym niepustym podzbiorem oraz f :W → R – funkcją ciągłą. Jeśli dla pewnego ustalonego punktu y ∈ W oraz dowolnegociągu xn ∈W , takiego że

xn → clW \W lub ‖xn‖ → ∞

zachodzilim infn→∞

f(xn) > f(y),

to istnieje punkt x0 w którym funkcja f przyjmuje minimum.

Dowód. Zbiór U definiujemy jak w poprzednim dowodzie, U = x ∈ W : f(x) ¬ f(y). Abypokazać domkniętość U weźmy dowolny ciąg (xn) ⊂ U zbieżny do x. Pokażemy, że x ∈ U .

Page 9: Optymalizacja II

1.3. Minima lokalne funkcji jednej zmiennej 9

Z xn ∈ U mamy f(xn) ¬ f(y) i jeśli x /∈ W , nierówność ta przeczy założeniu twierdzenia.Wynika stąd, że x ∈ W . Korzystając teraz z ciągłości f na W dostajemy f(x) ¬ f(y), skądx ∈ U . Ograniczoność zbioru U wynika z założonej w twierdzeniu implikacji ‖xn‖ → ∞ ⇒lim infn→∞ f(xn) > f(y). Pozostała część dowodu jest identyczna jak w dowodzie poprzedniegotwierdzenia.

Przykład 1.2. Funkcja f(x, y) = xy − ln(xy) jest ciągła i spełnia założenia Twierdzenia 1.3na zbiorze W = (x, y) ∈ Rn : x > 0, y > 0, x+ y ¬ 4, osiąga więc minimum na W .

1.3. Minima lokalne funkcji jednej zmiennej

Niech W ⊂ R - podzbiór otwarty. Przypomnimy elementarne fakty.

Twierdzenie 1.4 (Warunek konieczny I rzędu). Jeśli x0 ∈W jest punktem lokalnegominimum lub maksimum funkcji f : W → R oraz f posiada pochodną w punkcie x0, to

f ′(x0) = 0.

Dowód twierdzenia 1.4. Niech x0 - minimum lokalne. Dla dostatecznie małych h zachodzi f(x0+h) ­ f(x0). Zatem dla h > 0 mamy

f(x0 + h)− f(x0)h

­ 0 =⇒ limh→0

f(x0 + h)− f(x0)h

­ 0 =⇒ f ′(x0) ­ 0.

Dla h < 0

f(x0 + h)− f(x0)h

¬ 0 =⇒ limh→0

f(x0 + h)− f(x0)h

¬ 0 =⇒ f ′(x0) ¬ 0.

Stąd f ′(x0) = 0.

Twierdzenie 1.5 (Warunek konieczny II rzędu). Jeśli f : W → R jest klasy C2 nazbiorze W i x0 jest punktem lokalnego minimum, to

f ′′(x0) ­ 0.

Twierdzenie 1.6 (Warunek dostateczny II rzędu). Jeśli f : W → R jest klasy C2 nazbiorze W oraz f ′(x0) = 0, f ′′(x0) > 0 dla pewnego x0 ∈ W , to f ma ścisłe lokalneminimum w punkcie x0.

Uwaga 1.1. Twierdzenie 1.5 pozostaje prawdziwe przy zamianie lokalnego minimum na maksi-mum, jeśli znak znak drugiej pochodnej zmienimy na przeciwny.

Uwaga 1.2. Jeśli W nie jest otwarty, to Twierdzenia 1.4 i 1.5 nie są prawdziwe dla x0 ∈ ∂W(brzeg W ), np. funkcja f(x) = −x2 przyjmuje minimum na odcinku [0, 2] w punkcie x0 = 2, ależaden z warunków koniecznych tych twierdzeń nie zachodzi. Natomiast Twierdzenie 1.6 zachodzirównież dla W będącego odcinkiem domkniętym i x0 ∈ ∂W .

Page 10: Optymalizacja II

10 1. Wiadomości wstępne

Poniższe twierdzenie uogólnia warunek dostateczny II rzędu.

Twierdzenie 1.7. Jeśli funkcja f jest klasy Ck na podzbiorze otwartym W ⊂ R izachodzi f ′(x0) = f ′′(x0) = · · · = f (k−1)(x0) = 0 oraz f (k)(x0) 6= 0 w pewnym x0 ∈W ,to:

I) Jeśli k jest nieparzyste, to funkcja f nie posiada w punkcie x0 ekstremum lokal-nego.

II) Jeśli k jest parzyste oraz:(a) f (k)(x0) > 0, to punkt x0 jest ścisłym minimum lokalnym f ,(b) f (k)(x0) < 0, to punkt x0 jest ścisłym maksimum lokalnym f .

Dowody twierdzeń 1.5-1.7 podamy w podrozdziale 1.5.

1.4. Wzory Taylora

W tym podrozdziale przypomnimy wyniki, których będziemy używać w wielu dowodach wtrakcie tego wykładu. Skorzystamy z nich również, aby przedstawić zwięzłe dowody twierdzeń1.5-1.7.

Twierdzenie 1.8 (Twierdzenie o wartości średniej). Jeśli funkcja f : [a, b] → R jestciągła na [a, b] i różniczkowalna na (a, b), to istnieje taki punkt x ∈ (a, b), że

f(b)− f(a) = f ′(x)(b− a).

Zauważmy, że do prawdziwości powyższego twierdzenia nie jest konieczna ciągłość pierwszejpochodnej (w zadaniu 1.7 pokazujemy, że różnicznowalność nie musi pociągać ciągłości pochod-nej).

Dowód twierdzenia 1.8. Niech g(x) = [f(b)− f(a)]x− (b− a)f(x) dla x ∈ [a, b]. Wówczas g jestciągła na [a, b], różniczkowalna w (a, b) oraz

g(a) = f(b)a− f(a)b = g(b).

Pokażemy teraz, że istnieje punkt x0 ∈ (a, b), w którym pochodna g się zeruje. Jeśli g jestfunkcją stałą, to dla dowolnego x0 ∈ (a, b) mamy g′(x0) = 0. W przeciwnym przypadku, namocy twierdzenia 1.1 funkcja g przyjmuje swoje kresy na [a, b]. Jeden z kresów jest różny odg(a) = g(b). Zatem jest on przyjmowany w punkcie x0 we wnętrzu przedziału [a, b]. Korzystającz twierdzenia 1.4 wnioskujemy, że g′(x0) = 0. Różniczkując g otrzymujemy:

0 = g′(x0) = [f(b)− f(a)]− (b− a)f ′(x).

Po prostych przekształceniach otrzymujemy poszukiwany wzór.

Page 11: Optymalizacja II

1.4. Wzory Taylora 11

Twierdzenie 1.9 (Twierdzenie Taylora z resztą w postaci Peano). Niech f : [a, b]→ Rbędzie funkcją klasy C1 na [a, b] oraz dwukrotnie różniczkowalna w pewnym x0 ∈ (a, b).Wówczas dla x ∈ [a, b] zachodzi następujący wzór:

f(x) = f(x0) + f ′(x0)(x− x0) +f ′′(x0)

2(x− x0)2 + o

((x− x0)2).

Uwaga 1.3. W sformułowaniu powyższego twierdzenia użyliśmy notacji małe o. Rozumieć jąnależy następująco:

R(x) = f(x)− f(x0)− f ′(x0)(x− x0)− f ′′(x0)2

(x− x0)2

jest rządu mniejszego niż (x− x0)2, tzn.

limx→x0

R(x)(x− x0)2 = 0.

Przykład 1.3. Innym zastosowaniem powyższej notacji jest definicja pochodnej. Pochodnąfunkcji f w punkcie x0 nazywamy taką liczbę α ∈ R, że

f(x) = f(x0) + α(x− x0) + o(x− x0).

Dowód twierdzenia 1.9. Bez straty ogólności możemy założyć x0 = 0. Musimy wykazać, żeR(x) := f(x)− f(0)− f ′(0)x− f ′′(0)

2 x2 jest niższego rzędu niż x2, tzn. R(x) = o(x2). Z ciągłościpierwszej pochodnej f dostajemy

f(x)− f(0) =∫ x

0f ′(y)dy.

Wiemy, że f ′ jest różniczkowalna w 0. Zatem f ′(y) = f ′(0) + f ′′(0)y + r(y), gdzie r(y) = o(y).Oznacza to, że

limy→0

r(y)y

= 0.

Dla dowolnego ε > 0 istnieje zatem δ > 0, taka że |y| < δ pociąga |r(y)| < ε|y|.Ustalmy zatem dowolny ε > 0 i związaną z nim δ > 0. Weźmy |x| < δ i scałkujmy pochodną

f ′(y). Otrzymamy wówczas:

f(x)− f(0) =∫ x

0

(f ′(0) + f ′′(0)y + r(y)

)dy = f ′(0)x+

f ′′(0)2

x2 +∫ x

0r(y)dy,

czyli R(x) =∫ x

0 r(y)dy. Korzystając z oszacowania |r(y)| < ε|y| dla |y| < δ dostajemy

|R(x)| º x

0|r(y)|dy <

∫ |x|0

ε|y|dy =εx2

2.

A zatem ∣∣∣∣R(x)x2

∣∣∣∣ < ε

2.

Z dowolności ε > 0 wynika, iż R(x) = o(x2).

Page 12: Optymalizacja II

12 1. Wiadomości wstępne

Uwaga 1.4. Twierdzenie 1.9 można uogólnić do dowolnie długiej aproksymacji Taylora. Dowódprzebiega wówczas podobnie, lecz jest nieznacznie dłuższy.

Zakładając większą gładkość funkcji f możemy opisać dokładniej błąd aproksymacji wewzorze Taylora.

Twierdzenie 1.10 (Twierdzenie Taylora z resztą w postaci Lagrange’a). Niech f :[a, b] → R będzie funkcją klasy Ck−1 na [a, b] oraz k-krotnie różniczkowalna na (a, b).Wtedy dla ustalonego x0 ∈ (a, b) i x ∈ [a, b] zachodzi następujący wzór:

f(x) = f(x0) +k−1∑i=1

f (i)(x0)i!

(x− x0)i +f (k)(x)k!

(x− x0)k,

gdzie x jest pewnym punktem pomiędzy x0 i x.

W szczególności dla k = 2 dostajemy

f(x) = f(x0) + f ′(x0)(x− x0) +12f ′′(x)(x− x0)2.

Dowód twierdzenia 1.10. Niech liczba M spełnia równanie

f(x) = f(x0) +k−1∑i=1

f (i)(x0)i!

(x− x0)i +M(x− x0)k.

Celem dowodu jest pokazanie, że M = f (k)(x)k! dla pewnego punktu x pomiędzy x0 i x. Określmy

funkcję

g(y) = f(y)−k−1∑i=1

f (i)(x0)i!

(y − x0)i −M(y − x0)k, y ∈ [x0, x].

Zauważmy, żeg(x0) = g′(x0) = · · · = g(k−1)(x0) = 0.

Ponieważ g(x) = 0, to na podstawie twierdzenia 1.8 istnieje x1 ∈ (x0, x), taki że g′(x1) = 0.Stosując jeszcze raz tw. 1.8 do funkcji g′(y) dla y ∈ [x0, x1] dostajemy x2 ∈ (x0, x1), w którymg′′(x2) = 0. Postępując w ten sposób dostajemy ciąg punktów x > x1 > x2 > · · · > xk > x0,takich że g(j)(xj) = 0, j = 1, . . . , k. Z warunku dla punktu xk otrzymujemy

0 = g(k)(xk) = f (k)(xk)− k!M.

Szukanym punktem x w twierdzeniu jest więc xk.

1.5. Dowody twierdzeń 1.5-1.7

Dowód twierdzenia 1.5. Z twierdzenia 1.4 wiemy, że jeśli x0 jest punktem minimum to f ′(x0) =0. Zatem korzystając ze wzoru Taylora, tw. 1.10, uzyskujemy

f(x)− f(x0) =12f ′′(x)(x− x0)2

Page 13: Optymalizacja II

1.6. Ekstrema globalne 13

dla pewnego punktu x leżącego pomiędzy x0 i x. Z założenia, że x0 jest minimum lokalnym,otrzymujemy f(x)− f(x0) ­ 0. Stąd i z (x− x0)2 ­ 0 wnioskujemy, że

f ′′(x) ­ 0.

Jeśli x→ x0, to również x→ x0. Wykorzystując ciągłość f ′′ dostajemy f ′′(x0) ­ 0.

Dowód twierdzenia 1.6. Z ciągłości drugiej pochodnej f wynika, że istnieje kula B(x0, ε), naktórej f ′′ > 0. Zatem dla x ∈ B(x0, ε), x 6= x0, wnioskujemy ze wzoru Taylora, tw. 1.10, żef(x) > f(x0):

f(x)− f(x0) = f ′(x0)(x− x0)︸ ︷︷ ︸=0

+12f ′′(x)(x− x0)2︸ ︷︷ ︸

>0

.

Oznacza to, że f ma ścisłe minimum lokalne w x0.

Dowód twierdzenia 1.7. Z ciągłości f i otwartości W wynika, że istnieje kula B(x0, ε) ⊂ W ,na której f (k) jest niezerowa (tzn. f (k) nie zmienia znaku z ciągłości). Korzystając ze wzoruTaylora, tw. 1.10 i z założeń twierdzenia otrzymujemy

f(x) = f(x0) +f (k)(x)k!

(x− x0)k

dla dowolnego x ∈ B(x0, ε) oraz x, zależnego od x, należącego do przedziału o końcach x0 i x.Aby zbadać, czy zachodzi jedna z nierówności f(x) > f(x0) lub f(x) < f(x0) dla wszystkichx 6= x0, x ∈ B(x0, ε) należy zbadać znak członu z potęgą (x − x0)k. Człon ten zmienia znakdla k nieparzystego, stąd teza (I). Dla k parzystego znak różnicy f(x)− f(x0) zależy od znakupochodnej f (k) na B(x0, ε).

1.6. Ekstrema globalne

Uzupełnimy jeszcze twierdzenie 1.6 o wynik dotyczący ekstremów globalnych.Niech I ⊂ R będzie odcinkiem otwartym, domkniętym, lub jednostronnie domkniętym (być

może nieograniczonym) i niech f : I → R będzie funkcją klasy C1 na I i klasy C2 na int I.Zachodzi następujące

Twierdzenie 1.11. Przy powyższych założeniach, jeśli f ′(x0) = 0 oraz:(a) f ′′(x) ­ 0 ∀x∈I =⇒ x0 jest globalnym minimum na I,(b) f ′′(x) ¬ 0 ∀x∈I =⇒ x0 jest globalnym maksimum na I.

Jeśli założenia powyższe uzupełnimy o warunek f ′′(x0) > 0 (odpowiednio f ′′(x0) < 0),to x0 będzie ścisłym globalnym minimum (maksimum).

Dowód. Wzór Taylora, tw. 1.10, daje

f(x) = f(x0) +12f ′′(x)(x− x0)2,

gdzie x jest pewnym punktem pomiędzy x0 i x. Stąd drugi człon wzoru Taylora decyduje onierówności pomiędzy f(x) a f(x0) i otrzymujemy obie implikacje w twierdzeniu dotyczącesłabych ekstremów.

Page 14: Optymalizacja II

14 1. Wiadomości wstępne

Załóżmy dodatkowo w pierwszym stwierdzeniu, że f ′′(x0) > 0. Z założenia f ′′(x) ­ 0 iwarunku f ′(x0) = 0 dostajemy

f ′(x) = f ′(x)− f ′(x0) =∫ x

x0f ′′(y)dy ­ 0,

gdy x > x0. Podobnie pokazujemy, że f ′(x) = −∫ x0x f ′′(y)dy ¬ 0, gdy x < x0. Z faktu,

że f ′′(x0) > 0 i ciągłości drugiej pochodnej dostajemy dodatkowo, że ta pochodna jest ściśledodatnia w otoczeniu x0. Zatem całki są dodatnie, co pociąga nierówności f ′(x) > 0, gdy x > x0,oraz f ′(x) < 0, gdy x < x0. Wynika stąd, że funkcja f jest ściśle rosnąca na prawo od x0 iściśle malejąca na lewo od x0, a więc x0 jest ścisłym minimum. Przypadek ścisłego maksimumdowodzimy analogicznie.

1.7. Zadania

Ćwiczenie 1.1. Czy funkcja f(x, y) = x4 +x2−xy+ 2y2 osiąga minimum na zbiorze (x, y) ∈R2 : x ­ −1.

Ćwiczenie 1.2. Znajdź minimum funkcji f(x, y) = 2x + 3y na zbiorze W = (x, y) ∈ R2 :x2 + y2 = 1.

Ćwiczenie 1.3. Znajdź maksimum funkcji f(x, y) = x2 − 4y2 na zbiorze W = (x, y) ∈ R2 :2x2 + |y| = 1.

Ćwiczenie 1.4. Znajdź minimum funkcji f(x, y) = ex2−y2 na zbiorze W = (x, y) ∈ R2 :

x2 + y2 = 1.

Ćwiczenie 1.5. Rozważmy następujący nieliniowy problem optymalizacyjny:(x1 − 4)2 + (x2 − 2)2 → min,

4x21 + 9x2

2 ¬ 36,

x21 + 4x2 = 4,

2x1 + 3 ­ 0.

1. Naszkicuj zbiór punktów dopuszczalnych, czyli punktów spełniających wszystkie ograni-czenia.

2. Znajdź graficznie rozwiązanie powyższego problemu optymalizacyjnego.3. Znajdź następnie rozwiązanie w przypadku, gdy minimalizacja zamieniona zostanie namaksymalizację.

Ćwiczenie 1.6. Niech g będzie funkcją spełniającą: 0 ¬ g(y), y ∈ [0, 1], oraz∫ 1

0 g(y)dy = 1.Znajdź x ∈ [0, 1], dla którego następująca całka jest minimalna:∫ 1

0(x− y)2g(y)dy.

Ćwiczenie 1.7. Wykaż, że funkcja

f(x) =

x2sin

( 1x

), x 6= 0,

0, x = 0,

jest różniczkowalna w R, lecz jej pochodna nie jest ciągła.

Page 15: Optymalizacja II

1.7. Zadania 15

Ćwiczenie 1.8. Udowodnij, że poniższe definicje pochodnej funkcji f : [a, b] → R w punkciex0 ∈ (a, b) są równoważne:

(a) f ′(x0) = limh→0

f(x0 + h)− f(x0)h

,

(b) f(x) = f(x0) + α(x− x0) + o(x− x0) dla x ∈ [a, b] i α ∈ R niezależnego od x.Przez równoważność rozumiemy to, że jeśli granica w (a) istnieje, to zależność (b) jest spełnionaz α = f ′(x0); i odwrotnie, jeśli (b) zachodzi dla pewnego α, to granica w (a) istnieje i jest równaα.

Page 16: Optymalizacja II

2. Ekstrema funkcji wielu zmiennych

2.1. Notacja i twierdzenia Taylora w wielu wymiarach

W tym podrozdziale przypomnimy krótko twierdzenia Taylora dla funkcji wielu zmiennych.Wprowadźmy najpierw niezbędną notację.

Niech f : W → R, gdzie W ⊂ Rn jest zbiorem otwartym. Przyjmiemy następujące oznacze-nia:— x = (x1, x2, . . . , xn)T – wektor kolumnowy,— f(x) = f(x1, x2, . . . , xn),— Df(x) =

(∂f∂x1

, ∂f∂x2 , · · · ,∂f∂xn

)– gradient funkcji f ,

— D2f(x) – Hesjan funkcji f :

D2f(x) =

∂2f∂x21

∂2f∂x1∂x2

· · · ∂2f∂x1∂xn

∂2f∂x2∂x1

∂2f∂x22

· · · ∂2f∂x2∂xn

......

. . .∂2f

∂xn∂x1∂2f

∂xn∂x2· · · ∂2f

∂x2n

.

Definicja 2.1. Funkcja f jest różniczkowalna w punkcie x0 ∈W , jeśli istnieje wektor α ∈ Rn,taki że

f(x) = f(x0) + αT (x− x0) + o(‖x− x0‖)dla x ∈W.

Funkcja f jest dwukrotnie różniczkowalna w punkcie x0 ∈ W , jeśli istnieje wektor α ∈ Rn

oraz macierz H ∈ Rn ×n, takie że

f(x) = f(x0) + αT (x− x0) +12

(x− x0)TH(x− x0) + o(‖x− x0‖2)

dla x ∈W.

Uwaga 2.1. Możemy założyć, że macierz H w powyższej definicji jest symetryczna. Wystarczyzauważyć, że

(x− x0)TH(x− x0) = (x− x0)TH +HT

2(x− x0).

Twierdzenie 2.1.I) Jeśli funkcja f jest różniczkowalna w x0, to Df(x0) istnieje i α = Df(x0)T .Odwrotnie, jeśli Df(x) istnieje w pewnym otoczeniu x0 i jest ciągłe w x0, to f jestróżniczkowalna w x0.

II) Jeśli hesjan D2f(x) istnieje w pewnym otoczeniu x0 i jest ciągły w x0, to f jestdwukrotnie różniczkowalna w x0, D2f(x0) jest macierzą symetryczną oraz H =D2f(x0).

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 17: Optymalizacja II

2.2. Znikanie gradientu 17

Dowód powyższego twierdzenia pomijamy. Zainteresowany czytelnik znajdzie go w podręczni-kach analizy wielowymiarowej.

Uwaga 2.2. Ilekroć będziemy chcieli wykorzystać drugą pochodną funkcji wielowymiarowej,bedziemy musieli zakładać, że hesjan D2f jest funkcją ciągłą. Jeśli nie poczynimy takiego zało-żenia, nie będziemy mieli dobrego sposobu na policzenie drugiej pochodnej, a zatem taki rezultatbędzie miał małą wartość praktyczną.

Uwaga 2.3. Dla funkcji f : W → R określonej na zbiorze otwartym W ⊂ Rn mówimy, że f jestklasy C1 (odpowiednio, klasy C2) i piszemy f ∈ C1 (f ∈ C2), gdy f jest ciągła na W oraz ∂f

∂xi

(odpowiednio, ∂f∂xi

i ∂2f∂xi∂xj

) istnieją i są ciągłe na W . Gdy rozważany zbiór W ⊂ Rn nie jest

otwarty, mówimy że f jest klasy C1 (odpowiednio, klasy C2) na W , jeśli istnieje rozszerzenie ffunkcji f do zbioru otwartego W zawierającego W takie, że f jest klasy C1 (odpowiednio, klasyC2) na W . W tym wypadku można więc mówić o pochodnych cząstkowych funkcji f również wpunktach brzegowych zbioru W . Pochodne te są jednoznacznie określone przez wartości funkcjina intW , jeśli zachodzi W ⊂ cl(intW ) (wynika to z ciągłości tych pochodnych).

Zapiszemy teraz rozwinięcie Taylora rzędu 2.

Lemat 2.1. Niech W ⊂ Rn otwarty. Dla funkcji f : W → R klasy C2 i punktów x,x0 ∈ Wtakich, że odcinek łączący x0 z x leży w W zachodzi

f(x) = f(x0) +Df(x0)(x− x0) +12

(x− x0)TD2f(x)(x− x0),

gdzie x jest pewnym punktem wewnątrz odcinka łączącego x0 z x.

Dowód. Dowód wynika z zastosowania twierdzenia 1.10 do funkcji g(t) = f(x0 + t(x − x0)

),

t ∈ [0, 1].

Definicja 2.2. Podzbiór W ⊂ Rn jest wypukły, jeśli

λx+ (1− λ)y ∈W

dla każdych x, y ∈W i każdego λ ∈ [0, 1].

Wniosek 2.1. Niech W ⊂ Rn zbiór otwarty, wypukły oraz f : W → R klasy C2. Wówczas dladowolnych x0,x ∈W mamy

f(x) = f(x0) +Df(x0)(x− x0) +12

(x− x0)TD2f(x)(x− x0),

gdzie x należy do wnętrza odcinka łączącego x0 i x, tzn. istnieje λ ∈ (0, 1, taka że x = λx0 +(1− λ)x.

Dowód. Z wypukłości W wynika, że dla każdego x0,x ∈W odcinek łączący te punkty zawartyjest w W . Teza wynika teraz z lematu 2.1.

2.2. Znikanie gradientu

Będziemy rozważać funkcję f : W → R, gdzie W jest podzbiorem w Rn mającym niepustewnętrze intW .

Page 18: Optymalizacja II

18 2. Ekstrema funkcji wielu zmiennych

Twierdzenie 2.2 (Warunek konieczny I rzędu). Jeśli funkcja f : W → R jest różnicz-kowalna w punkcie x0 należącym do wnętrza zbioru W oraz x0 jest lokalnym minimum(maksimum) funkcji f to

Df(x0) = 0.

Dowód. Z faktu, że x0 ∈ intW wynika, że funkcja g(t) = f(x0+tei), gdzie ei jest i-tym wersorem(tj. ei ma jedynkę na i-tej współrzędnej i zera poza nią), jest dobrze określona na otoczeniu 0. Maona również lokalne ekstremum w punkcie 0. Na mocy tw. 1.4 mamy g′(0) = 0. W terminachfunkcji f oznacza to, że ∂f

∂xi(x0) = 0. Przeprowadzając to rozumowanie dla i = 1, 2, . . . , n

dostajemy tezę..

Warunek znikania gradientu będzie często używany, zatem użyteczna będzie

Definicja 2.3. Punkt x0 ∈ intW nazywamy punktem krytycznym funkcji f : W → R, jeśli fjest różniczkowalna w x0 oraz Df(x0) = 0.

Oczywiście, warunek znikania gradientu Df(x0) nie jest wystarczający na to, by w x0 znaj-dowało się lokalne minimum lub maksimum. Do rozstrzygnięcia tego jest potrzebny analogwarunku o znaku drugiej pochodnej (tw. 1.6). W przypadku wielowymiarowym ten warunekdefiniuje się jako dodatnią (ujemną) określoność macierzy drugich pochodnych.

2.3. Dodatnia i ujemna określoność macierzy

Niech A = aijni,j=1 będzie macierzą symetryczną, tzn. aij = aji. Rozważmy formę kwadra-tową

xTAx =n∑

i,j=1

aijxixj .

Definicja 2.4. Określoność macierzy A lub formy kwadratowej xTAx definiujemy następująco:— A jest nieujemnie określona, co oznaczamy A ­ 0, jeśli

xTAx ­ 0 ∀ x ∈ Rn.

— A jest dodatnio określona, co oznaczamy A > 0, jeśli

xTAx > 0 ∀ x ∈ Rn \ 0.

Odwracając nierówności definiujemy niedodatnią określoność i ujemną określoność.— Macierz A nazywamy nieokreśloną, jeśli istnieją wektory x, x ∈ Rn takie, że

xTAx > 0, xTAx < 0.

Zauważmy, że z definicji określoności macierzy, wyliczając wyrażenie eTi Aei = aii na wersorzeei = (0, . . . , 1, . . . , 0)T , z jedynką na i-tym miejscu, wynikają następujące warunki konieczneodpowiedniej określoności macierzy A:— Jeśli A jest dodatnio określona, to a11 > 0, . . . , ann > 0.— Jeśli A jest nieujemnie określona, to a11 ­ 0, . . . , ann ­ 0.— Jeśli A jest ujemnie określona, to a11 < 0, . . . , ann < 0.— Jeśli A jest niedodatnio określona, to a11 ¬ 0, . . . , ann ¬ 0.— Jeśli aii > 0 i ajj < 0, dla pewnych i, j, to A jest nieokreślona.

Page 19: Optymalizacja II

2.4. Warunki II-go rzędu (kryterium drugiej różniczki) 19

Warunki konieczne i dostateczne podane są w poniższym twierdzeniu, którego dowód pomijamy.

Twierdzenie 2.3 (Kryterium Sylvestera).I. Forma kwadratowa xTAx jest dodatnio określona wtedy i tylko wtedy, gdy zacho-dzi:

D1 > 0, D2 > 0, . . . . . . , Dn > 0,

gdzie przez D1, . . . , Dn oznaczamy minory główne macierzy A:

D1 = det(a11), D2 = det

(a11 a12

a21 a22

), . . . , Dn = det

a11 . . . a1n...

. . ....

an1 . . . ann

.Forma kwadratowa xTAx jest ujemnie określona wtedy i tylko wtedy, gdy xT (−A)xjest dodatnio określona, co przekłada się na ciąg warunków:

−D1 > 0, D2 > 0, . . . . . . , (−1)nDn > 0.

II. Forma kwadratowa xTAx jest nieujemnie określona wtedy i tylko wtedy, gdy dladowolnych 1 ¬ k ¬ n oraz 1 ¬ i1 < i2 < . . . < ik ¬ n zachodzi

det

ai1i1 ai1i2 . . . ai1ikai2i1 ai2i2 . . . ai2ik

......

. . ....

aiki1 aiki2 . . . aikik

­ 0

(jest to minor rzędu k złożony z kolumn i1, . . . , ik i rzędów i1, . . . , ik).

Określoność macierzy symetrycznej jest niezależna od bazy, w której jest reprezentowana.W bazie własnej macierz A jest diagonalna z wartościami własnymi na diagonali. Dostajemyzatem następujące warunki równoważne określoności:— Macierz A jest dodatnio określona wtw, gdy wszystkie jej wartości własne są dodatnie.— Macierz A jest nieujemnie określona wtw, gdy wszystkie jej wartości własne są nieujemne.— Macierz A jest ujemnie określona wtw, gdy wszystkie jej wartości własne są ujemne.— Macierz A jest niedodatnio określona wtw, gdy wszystkie jej wartości własne są niedodatnie.

2.4. Warunki II-go rzędu (kryterium drugiej różniczki)

Twierdzenie 2.4 (Warunek konieczny II rzędu). Jeśli f jest klasy C2 na zbiorzeotwartym W ⊂ Rn i x0 ∈W jest minimum lokalnym, to macierz D2f(x0) jest nieujem-nie określona. Podobnie, jeśli x0 jest lokalnym maksimum, to D2f(x0) jest niedodatniookreślona.

Page 20: Optymalizacja II

20 2. Ekstrema funkcji wielu zmiennych

Twierdzenie 2.5 (Warunek dostateczny II rzędu). Jeśli f jest klasy C2 na zbiorzeotwartym W ⊂ Rn, Df(x0) = 0 oraz D2f(x0) jest dodatnio określona (ujemnie okre-ślona) to f ma ścisłe lokalne minimum (lokalne maksimum) w x0.

Dowód twierdzenia 2.4. Niech x0 ∈W będzie minimum lokalnym f . Ustalmy niezerowy wektorh ∈ Rn i funkcję

g(t) = f(x0 + th),

gdzie t ∈ R jest z dostatecznie małego otoczenia zera, aby x0 + th ∈ W . Wtedy funkcja g malokalne minimum w punkcie t = 0. Ponieważ f jest klasy C2, funkcja g również jest klasy C2.Z Twierdzenia 1.5 dla przypadku skalarnego wiemy, że skoro t = 0 jest lokalnym minimum, tog′′(0) ­ 0. Ze wzorów na pochodną funkcji złożonej mamy

g′′(0) = hTD2f(x0)h.

Z dowolności wektora h wynika nieujemna określoność macierzy D2f(x0).

Dowód twierdzenia 2.5. Załóżmy najpierw, że D2f(x0) > 0. Określmy funkcję α : W → Rwzorem

α(x) = inf‖h‖=1

hTD2f(x)h.

Funkcja ta jest ciągła na mocy ciągłości hesjanu f oraz ćwiczenia 2.2. Istnieje zatem kulaB(x0, ε), taka że α(x) > 0 dla x ∈ B(x0, ε).

Ustalmy dowolny x ∈ B(x0, ε). Na mocy wzoru Taylora, lemat 2.1, mamy

f(x) = f(x0) +Df(x0)(x− x0) +12

(x− x0)TD2f(x)(x− x0),

dla pewnego punktu x leżącego na odcinku łączącym x0 i x, a zatem i należącego do kuliB(x0, ε). Pierwsza pochodna f znika w punkcie x0, zaś

(x− x0)TD2f(x)(x− x0) = ‖x− x0‖2(x− x0)T

‖x− x0‖D2f(x)

(x− x0)‖x− x0‖

­ ‖x− x0‖2α(x).

Mamy zatemf(x)− f(x0) ­ ‖x− x0‖2α(x) > 0,

gdyż funkcja α jest dodatnia na kuli B(x0, ε). Wnioskujemy więc, że x0 jest ścisłym minimumlokalnym.

Dowód przypadku D2f(x0) < 0 jest analogiczny.

2.4.1. Ekstrema globalne i określoność drugiej różniczki

Niech teraz f : W → R będzie funkcją klasy C1 na zbiorze wypukłym W ∈ Rn, oraz klasyC2 na intW .

Twierdzenie 2.6. Jeśli x0 ∈ intW jest punktem krytycznym f , to:I) D2f(x) ­ 0 ∀x∈intW =⇒ x0 jest globalnym minimum,II) D2f(x) ¬ 0 ∀x∈intW =⇒ x0 jest globalnym maksimum.

Jeśli dodatkowo D2f(x0) > 0 w pierwszym stwierdzeniu (D2f(x0) < 0 w drugim stwier-dzeniu), to x0 jest ścisłym globalnym minimum (maksimum).

Page 21: Optymalizacja II

2.5. Zadania 21

Dowód. Jeśli x ∈W , to z wypukłości W cały odcinek łączący x0 z x (poza punktem x) leży wintW i możemy zastosować wzór Taylora, lemat 2.1, który daje

f(x) = f(x0) +12

(x− x0)TD2f(x)(x− x0),

gdzie x jest pewnym punktem z odcinka łączącego x0 z x. Nierówność D2f(x) ­ 0 (odpowiednio,D2f(x) ¬ 0) oznacza, że drugi człon w powyższym wzorze jest nieujemny (niedodatni), copociąga obie implikacje w twierdzeniu.

W przypadku, gdy w (I) mamy dodatkowo D2f(x0) > 0, odwołamy się do używanej jużfunkcji g(t) = f

(x0 + t(x− x0)

), t ∈ [0, 1]. Z wypukłości W wynika, że g jest dobrze określona,

tzn. x0 + t(x − x0) ∈ W dla t ∈ [0, 1]. Nasze założenia implikują, że g′(0) = 0, g′′(0) > 0 orazg′′(t) ­ 0. Możemy skorzystać z tw. 1.11, które stwierdza, że g ma ścisłe globalne minimumw t = 0. Zatem g(1) > g(0), czyli f(x) > f(x0). Z dowolności x wynika, iż x0 jest ścisłymminimum globalnym.

Przypadek D2f(x0) < 0 w stwierdzeniu (II) dowodzimy analogicznie.

2.5. Zadania

Ćwiczenie 2.1. Wykaż, że hesjan funkcji

f(x1, x2) =

0, x1 = x2 = 0,x1x2(x21−x22)

x21+x22

, w p.p.,

nie jest symetryczny w punkcie (0, 0).

Ćwiczenie 2.2. Niech W ⊂ Rk, A ⊂ Rn zwarty oraz f : W × A → R ciągła. Udowodnij, żefunkcja g : W → R zadana wzorem

g(x) = infy∈A

f(x,y)

jest ciągła.

Ćwiczenie 2.3. Pochodną kierunkową funkcji f w punkcie x i kierunku d nazywamy granicę

Ddf(x) = limh→0

f(x + hd)− f(x)h

.

Udowodnij, że max‖d‖=1 ‖Ddf(x)‖ jest przyjmowane dla d = Df(x)/‖Df(x)‖.

Ćwiczenie 2.4. Rozważmy następującą funkcję (czasami zwaną funkcją Peano):

f(x1, x2) = (x22 − x1)(x2

2 − 2x1).

1. Udowodnij, że funkcja f ograniczona do każdej prostej przechodzącej przez 0 ma w tympunkcie minimum lokalne.

2. Wykaż, że f jako funkcja wielu zmiennych nie ma ekstremum lokalnego w 0.3. Znajdź wartości własne macierzy drugiej pochodnej f . Co możesz z nich wywnioskować?Czy tłumaczą one zachowanie funkcji f w 0?

Ćwiczenie 2.5. Rozważmy funkcję kwadratową wielu zmiennych:

f(x) =12xTAx + bTx + c,

gdzie A jest macierzą kwadratową, niekoniecznie symetryczną, b jest wektorem, zaś c stałą.Wyznacz gradient i hesjan (macierz drugiej pochodnej) funkcji f .

Page 22: Optymalizacja II

22 2. Ekstrema funkcji wielu zmiennych

Wskazówka. Załóż najpierw, że A jest symetryczna. Udowodnij później, że dla każdej macierzykwadratowej A istnieje macierz symetryczna A, taka że xT Ax = xTAx dla każdego x.

Ćwiczenie 2.6. Zbadaj określoność następujących macierzy i porównaj wyniki z ich formązdiagonalizowaną:

[−3 11 −2

],

[3 11 −2

],

[4 22 1

],

2 −2 0−2 2 00 0 3

.Ćwiczenie 2.7. Znajdź ekstrema globalne funkcji

f(x) =12xT[−3 11 −2

]x + [2, 1]x + 17.

Ćwiczenie 2.8. Niech (Ω,F ,P) będzie przestrzenią probabilistyczną, co między innymi ozna-cza, że P(Ω) = 1. Dana jest zmienna losowa η ∈ L2(Ω,F ,P), tzn. funkcja mierzalna η : Ω→ Rn

o tej własności, że E‖η‖2 <∞. Znajdź wektor x ∈ Rn, taki że E‖η − x‖2 jest najmniejsza.

Wskazówka. Zapisz E‖η − x‖2 jako funkcję kwadratową.

Ćwiczenie 2.9. Niech f : Rn → R i x ∈ Rn. Załóżmy, że f jest klasy C2 na otoczeniu x orazDf(x) = 0T . Udowodnij, że jeśli macierz D2f(x) jest nieokreślona, to f nie ma ekstremumlokalnego w x.

Ćwiczenie 2.10. Udowodnij nierówność średnich rozwiązując zadanie optymalizacyjne:xytz → max,

x+ y + t+ z = 4c,

x, y, t, z ∈ [0,∞).

Ćwiczenie 2.11. Znajdź minima lokalne funkcji

f(x, y) =14x4 +

13x3 − 2xy + y2 + 2x− 2y + 1.

Page 23: Optymalizacja II

3. Funkcje wypukłe

3.1. Zbiory wypukłe i twierdzenia o oddzielaniu

Przypomnijmy, za def. 2.2, definicję zbioru wypukłego: zbiór W ⊂ Rn jest wypukły, jeśli

λx + (1− λ)y ∈W

dla każdych x,y ∈ W i każdego λ ∈ [0, 1]. Równoważnie można wypukłość zdefiniować zapomocą m-tek punktów:

Lemat 3.1. Zbiór W ⊂ Rn jest wypukły wtw, gdy dla dowolnego m ­ 2, punktów x1, . . . ,xm ∈W oraz liczb a1, . . . , am ­ 0, takich że a1 + . . .+ am = 1 mamy

a1x1 + a2x2 + . . .+ amxm ∈W.

Dowód tego lematu pozostawiamy jako ćwiczenie (patrz ćw. 3.3). Udowodnimy natomiastgeometryczną własność zbiorów wypukłych, która przyda nam się wielokrotnie.

Lemat 3.2. Niech W ⊂ Rn będzie zbiorem wypukłym o niepustym wnętrzu. Wówczas:I) Dla dowolnego x ∈ W oraz x0 ∈ intW odcinek łączący x0 z x, z pominięciem punktu x,należy do wnętrza W :

λx0 + (1− λ)x ∈ intW, ∀ 0 ¬ λ < 1.

II) W ⊂ cl(intW ).

Dowód. Weźmy punkty x0 i x jak w założeniach lematu. Z otwartości intW wynika, że istniejekula B(x0, ε) ⊂ intW . Połączmy punkty tej kuli z punktem x. Dostaniemy „stożek” o wierz-chołku x i podstawie B(x0, ε) (patrz rys. 3.1). Stożek ten leży w całości w W . Jego wnętrzezawiera odcinek od x0 do x bez końca x. Kończy to zatem dowód (I). Dowód (II) wynikanatychmiast z (I).

Przypomnijmy bez dowodu twierdzenia o oddzielaniu zbiorów wypukłych w przestrzeniachRn (dowody tych twierdzeń można znaleźć np. w rozdziale 2.4 monografii Bazaraa, Sherali,Shetty [3] lub w rozdziale 11 monografii Rockafellar’a [11]).

Twierdzenie 3.1 (Słabe twierdzenie o oddzielaniu). Niech U, V ⊂ Rn będą niespu-stymi zbiorami wypukłymi, takimi że U ∩ V = ∅. Wówczas istnieje hiperpłaszczyznarozdzielająca U od V , tzn. istnieje niezerowy wektor a ∈ Rn spełniający

aTx ¬ aTy, x ∈ U, y ∈ V.

Korzystając z ciągłości odwzorowania liniowego x 7→ aTx dostajemy bardzo przydatny wniosek,który również będziemy nazywać słabym twierdzeniem o oddzielaniu.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 24: Optymalizacja II

24 3. Funkcje wypukłe

Rysunek 3.1. Stożek o wierzchołku x i podstawie B(x, ε).

Wniosek 3.1. Niech U, V ⊂ Rn będą niepustymi zbiorami wypukłymi, takimi że intU 6= ∅ i(intU)∩V = ∅. Wówczas istnieje hiperpłaszczyzna rozdzielająca U od V , tzn. istnieje niezerowywektor a ∈ Rn spełniający

aTx ¬ aTy, x ∈ U, y ∈ V.

Twierdzenie 3.2 (Mocne twierdzenie o oddzielaniu). Niech U, V ⊂ Rn będą niepu-stymi zbiorami wypukłymi domkniętymi, U zwarty i U ∩ V = ∅. Wówczas istniejehiperpłaszczyzna ściśle rozdzielająca U od V , tzn. istnieje niezerowy wektor a ∈ Rn

spełniającysupx∈U

aTx < infy∈V

aTy.

Uwaga 3.1. Powyższe twierdzenia mają intuicyjną geometryczną interpretację. Dwa rozłącznezbiory wypukłe mogą być rozdzielone hiperpłaszczyzną w ten sposób, iż jeden z nich leży wdomkniętej półprzestrzeni po jednej stronie hiperpłaszczyzny, podczas gdy drugi leży po prze-ciwnej stronie tejże hiperpłaszczyzny. W słabym twierdzeniu nie możemy zagwarantować, iżktóryś ze zbiorów leży we wnętrzu półprzestrzeni, tzn. ma puste przecięcie z hiperpłaszczyzną.Silna wersja właśnie to gwarantuje.

Hiperpłaszczyzna, o której mowa w twierdzeniach zadana jest wzorem:

x ∈ Rn : aTx = α,

gdzie α = supx∈U aTx. Nie musi to być jedyna hiperpłaszczyzna spełniająca warunki słabego-/mocnego rozdzielania.

Twierdzenia o oddzielaniu będziemy dowodzić w przeciwnej kolejności niż są podane. Okazu-je się bowiem, że łatwiej udowodnić twierdzenie mocne. Później w dowodzie twierdzenia słabegoskorzystamy z mocnego oddzielania zbiorów wypukłych.

Dowód twierdzenia 3.2. Określmy funkcję d : U × V → R wzorem d(x,y) = ‖x − y‖. Z ogra-niczoności zbioru U wynika, że d jest funkcją koercywną; zbieżność do nieskończoności może

Page 25: Optymalizacja II

3.2. Definicja funkcji wypukłej 25

się tylko odbywać po argumencie ze zbioru V . Na mocy tw. 1.2 funkcja d jako ciągła i ko-ercywna określona na zbiorze domkniętym U × V osiąga swoje minimum w pewnym punkcie(x0,y0) ∈ U × V . Z faktu, że U ∩ V = ∅ wynika, że x0 6= y0. Połóżmy a = y0 − x0. Pokażemy,że jest to szukany wektor z tezy twierdzenia.

Udowodnimy, że aTy ­ aTy0. Niech y ∈ V , y 6= y0. Zdefiniujmy funkcję

g(t) =(d(x0,y0 + t(y − y0)

))2, t ∈ R.

Rozwijając dostajemy

g(t) = ‖y0 − x0‖2 + 2t(y0 − x0)T (y − y0) + t2(y − y0)T (y − y0).

Funkcja ta jest różniczkowalna dla t ∈ R i g(0) ¬ g(t) dla t ∈ [0, 1] (na mocy wypukłości V idefinicji y0). Zatem g′(0) ­ 0, czyli

(y0 − x0)T (y − y0) ­ 0.

Nierówność ta jest równoważna aTy ­ aTy0.Podobnie pokazujemy, że aTx ¬ aTx0 dla x ∈ U . Do zakończenia dowodu wystarczy spraw-

dzić, że aTy0 > aTx0. Ta nierówność jest równoważna ‖a‖2 > 0, co zachodzi, gdyż x0 6= y0.

Dowód twierdzenia 3.1. Rozważmy zbiór C = V −U = y− x : x ∈ U, y ∈ V . Zbiór ten jestwypukły i 0 /∈ C. Równoważne tezie twierdzenia jest znalezienie wektora niezerowego a ∈ Rn

oddzielającego C od 0, tzn. takiego że aTx ­ 0 dla x ∈ C.Zdefiniujmy zbiory

Ax = a ∈ Rn : ‖a‖ = 1, aTx ­ 0.

Wystarczy pokazać, że⋂x∈C Ax 6= ∅. Będziemy rozumować przez sprzeczność. Załóżmy więc,

że⋂x∈C Ax = ∅. Niech Bx = S \ Ax, gdzie S jest sferą jednostkową S = a ∈ Rn : ‖a‖ = 1.

Zbiory Bx, x ∈ C, są otwartymi podzbiorami zbioru zwartego S. Z założenia, że przecięcie ichdopełnień w S jest puste, wynika, że rodzina Bxx∈C jest pokryciem otwartym S. Na mocyzwartości S istnieje podpokrycie skończone Bx1 , . . . , Bxk , czyli

Ax1 ∩ · · · ∩Axk = ∅.

Połóżmy

C = convx1, . . . ,xk = k∑i=1

λixi : λ1, . . . , λk ­ 0,k∑i=1

λi = 1.

Zbiór C jest wypukły i domknięty oraz C ⊂ C. Stąd 0 /∈ C i na mocy mocnego twierdzenia ooddzielaniu zastosowanego do C i 0 istnieje wektor a ∈ Rn \ 0, taki że

aTx > 0, x ∈ C.

W szczególności, aTx1 > 0, . . . ,aTxk > 0, czyli a‖a‖ ∈ Axi , i = 1, . . . , k, co przeczy założeniu, że

przecięcie⋂ki=1Axi = ∅.

3.2. Definicja funkcji wypukłej

Definicja 3.1. Funkcję f : W → R, gdzie W ⊂ Rn wypukły, nazwiemy:— wypukłą, jeśli dla każdego x,y ∈W i λ ∈ (0, 1) zachodzi

f(λx + (1− λ)y

)¬ λf(x) + (1− λ)f(y).

Page 26: Optymalizacja II

26 3. Funkcje wypukłe

— ściśle wypukłą, jeśli dla każdego x,y ∈W , x 6= y i λ ∈ (0, 1) zachodzi

f(λx + (1− λ)y

)< λf(x) + (1− λ)f(y).

Funkcja f jest (ściśle) wklęsła, jeśli (−f) jest (ściśle) wypukła.

Okazuje się, że wystarczy rozważać λ = 1/2 w definicji wypukłości. Zacytujemy najpierwsilny wynik noszący nazwisko Sierpińskiego, a później łatwiejszy, który dowiedziemy:

Twierdzenie 3.3. Jeśli funkcja f : W → R, gdzie W ⊂ Rn wypukły, jest mierzalnaw sensie Lebesgue’a oraz spełnia

f(x + y

2

)¬ f(x) + f(y)

2,

to jest wypukła.

Dowód. Patrz dowód tw. Sierpińskiego w [7, str. 12].

My udowodnimy słabszy wynik; założymy mianowicie ciągłość f .

Twierdzenie 3.4. Jeśli funkcja f : W → R, gdzie W ⊂ Rn wypukły, jest ciągła orazspełnia

f(x + y

2

)¬ f(x) + f(y)

2,

to jest wypukła.

Dowód. Pokażemy najpierw, przez indukcję po k, że nierówność wypukłości zachodzi dla λpostaci p/2k, p = 0, 1, . . . , 2k. Własność ta jest spełniona dla k = 1 z założenia twierdzenia.Przeprowadźmy teraz krok indukcyjny. Załóżmy, że nierówność jest prawdziwa dla k. Weźmyp, q > 0 całkowite, o sumie p+q = 2k+1. Załóżmy p ¬ q. Wówczas p ¬ 2k ¬ q i możemy napisać:

z =p

2k+1 x +q

2k+1 y =12

(p

2kx +

q − 2k

2ky + y

).

Mamy zatem

f(z) ¬ 12f( p

2kx+

q − 2k

2ky)

+12f(y) ¬ 1

2p

2kf(x)+

12q − 2k

2kf(y)+

12f(y) =

p

2k+1 f(x)+q

2k+1 f(y).

Pierwsza nierówność wynika z założenia twierdzenia, zaś druga – z założenia indukcyjnego.Dowód w przypadku p ­ q jest symetryczny, ze zmienioną rolą x i y.

Zbiór punktów postaci p/2k, k = 1, 2, . . ., jest gęsty w odcinku (0, 1). Z ciągłości funkcji fotrzymujemy nierówność wypukłości dla dowolnego λ ∈ (0, 1).

Przykład 3.1.— Funkcja afiniczna f(x) = aTx + b jest wypukła i wklęsła.— Norma w Rn jest funkcją wypukłą. Wystarczy skorzystać z nierówności trójkąta.— Odległość punktu od zbioru definiujmy następująco d(x,W ) = infy∈W ‖x−y‖. Odległośćpunktu od zbioru wypukłego jest funkcją wypukłą: f(x) = d(x,W ) dla pewnego zbioruwypukłego W ⊂ Rn.

Page 27: Optymalizacja II

3.3. Własności funkcji wypukłych 27

3.3. Własności funkcji wypukłych

W tym rozdziale zakładamy, iż funkcja f : W → R jest określona na niepustym wypukłympodzbiorze W ⊂ Rn.

Definicja 3.2. Epigrafem funkcji f : W → R nazywamy zbiór

epi(f) =(x, z) ∈W × R : z ­ f(x)

.

Definicja 3.3. Zbiorem poziomicowym funkcji f : W → R nazywamy

Wα(f) =x ∈W : f(x) ¬ α

, α ∈ R.

Twierdzenie 3.5 (Twierdzenie o epigrafie). Funkcja f jest wypukła wtedy i tylkowtedy, gdy jej epigraf epi(f) jest wypukłym podzbiorem Rn+1.

Twierdzenie 3.6. Jeśli funkcja f jest wypukła, to zbiór poziomicowy Wα(f) jest wy-pukły dla dowolnego α.

Dowód powyższych twierdzeń pozostawiamy czytelnikowi.

Uwaga 3.2. Twierdzenie odwrotne do tw. 3.6 nie jest prawdziwe. Połóżmy W = Rn i weźmydowolny niepusty wypukły zbiór A ⊂ Rn. Rozważmy funkcję

f(x) =

0, x ∈ A,1, x /∈ A.

Każdy zbiór poziomicowy tej funkcji jest wypukły, zaś funkcja nie jest wypukła.

Okazuje się, że wypukłość gwarantuje ciągłość we wnętrzu intW . Rezultat ten nie może byćrozszerzony na brzeg W .

Twierdzenie 3.7. Jeśli funkcja f jest wypukła, to jest również ciągła na intW .

Dowód powyższego twierdzenia wykracza poza ramy tego wykładu. Zainteresowany czytelnikmoże go znaleźć w monografii [10] w rozdziale IV.41.

Twierdzenie 3.8 (Twierdzenie o hiperpłaszczyźnie podpierającej). Jeśli f jest wypu-kła, to w każdym punkcie x ∈ intW istnieje hiperpłaszczyzna podpierająca, tzn. istniejeξ ∈ Rn takie że

f(x) ­ f(x) + ξT (x− x), ∀x ∈W.

Jeśli f jest ściśle wypukła, to

f(x) > f(x) + ξT (x− x), ∀x ∈W \ x.

Jeśli f jest różniczkowalna w x, to w obu powyższych nierównościach możemy przyjąćξ = Df(x)T .

Page 28: Optymalizacja II

28 3. Funkcje wypukłe

Dowód tw. 3.8. Na mocy twierdzenia 3.5, epigraf epi(f) jest zbiorem wypukłym. Zastosujemysłabe twierdzenie o oddzielaniu do zbiorów U = epi(f) i V = (x, f(x)). Istnieje niezerowywektor a = (ξ, α) ∈ Rn × R, takie że

ξTx + αy ¬ ξT x + αf(x) (3.1)

dla (x, y) ∈ epi(f). Nierówność ta musi być prawdziwa dla wszystkich y ­ f(x). Zatem α ¬ 0.Okazuje się, że α 6= 0. Dowiedziemy tego przez sprzeczność: załóżmy α = 0. Wówczas dladowolnego x ∈W mamy ξT (x− x) ¬ 0. Korzystając z tego, że x jest we wnętrzu W , wiemy, żex+εξ ∈W dla dostatecznie małego ε > 0. Połóżmy x = x+εξ. Wtedy 0 ­ ξT (x− x) = εξT ξ =ε‖ξ‖2, a zatem ξ = 0. Przeczy to niezerowości wektora (ξ, α). Wnioskujemy więc, że α < 0.

Możemy założyć, że α = −1 w nierówności (3.1) (wystarczy podzielić obie strony przez |α|).Dla dowolnego x ∈W dostajemy zatem

ξTx− f(x) ¬ ξT x− f(x),

co przepisujemy następującof(x) ­ f(x) + ξT (x− x).

Kończy to dowód pierwszej części twierdzenia.Załóżmy teraz, że f jest różniczkowalna w x. Dla dowolnego x ∈ W , x 6= x i λ ∈ (0, 1), z

wypukłości mamy

f(x)− f(x) =(1− λ)f(x) + λf(x)− f(x)

λ

­f((1− λ)x + λx

)− f(x)

λ(3.2)

=f(x + λ(x− x)

)− f(x)

λ.

Policzmy granicę, gdy λ dąży do zera:

f(x)− f(x) ­ limλ↓0

f(x + λ(x− x)

)− f(x)

λ= Df(x)(x− x),

gdzie istnieje granicy i ostatnia równość wynika z różniczkowalności f w punkcie x.Przypuśćmy, że f jest ściśle wypukła. Ustalmy x ∈ intW . Na mocy pierwszej części twier-

dzenia f(x) ­ f(x) + ξT (x − x) dla dowolnego x ∈ W . Przypuśćmy, że dla pewnego x ∈ W ,x 6= x, ta nierówność nie jest ścisła, tj. f(x) = f(x)+ξT (x−x). Ze ścisłej wypukłości dostajemy

f( x + x

2

)<

12f(x) +

12f(x) = f(x) +

12ξT (x− x). (3.3)

Z drugiej strony, z istnienia płaszczyzny podpierającej w x mamy

f( x + x

2

)­ f(x) + ξT

(x + x2− x

)= f(x) + ξT

x− x2

.

Dostajemy sprzeczność z nierównością (3.3). Pokazuje to, że dla funkcji ściśle wypukłej f musibyć spełniona ścisła nierówność f(x) < f(x) + ξT (x− x) jeśli tylko x 6= x.

Prawdziwe jest twierdzenie odwrotne do twierdzenia 3.8 (patrz tw. 3.9).

Wniosek 3.2. Jeśli f wypukła i różniczkowalna w x ∈ intW , to w x jest minimum globalnewtw, gdy Df(x) = 0.

Page 29: Optymalizacja II

3.4. Charakteryzacje funkcji wypukłej 29

Dowód. Implikacja w prawą stronę wynika z tw. 1.4. Aby dowieść implikacji przeciwnej, załóżmyDf(x) = 0 dla pewnego x = 0. Na mocy tw. 3.8 dla dowolnego x ∈W mamy

f(x) ­ f(x) +Df(x)(x− x) = f(x),

co dowodzi, że w punkcie x jest minimum globalne.

Poniżej wymieniamy pozostałe własności funkcji wypukłych. Ich dowody pozostawione sąjako ćwiczenia.— Niech W ⊂ Rn, wypukły, zaś I dowolny zbiór. Jeśli funkcje fi : W → R, i ∈ I, są wypukłe,

to f(x) = supi∈I fi(x) jest wypukła ze zbiorem wartości R ∪ ∞.— Niech W ⊂ Rn, wypukły. Jeśli funkcje fi : W → R, i = 1, 2, . . . ,m, są wypukłe i αi > 0

dla i = 1, 2, . . . ,m, to funkcja f =∑mi=1 αifi jest wypukła. Jeśli jedna z funkcji fi jest ściśle

wypukła, to f jest również ściśle wypukła.— Niech W ⊂ Rn, A ⊂ Rm wypukłe zbiory. Jeśli funkcja h : W × A → R jest wypukła i

ograniczona z dołu, tof(x) = inf

a∈Ah(x,a), x ∈W,

jest wypukła.— Niech f : Rn → R wypukła. Jeśli h : Rm → Rn afiniczna, to złożenie f h jest funkcją

wypukłą.— Niech W ⊂ Rn wypukły. Jeśli f : W → R jest funkcją wypukłą i g : R → R jest wypukła

i niemalejąca, to g f jest funkcją wypukłą. Jeśli dodatkowo g jest rosnąca, zaś f ściślewypukła, to g f jest ściśle wypukła.

— Niech W ⊂ Rn wypukły. Jeśli f : W → R jest funkcją (ściśle) wklęsłą i f > 0, to funkcja1/f jest (ściśle) wypukła.

3.4. Charakteryzacje funkcji wypukłej

Twierdzenie 3.9. Niech W ⊂ Rn wypukły o niepustym wnętrzu. Jeśli w każdympunkcie x ∈ intW istnieje wektor ξ ∈ Rn, taki że

f(x) ­ f(x) + ξT (x− x), ∀x ∈W,

to funkcja f jest wypukła. Jeśli nierówność jest ostra dla x 6= x, to f jest ściślewypukła.

Dowód. Weźmy x ∈ intW , y ∈W i λ ∈ (0, 1). Oznaczmy xλ = λx+(1−λ)y. Chcemy wykazać,że f(xλ) ¬ λf(x) + (1−λ)f(y). Na mocy Lematu 3.2 punkt xλ należy do wnętrza W . Stosujączałożenie do tego punktu dostajemy ξ ∈ Rn, takie że

f(x) ­ f(xλ) + ξT (x− xλ),

f(y) ­ f(xλ) + ξT (y − xλ).(3.4)

Stądλf(x) + (1− λ)f(y) ­ f(xλ) + ξT

[λ(x− xλ) + (1− λ)(y − xλ)

]= f(xλ),

gdyż wielkości w nawiasie kwadratowym zerują się. Kończy to dowód twierdzenia. Jeśli nierów-ność w założeniu jest ostra i x 6= y, to nierówności (3.4) są ostre i dostajemy warunek ścisłejwypukłości.

Page 30: Optymalizacja II

30 3. Funkcje wypukłe

Twierdzenie 3.10. Niech W ⊂ Rn niepusty, otwarty i wypukły, zaś f : W → Rdwukrotnie różniczkowalna. Wówczas:

I) f jest wypukła wtw, gdy hesjan D2f(x) jest nieujemnie określony dla każdegox ∈W .

II) Jeśli hesjan D2f(x) jest dodatnio określony dla każdego x ∈ W , to f jest ściślewypukła.

Analogiczna teza zachodzi w przypadku wklęsłości.

Dowód. Załóżmy najpierw, że hesjan jest nieujemnie określony dla każdego x ∈ W . Wówczas,na mocy wniosku 2.1, dla dowolnych x,x ∈W mamy

f(x) = f(x) +Df(x)(x− x) +12

(x− x)TD2f(x)(x− x),

gdzie x jest punktem leżącym na odcinku łączącym x z x. Założenie o nieujemnej określonościhesjanu pociąga nieujemność ostatniego składnika powyższej sumy. Stąd

f(x) ­ f(x) +Df(x)(x− x). (3.5)

Ponieważ powyższa nierówność zachodzi dla dowolnych x,x ∈ W , to f jest wypukła na mocytwierdzenia 3.9.

Jeśli założymy, że hesjan jest dodatnio określony dla każdego punktu W , to nierówność (3.5)jest ostra i twierdzenie 3.9 implikuje ścisłą wypukłość f .

Przejdźmy teraz do dowodu implikacji przeciwnej. Załóżmy, że funkcja f jest wypukła.Ustalmy x ∈ W i h ∈ Rn, h 6= 0. Z otwartości W wynika, że istnieje δ > 0, dla którejx+ th ∈W , t ∈ (−δ, δ). Zdefiniujmy funkcję g(t) = f

(x+ th

), t ∈ (−δ, δ). Jest to funkcja jednej

zmiennej, dwukrotnie różniczkowalna oraz wypukła. Stosując twierdzenie 3.8 dostajemy

g(t) ­ g(0) + g′(0)t, t ∈ (−δ, δ).

Na mocy twierdzenie Taylora z resztą w postaci Peano, tw. 1.9, mamy

g(t) = g(0) + g′(0)t+12g′′(0)t2 + o(t2), t ∈ (−δ, δ).

Powyższa nierówność i wzór Taylora dają następujące oszacowanie na drugą pochodną

12g′′(0)t2 + o(t2) ­ 0.

Dzielimy obie strony przez t2:12g′′(0) +

o(t2)t2­ 0.

W granicy przy t dążącym do zera, drugi składnik zanika i pozostaje g′′(0) ­ 0. Co ta nierównośćznaczy w terminach funkcji f? Liczymy:

g′(t) = Df(x + th)h, g′′(t) = hTD2f(x + th)h.

Stąd g′′(0) = hTD2f(x)h.Powyższe rozumowanie możemy przeprowadzić dla dowolnego h ∈ Rn. Wykazaliśmy więc

nieujemną określoność D2f(x).

Page 31: Optymalizacja II

3.5. Subróżniczka 31

3.5. Subróżniczka

Zajmiemy się teraz uogólnieniem pojęcia pochodnej na nieróżniczkowalne funkcje wypukłe.Niech W ⊆ Rn będzie zbiorem wypukłym, zaś f : W → R funkcją wypukłą.

Definicja 3.4. Wektor ξ ∈ Rn nazywamy subgradientem funkcji f w punkcie x0 ∈W , jeśli

f(x) ­ f(x0) + ξT (x− x0), x ∈W.

Zbiór wszystkich subgradientów f w punkcie x0 nazywamy subróżniczką i oznaczamy ∂f(x0).

Wniosek 3.3. Jeśli W ∈ Rn jest zbiorem wypukłym o niepustym wnętrzu, to f : W → R jestwypukła wtw, gdy w każdym punkcie zbioru intW istnieje subgradient:

∂f(x) 6= ∅ ∀ x ∈ intW.

Dowód. Implikacja w prawą stronę wynika z twierdzenia 3.8, zaś implikacja w stronę lewą – ztw. 3.9.

Lemat 3.3. Niech W ⊂ Rn będzie zbiorem wypukłym, zaś f : W → R funkcją wypukłą.Wówczas subróżniczka ∂f(x) jest zbiorem wypukłym i domkniętym. Jeśli x jest wewnętrzympunktem W , x ∈ intW , to zbiór ∂f(x) jest ograniczony.

Dowód. Dowód wypukłości i domkniętości pozostawiamy jako ćwiczenie (patrz ćw. 3.24). Ustal-my x ∈ intW . Wówczas istnieje ε > 0, taki że kula domknięta B(x, ε) jest zawarta w intW .Dla dowolnego ξ ∈ ∂f(x)

f(x) ­ f(x) + ξT (x− x), x ∈W.

A zatemsup

x∈B(x,ε)f(x) ­ f(x) + sup

x∈B(x,ε)ξT (x− x).

Lewa strona jest niezależna od ξ oraz, z ciągłości f na intW , skończona. Supremum po prawejstronie jest przyjmowane dla x = x + εξ/‖ξ‖ i wynosi ε‖ξ‖. Dostajemy zatem

ε‖ξ‖ ¬ supx∈B(x,ε)

f(x)− f(x),

co dowodzi ograniczoności zbioru ∂f(x).

Pokażemy teraz związek subróżniczki z pochodnymi kierunkowymi funkcji. Związek ten przy-da nam się w dalszych dowodach.

Definicja 3.5. Pochodną kierunkową funkcji f w punkcie x w kierunku d nazywamy granicę

f ′(x; d) = limλ↓0

f(x + λd)− f(x)λ

.

Z własności pochodnych jednostronnych dla skalarnych funkcji wypukłych wynikają nastę-pujące własności pochodnych kierunkowych:

Lemat 3.4. Niech W ⊂ Rn będzie zbiorem wypukłym otwartym, zaś f : W → R funkcjąwypukłą. Wówczas dla każdego d ∈ Rn i x ∈W

I) istnieje pochodna kierunkowa f ′(x; d).II) f ′(x; d) = infλ>0

f(x+λd)−f(x)λ .

III) f ′(x; d) ­ −f ′(x;−d).

Page 32: Optymalizacja II

32 3. Funkcje wypukłe

Dowód. Zdefiniujmy funkcję skalarną g(t) = f(x+ td) dla t, takich że x+ td ∈W . Z otwartościW wynika, że g jest określona na pewnym otoczeniu zera (−δ, δ). Jest ona także wypukła.Wówczas iloraz różnicowy jest monotoniczny, tzn. dla −δ < t1 < t2 < δ mamy

g(t1)− g(0)t1

¬ g(t2)− g(0)t2

. (3.6)

Z monotoniczności ilorazu różnicowego wynika, że istnieją pochodne lewostronna g′(0−) i pra-wostronna g′(0+), g′(0−) ¬ g′(0+) oraz

g′(0+) = inft>0

g(t)− g(0)t

.

Wystarczy teraz zauważyć, że f ′(x; d) = g′(0+), zaś f ′(x;−d) = −g′(0−).Pozostał nam jeszcze dowód monotoniczności ilorazu różnicowego. Weźmy najpierw 0 < t1 <

t2 < δ i zauważmy, że nierówność (3.6) jest równoważna

g(t1) ¬ λg(t2) + (1− λ)g(0),

gdzie λ = t1/t2 ∈ (0, 1) oraz λt2 + (1 − λ)0 = t1. Prawdziwość ostatniej nierówności wynika zwypukłości funkcji g. Przypadek −δ < t1 < t2 < 0 dowodzimy analogicznie. Dla −δ < t1 < 0 <t2 < δ nierówność (3.6) jest równoważna

g(0) ¬ 11 + λ

g(t1) +λ

1 + λg(t2), λ = − t1

t2,

która wynika z wypukłości g, gdyż 1/(1 + λ) ∈ (0, 1) oraz

11 + λ

t1 +λ

1 + λt2 = 0.

Pochodne kierunkowe pozwalają na nową charakteryzację subróżniczki.

Lemat 3.5. Niech W ⊂ Rn będzie zbiorem wypukłym otwartym, zaś f : W → R funkcjąwypukłą. Prawdziwa jest następująca równoważność: ξ ∈ ∂f(x) wtw, gdy

f ′(x; d) ­ ξTd, ∀ d ∈ Rn.

Dowód. Ustalmy x ∈ W i ξ ∈ ∂f(x). Wówczas dla λ > 0 i d ∈ Rn (oczywiście takich, żex + λd ∈W ) mamy

f(x + λd) ­ f(x) + λξTd.

Zatemf(x + λd)− f(x)

λ­ ξTd,

co implikuje f ′(x; d) ­ ξTd.Weźmy teraz wektor ξ ∈ Rn spełniający warunek f ′(x; d) ­ ξTd dla każdego d ∈ Rn. Na

mocy lematu 3.4(II) dla λ > 0 mamy

f ′(x; d) ¬ f(x + λd)− f(x)λ

.

A zatemf(x + λd) ­ f(x) + ξT (λd).

Z dowolności λ i d wynika, iż ξ jest subgradientem.

Page 33: Optymalizacja II

3.5. Subróżniczka 33

Poniższe twierdzenie precyzuje związek pomiędzy subróżniczką i pochodną kierunkową funk-cji. Zwróć uwagę na wykorzystanie twierdzenia o oddzielaniu w dowodzie. Metoda polegająca nasprytnym dobraniu rozłącznych zbiorów wypukłych, które można rozdzielić hiperpowierzchnią,będzie wielokrotnie wykorzystywana w dowodzeniu twierdzeń dotyczących funkcji wypukłych.

Twierdzenie 3.11. Niech f : W → R będzie funkcją wypukłą zadaną na wypukłymotwartym zbiorze W ⊂ Rn. Dla dowolnego x ∈W i d ∈ Rn zachodzi

f ′(x; d) = maxξ∈∂f(x)

ξTd.

Ponadto, funkcja f jest różniczkowalna w x wtw, gdy subróżniczka ∂f(x) składa się zjednego subgradientu. Tym subgradientem jest wówczas Df(x)T .

Dowód. Z lematu 3.5 wynika, że f ′(x; d) ­ ξTd dla ξ ∈ ∂f(x). Stąd

f ′(x; d) ­ maxξ∈∂f(x)

ξTd.

Udowodnienie przeciwnej nierówności wymaga skorzystania z twierdzenia o oddzielaniu. Zdefi-niujmy dwa zbiory:

C1 = (x, z) ∈W × R : z > f(x),C2 = (x, z) ∈W × R : x = x + λd, z = f(x) + λf ′(x; d), λ ­ 0.

Zauważmy, że C1 różni się od epigrafu f tylko brzegiem (x, z) ∈W ×R : z = f(x). Możemyzatem zastosować podobne rozumowanie jak w dowodzie tw. 3.5, aby wykazać, że C1 jest zbioremwypukłym. Zbiór C2 jest odcinkiem o początku w punkcie (x, f(x)) i o kierunku

(d, f ′(x; d)

),

więc jest wypukły. Można zauważyć, że jest on wykresem liniowego przybliżenia funkcji f wokółpunktu x wzdłuż odcinka x + λd : λ ­ 0 ∩W .

Na mocy lematu 3.4(II) mamy f ′(x; d) ¬ f(x+λd)−f(x)λ , czyli

f(x + λd) ­ f(x) + λf ′(x; d).

Wniskujemy stąd, że zbiory C1 i C2 są rozłączne. Stosujemy słabe twierdzenie o oddzialniu, tw.3.1: istnieje niezerowy wektor (µ, γ) ∈ Rn × R, taki że

µTx + γz ­ µT (x + λd) + γ(f(x) + λf ′(x; d)

), (x, z) ∈ C1, λ ∈ [0, L), (3.7)

gdzie L = supλ ­ 0 : x + λd ∈ W. Zauważmy, że γ nie może być ujemna, gdyż wtedy lewastrona mogłaby być dowolnie mała (z może być dowolnie duże). Nie może także być γ = 0, gdyżwówczas dla każdego x ∈W musiałoby zachodzić µT (x− x) ­ λµTd. Jest to możliwe tylko, gdyµ = 0 (korzystamy tutaj z faktu, że W jest otwarty). A to przeczy niezerowości wektora (µ, γ).Dowiedliśmy zatem, że γ > 0. Dzieląc obie strony nierówności (3.7) przez γ możemy założyć,że γ = 1, czyli

µTx + z ­ µT (x + λd) + f(x) + λf ′(x; d), (x, z) ∈ C1, λ ∈ [0, L).

Zbiegając z z do f(x) otrzymujemy

µTx + f(x) ­ µT (x + λd) + f(x) + λf ′(x; d), x ∈W, λ ∈ [0, L). (3.8)

Page 34: Optymalizacja II

34 3. Funkcje wypukłe

Kładąc λ = 0 dostajemyµT (x− x) + f(x) ­ f(x),

co po przekształeceniu dajef(x) ­ f(x)− µT (x− x).

A zatem −µ ∈ ∂f(x). Biorąc w nierówności (3.8) λ > 0 i x = x dostajemy

−µT (λd) ­ λf ′(x; d),

czylisup

ξ∈∂f(x)ξTd ­ f ′(x; d).

To kończy dowód pierwszej części twierdzenia.Dowód drugiej części twierdzenia opiera się na dwóch prostych równoważnościach:

1. Funkcja f jest różniczkowalna w punkcie x wtw, gdy istnieje wektor α ∈ Rn, taki żef ′(x; d) = αTd dla każdego d ∈ Rn.

2. Odwzorowanie Rn 3 d 7→ supξ∈∂f(x) ξTd jest liniowe wtw, gdy subróżniczka ∂f(x) jest

jednoelementowa.Równoważność pierwsza wynika wprost z definicji pochodnej (patrz roz. 2). Jeśli f jest różni-czowalna w x, jedynym wektorem spełniającym f ′(x; d) = αTd jest α = Df(x)T .

Przypuśćmy więc, że funkcja f jest różniczkowalna w x. Wówczas f ′(x; d) = Df(x)d, czylipochodna kierunkowa jest funkcją liniową d. Na mocy drugiej równoważności subróżniczka jestjednoelementowa. Łatwo już zauważyć, że ∂f(x) = Df(x)T . Do dowodu w przeciwną stronęzałóżmy, że subróżniczka ∂f(x) składa się z jednego wektora α ∈ Rn. Wówczas f ′(x; d) = αTd.Na mocy pierwszej równoważności funkcja f jest różniczkowalna w x.

Twierdzenie 3.11 wykorzystamy kilkukrotnie w dowodzie poniższego twierdzenia, które bę-dzie użyteczne w znajdowaniu subróżniczek.

Twierdzenie 3.12. Niech W ⊂ Rn będzie zbiorem wypukłym otwartym, zaś f1, f2 :W → R funkcjami wypukłymi.

I) Niech f = f1 + f2. Wówczas ∂f1(x) + ∂f2(x) = ∂f(x), gdzie

∂f1(x) + ∂f2(x) =ξ1 + ξ2 : ξ1 ∈ ∂f1(x), ξ2 ∈ ∂f2(x)

.

II) Niech f = max(f1, f2). Wówczas

∂f(x) =

∂f1(x), f1(x) > f2(x),

conv(∂f1(x) ∪ ∂f2(x)

), f1(x) = f2(x),

∂f2(x), f1(x) < f2(x),

gdzie conv(∂f1(x) ∪ f2(x)) jest zbiorem kombinacji wypukłych elementów zbiorów∂f1(x) i ∂f2(x).

Dowód. Zaczniemy od dowodu (I). Ustalmy x ∈ W . Niech ξ1 ∈ ∂f1(x) i ξ2 ∈ ∂f2(x). Wówczasdla x ∈W zachodzi

f1(x) ­ f1(x) + ξT1 (x− x),

f2(x) ­ f2(x) + ξT2 (x− x).

Page 35: Optymalizacja II

3.5. Subróżniczka 35

Dodając te nierówności stronami otrzymujemy

f(x) ­ f(x) + (ξ1 + ξ2)T (x− x),

czyli ξ1+ξ2 ∈ ∂f(x). Dowiedliśmy zawierania ∂f1(x)+∂f2(x) ⊂ ∂f(x). Przypuśćmy, że inkluzjata jest ostra, tzn. istnieje ξ ∈ ∂f(x), taki że ξ /∈ ∂f1(x)+∂f2(x). Na mocy lematu 3.3 subróżnicz-ki ∂f1(x) i ∂f2(x) są zwartymi zbiorami wypukłymi. A zatem ich suma algebraiczna jest równieżzbiorem zwartym i wypukłym (patrz ćw. 3.25). Stosujemy silne twierdzenie o oddzielaniu dozbiorów ξ oraz ∂f1(x) + ∂f2(x). Dostajemy µ ∈ Rn i stałą b ∈ R, takie że

µT ξ1 + µT ξ2 < b < µT ξ, ∀ ξ1 ∈ ∂f1(x), ξ2 ∈ ∂f2(x).

Bierzemy maksimum po ξ1, ξ2 po lewej stronie i stosujemy twierdzenie 3.11:

f ′1(x;µ) + f ′2(x;µ) < ξTµ ¬ f ′(x;µ).

Z drugiej strony, z własności pochodnych kierunkowych mamy

f ′1(x;µ) + f ′2(x;µ) = f ′(x;µ).

Doprowadziliśmy do sprzeczności: ξ o żądanych własnościach nie może istnieć. Kończy to dowód(I).

Dowód (II). Postać subróżniczki ∂f na zbiorach x ∈ W : f1(x) > f2(x) i x ∈ W :f1(x) < f2(x) jest oczywista. Jedynie przypadek x ∈W : f1(x) = f2(x) wymaga dokładnegodowodu. Ustalmy x ∈ W , dla którego f1(x) = f2(x). Oznaczmy A = conv

(∂f1(x) ∪ ∂f2(x)

).

Dla i = 1, 2 oraz x ∈W mamy

f(x)− f(x) ­ fi(x)− f(x) = fi(x)− fi(x) ­ ξTi (x− x), ∀ ξi ∈ ∂fi(x).

Stąd dostajemy ∂f1(x) ∪ ∂f1(x) ⊂ ∂f(x). Z wypukłości subróżniczki (patrz lemat 3.3) wynika,że A ⊂ ∂f(x). Załóżmy teraz, że istnieje ξ ∈ ∂f(x)\A. Zbiór A jest wypukły i zwarty. Stosujemysilne twierdzenie o oddzielaniu do zbiorów A i ξ. Dostajemy µ ∈ Rn i stałą b ∈ R, takie że

µT ξ < b < µT ξ, ∀ ξ ∈ A.

W szczególności µT ξi < b dla ξi ∈ ∂fi(x), i = 1, 2, czyli, na mocy tw. 3.11,

max(f ′1(x;µ), f ′2(x;µ)

)¬ b.

Podobnie, b < ξTµ ¬ f ′(x;µ). Podsumowując:

max(f ′1(x;µ), f ′2(x;µ)

)< f ′(x;µ). (3.9)

Z drugiej strony, definicja pochodnej kierunkowej daje nam następującą równość (przypomnijmy,że f(x) = f1(x) = f2(x)):

f(x + λd)− f(x)λ

= max(f1(x + λd)− f(x)

λ,f2(x + λd)− f(x)

λ

), λ > 0.

Przechodząc z λ do zera dostajemy

f ′(x; d) = max(f ′1(x; d), f ′2(x; d)

).

Biorąc d = µ dostajemy sprzeczność z (3.9), a więc nie może istnieć ξ ∈ ∂f(x) \A.

Page 36: Optymalizacja II

36 3. Funkcje wypukłe

Twierdzenie 3.13. Niech W ⊂ Rn będzie zbiorem wypukłym otwartym, f : W → Rfunkcją wypukłą, zaś A będzie macierzą n×m. Zdefiniujmy W = x ∈ Rm : Ax ∈W.Wówczas W jest zbiorem wypukłym otwartym oraz funkcja F : W → R zadana wzoremF (x) = f(Ax) ma w punkcie x ∈ W subróżniczkę zadaną wzorem

∂F (x) = AT∂f(Ax).

Dowód. Dowód będzie przebiegał podobnie jak dowód poprzedniego twierdzenia. Ustalmy x ∈W . Weźmy ξ ∈ ∂f(Ax). Wówczas

f(Ax) ­ f(Ax) + ξT (Ax−Ax) = f(Ax) + (AT ξ)T (x− x),

czyli AT ξ ∈ ∂F (x). Stąd mamy zawieranie AT∂f(Ax) ⊂ ∂F (x). Równości tych dwóch zbiorówdowiedziemy przez sprzeczność. Załóżmy, że istnieje ξ ∈ ∂F (x) \ AT∂f(Ax). Zbiór AT∂f(Ax)jest wypukły i domknięty, jako liniowy obraz zbioru wypukłego i domkniętego. Zastosujemysilne twierdzenie o oddzielaniu, aby oddzielić go od zbioru jednoelementowego ξ. Dostajemyµ ∈ Rm oraz b ∈ R, takie że

µTAT ξ < b < µT ξ, ∀ ξ ∈ ∂f(Ax).

Biorąc supremum po ξ ∈ ∂f(Ax) po lewej stronie i stosując tw. 3.11 otrzymujemy f ′(Ax;Aµ) ¬b. Prawą stronę możemy również oszacować przez pochodną kierunkową: µT ξ ¬ F ′(x;µ). Pod-sumowując:

f ′(Ax;Aµ) < F ′(x;µ).

Jednak z własności pochodnych kierunkowych natychmiast wnioskujemy, że F ′(x; d) = f ′(Ax;Ad)dla dowolnego d ∈ Rm. Mamy zatem sprzeczność. Dowodzi to, iż zbiór ∂F (x) \AT∂f(Ax) jestpusty.

3.6. Zadania

Ćwiczenie 3.1. Niech U, V ⊂ Rn będą zbiorami wypukłymi. Wykaż, że1. U ∩ V jest zbiorem wypukłym.2. U ∪ V może nie być zbiorem wypukłym.

Ćwiczenie 3.2. Czy zbiór (x1, x2, x3) ∈ R3 : x61+x2

1+x2x3+x23 ¬ 1 jest zbiorem wypukłym?

Ćwiczenie 3.3. Udowodnij lemat 3.1.

Ćwiczenie 3.4. Niech

W1 = (x1, x2) : x2 ­ e−x1, W2 = (x1, x2) : x2 ¬ −e−x1.

Wykaż, że zbiory W1,W2 są wypukłe i rozłączne. Znajdź prostą (hiperpłaszczyznę) je dzie-lącą. Czy istnieje hiperpłaszczyzna dzieląca ściśle te zbiory (w sensie mocnego twierdzenia ooddzielaniu)?

Ćwiczenie 3.5. Niech W1,W2 ⊂ Rn będą zbiorami wypukłymi. Udowodnij, że inf‖x − y‖ :x ∈ W1, y ∈ W2 > 0 wtw, gdy istnieje hiperpłaszczyzna ściśle (w sensie mocnego tw. ooddzielaniu) oddzielająca te zbiory.

Page 37: Optymalizacja II

3.6. Zadania 37

Ćwiczenie 3.6. Niech X ⊂ Rn będzie dowolnym zbiorem. Zdefiniujmy zbiór X jako zbiórtakich punktów x ∈ Rn, dla których istnieje liczba naturalna m ∈ N, zależna od punktu, wektor[λ1, . . . , λm] ∈ [0, 1]m o tej własności, że

∑mi=1 λi = 1, oraz x1, . . . ,xm ∈ X i

x =m∑i=1

λixi.

Udowodnij, że1. X jest zbiorem wypukłym.2. X jest najmniejszym zbiorem wypukłym zawierającym X.3. W definicji zbioru X można założyć, że m ¬ n+1, gdzie n jest wymiarem przestrzeni (Tw.Caratheodory’ego).

Zbiór X nazywa się otoczką wypukłą zbioru X i oznaczane jest conv(X).

Ćwiczenie 3.7. Udowodnij twierdzenie 3.5.

Ćwiczenie 3.8. Udowodnij twierdzenie 3.6.

Ćwiczenie 3.9. Znajdź przykład zbioru W ⊆ Rn i funkcji wypukłej f : W → R, która nie jestciągła na całym zbiorze W .

Wskazówka. Twierdzenie 3.7 pomoże w wyborze zbioru W .

Ćwiczenie 3.10. Niech W ⊆ Rn będzie zbiorem wypukłym i otwartym, zaś f : W → R funkcjąróżniczkowalną. Udowodnij następującą równoważność: f jest wypukła wtw, gdy(

Df(y)−Df(x))(y − x) ­ 0, ∀x,y ∈W.

Ćwiczenie 3.11. Udowodnij: Niech W ⊂ Rn, wypukły, zaś I dowolny zbiór. Jeśli funkcjefi : W → R, i ∈ I, są wypukłe, to f(x) = supi∈I fi(x) jest wypukła ze zbiorem wartościR ∪ ∞.

Ćwiczenie 3.12. Udowodnij: Niech W ⊂ Rn, wypukły. Jeśli funkcje fi : W → R, i =1, 2, . . . ,m, są wypukłe i αi > 0 dla i = 1, 2, . . . ,m, to funkcja f =

∑mi=1 αifi jest wypukła. Jeśli

jedna z funkcji fi jest ściśle wypukła, to f jest również ściśle wypukła.

Ćwiczenie 3.13. Udowodnij: Niech W ⊂ Rn, wypukły, zaś A ⊂ Rm wypukły, zwarty. Jeślifunkcja h : W ×A→ R jest wypukła i ciągła, to

f(x) = infa∈A

h(x,a), x ∈W,

jest wypukła.

Wskazówka. Korzystając ze zwartości A i ciągłości h, dla każdego x istnieje a(x) ∈ A realizującyinfimum. Dowodzimy teraz z definicji funkcji wypukłej.

Ćwiczenie 3.14. Udowodnij uogólnienie twierdzenia z ćwiczenia 3.13: opuścimy zwartość A iciągłość h. Niech W ⊂ Rn, A ⊂ Rm wypukłe zbiory. Jeśli funkcja h : W ×A→ R jest wypukłai ograniczona z dołu, to

f(x) = infa∈A

h(x,a), x ∈W,

jest wypukła.

Ćwiczenie 3.15. Skonstruuj przykład, który pokaże, że założenie o ograniczoności z dołu niemoże być pominięte w twierdzeniu z ćw. 3.14.

Page 38: Optymalizacja II

38 3. Funkcje wypukłe

Ćwiczenie 3.16. Udowodnij, że funkcja odległości od zbioru wypukłego jest funkcją wypukłą.Podaj przykład wskazujący na konieczność wypukłości zbioru.

Ćwiczenie 3.17. Udowodnij: Niech f : Rn → R wypukła. Jeśli h : Rm → Rn afiniczna, tozłożenie f h jest funkcją wypukłą.

Ćwiczenie 3.18. Udowodnij: Niech W ⊂ Rn, wypukły. Jeśli f : W → R jest funkcją wypukłąi g : R → R jest wypukła i niemalejąca, to g f jest funkcją wypukłą. Kiedy g f jest ściślewypukła?

Stwórz analog powyższego twierdzenia dla funkcji wklęsłych.

Ćwiczenie 3.19. Udowodnij: Niech W ⊂ Rn wypukły. Jeśli f : W → R jest funkcją (ściśle)wklęsłą i f > 0, to funkcja 1/f jest (ściśle) wypukła.

Ćwiczenie 3.20. Czy jeśli f : Rn → R i g : R→ R wypukłe, to g f : Rn → R jest wypukła?

Ćwiczenie 3.21. Udowodnij, że funkcja f(x1, x2) = ex21−x2 jest wypukła.

Ćwiczenie 3.22. Niech W ⊂ Rn i funkcja f : W → R klasy C2. Załóżmy ponadto, żeD2f(x) ­ 0 dla każdego x ∈ W (tzn. Hesjan jest nieujemnie określony). Rozstrzygnij, który znastępujących warunków jest wystarczający, by zdanie

Df(x) = 0 =⇒ w x jest globalne minimum

było prawdziwe:— W = Rn,— W jest wypukły i otwarty,— W jest wypukły,— W jest otwarty.

Ćwiczenie 3.23. Znajdź przykład zbioru X ⊂ Rn oraz funkcji f : X→ R klasy C2, takiej że1. D2f(x) ­ 0 (tzn. hesjan jest nieujemnie określony) dla każdego x ∈ X,2. istnieje punkt x ∈ X, w którym jest minimum lokalne funkcji f , ale nie jest ono globalne.

Ćwiczenie 3.24. Niech W ⊂ Rn będzie zbiorem wypukłym, zaś f : W → R funkcją wypukłą.Udowodnij, że ∂f(x) jest zbiorem wypukłym i domkniętym.

Ćwiczenie 3.25. Niech A,B ⊂ Rn będą zbiorami wypukłymi zwartymi. Udowodnij, że sumaalgebraiczna tych zbiorów

A+B = a + b : a ∈ A, b ∈ B

jest zbiorem zwartym i wypukłym.

Ćwiczenie 3.26. Niech W ⊂ Rn wypukły otwarty i f : W → R wypukła. Wykaż, że ξ ∈ Rn

jest subgradientem f w x ∈W wtw, gdy odwzorowanie x 7→ ξTx−f(x) osiąga swoje maksimumw x.

Ćwiczenie 3.27. Znajdź subróżniczkę funkcji Rn 3 x 7→ ‖x‖.

Ćwiczenie 3.28. Niech A będzie macierzą n×n symetryczną i nieujemnie określoną. Udowod-nij, że f(x) =

√xTAx, x ∈ Rn, jest funkcją wypukłą i znajdź jej subróżniczkę.

Ćwiczenie 3.29. Wykaż, że dla skalarnej funkcji wypukłej f : (a, b)→ R mamy

∂f(x) = [f ′(x−), f ′(x+)],

gdzie f ′(x±) oznaczają prawo- i lewo-stronne pochodne w punkcie x ∈ (a, b).

Page 39: Optymalizacja II

3.6. Zadania 39

Ćwiczenie 3.30. Niech f : Rn → R wypukła, x,y ∈ Rn ustalone wektory. Zdefiniujmy g(t) =f(tx + (1− t)y), t ∈ R. Wykaż, że g jest wypukła oraz

∂g(t) = (x− y)T∂f(tx + (1− t)y

).

Ćwiczenie 3.31. Wykaż, że funkcja f(x) = max(−2x+ 5, 3x2− 1) jest wypukła na R i znajdźjej subróżniczkę.

Ćwiczenie 3.32. Niech fW (x) = infy∈W ‖x − y‖, x ∈ Rn, gdzie W ⊂ Rn jest zbiorem wypu-kłym. Znajdź subróżniczkę w następujących przypadkach:

— W = x dla pewnego x ∈ Rn,— W = conv((0, 0), (1, 0)) ⊂ R2, tzn. W jest odcinkiem,— W = conv((0, 0), (1, 0), (0, 1), (1, 1)) ⊂ R2, tzn. W jest kwadratem.

Page 40: Optymalizacja II

4. Ekstrema funkcji wypukłej z ograniczeniami

4.1. Problem minimalizacyjny

Niech W będzie niepustym wypukłym podzbiorem Rn, zaś f : W → R będzie funkcjąwypukłą. Rozważmy problem minimalizacji funkcji f na zbiorze W :

f(x) −→ min,

x ∈W.(4.1)

Przypomnijmy, że punktami dopuszczalnymi nazywamy elementy zbioru W . Rozwiązaniem glo-balnym nazywamy taki punkt x ∈ W , że f(x) ¬ f(x) dla każdego x ∈ W . Rozwiązaniemlokalnym jest taki punkt x ∈W , że istnieje ε > 0, dla którego f(x) ¬ f(x), jeśli x ∈W∩B(x, ε).Rozwiązanie jest ścisłe, jeśli f(x) < f(x) dla x ∈ W ∩ B(x, ε) i x 6= x. Innymi słowy, x jestrozwiązaniem lokalnym, jeśli x jest minimum funkcji f na pewnym otoczeniu x.

Twierdzenie 4.1. Niech W ⊂ Rn wypukły, f : W → R wypukła. Jeśli x ∈ W będzierozwiązaniem lokalnym (4.1), to:

I) x jest rozwiązaniem globalnym,II) Zbiór rozwiązań globalnych jest wypukły.III) Jeśli f jest ściśle wypukła, to x jest ścisłym rozwiązaniem lokalnym.IV) Jeśli x jest ścisłym rozwiązaniem lokalnym, to x jest jedynym rozwiązaniemglobalnym.

Zauważmy, że w powyższym twierdzeniu nie zakładamy różniczkowalności funkcji f .

Dowód twierdzenia 4.1. (I): Dowód przez sprzeczność. Przypuśćmy, że istnieje x∗ ∈W takie żef(x∗) < f(x). Ponieważ x jest rozwiązaniem lokalnym, to f(x) ¬ f(x) dla x ∈ W ∩ B(x, ε) iε > 0. Z wypukłości zbioru W wynika, iż odcinek łączący x i x∗ znajduje się w zbiorze W . Ma onwięc niepuste przecięcie z kulą B(x, ε): dla pewnego λ ∈ (0, 1) mamy λx + (1− λ)x∗ ∈ B(x, ε).Z wypukłości f dostajemy

f(λx + (1− λ)x∗

)¬ λf(x) + (1− λ)f(x∗) < f(x),

co przeczy lokalnej optymalności x.(II) Pozostawione jako ćwiczenie.(III) Wynika wprost z definicji ścisłej wypukłości.(IV) Pozostawione jako ćwiczenie.

Dotychczas pokazaliśmy, że warunkiem koniecznym i dostatecznym minimum funkcji wypu-kłej na zbiorze wypukłym i otwartym jest zerowanie się pochodnej/gradientu. Uogólnimy terazte wyniki na przypadek dowolnych zbiorów wypukłych.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 41: Optymalizacja II

4.1. Problem minimalizacyjny 41

Twierdzenie 4.2. Niech W ⊂ Rn wypukły, f : W → R wypukła. Jeśli f jest różnicz-kowalna w punkcie x ∈ W , to mamy następującą równoważność: x jest rozwiązaniem(4.1) wtw, gdy Df(x)(x− x) ­ 0 dla każdego x ∈W .

Uwaga 4.1. W sformułowaniu powyższego twierdzenia, jak i w wielu miejscach w dalszej czę-ści tych notatek, zastosowany jest następujący skrót myślowy. Aby mówić o różniczkowalnościfunkcji f w punkcie x ∈W , musi być ona określona w pewnym otoczeniu x, czyli w kuli B(x, ε)dla pewnego ε > 0. Jeśli x jest na brzegu W , to zakładać będziemy, że f jest określona naW ∪B(x, ε) mimo, że jest to pominięte, dla prostoty notacji, w założeniach twierdzenia.

Uwaga 4.2. Jeśli x ∈ intW , to warunek powyższy sprowadza się do warunku zerowania siępochodnej Df(x) = 0.

Dowód tw. 4.2. Załóżmy, że Df(x)(x− x) ­ 0 dla każdego x ∈ W . Ustalmy x ∈ W . Na mocytwierdzenia 3.8

f(x) ­ f(x) +Df(x)(x− x).

Z założenia, drugi składnik jest nieujemny, co pociąga f(x) ­ f(x). Z dowolności x ∈ Wdostajemy tezę.

Załóżmy teraz, że x jest rozwiązaniem (4.1). Ustalmy x ∈ W . Zauważmy, że wypukłość Wimplikuje x + λ(x− x) = (1− λ)x + λx ∈W dla λ ∈ [0, 1]. Z definicji pochodnej mamy

Df(x)(x− x) = limλ↓0, λ<1

f(x + λ(x− x)

)− f(x)

λ.

Ponieważ w punkcie x jest minimum, to f(x + λ(x− x)

)­ f(x). Stąd Df(x)(x− x) ­ 0.

Z dowodu powyższego twierdzenia dostajemy użyteczny wniosek.

Wniosek 4.1. Jeśli x ∈W , gdzie W ⊂ Rn jest wypukły, jest rozwiązaniem lokalnym (4.1) dlafunkcji f : W → R (niekoniecznie wypukłej) różniczkowalnej w x, to Df(x)(x − x) ­ 0 dlakażdego x ∈W .

Przykład 4.1. Rozważmy problem minimalizacyjny:

(x1 − 3

2

)2+ (x2 − 5)2 −→ min,

−x1 + x2 ¬ 2,

2x1 + 3x2 ¬ 11,

x1, x2 ­ 0,

Zbiór W zadany jest przez ograniczenia liniowe (patrz rysunek 4.1):

W = (x1, x2) ∈ R2 : x1, x2 ­ 0, −x1 + x2 ¬ 2, 2x1 + 3x2 ¬ 11.

Łatwo sprawdzić, że jest on wypukły. Funkcja f(x1, x2) = (x1 − 32)2 + (x2 − 5)2 jest ściśle

wypukła: jej hesjan wynosi

D2f(x1, x2) =

[2 00 2

].

Na mocy tw. 4.1 minimum jest jednoznaczne. Policzmy gradient f :

Df(x1, x2) = (2x1 − 3, 2x2 − 10).

Page 42: Optymalizacja II

42 4. Ekstrema funkcji wypukłej z ograniczeniami

Rysunek 4.1. Zbiór punktów dopuszczalnych.

Gradient zeruje się w punkcie (32 , 5), który jest poza zbiorem W . Minimum należy zatem szukać

na brzegu W . Nie mamy jeszcze narzędzi ułatwiających znalezienie tego punktu. Zgadujemy...Sprawdźmy wierzchołek x = (1, 3). Gradient w tym punkcie wynosi (−1,−4). Zauważmy, żewektory x− x są kombinacjami liniowymi dodatnimi wektorów x1 = (0, 2)− (1, 3) = (−1,−1)i x2 = (11

2 , 0) − (1, 3) = (92 ,−3), tzn. x − x = a1x1 + a2x2 dla pewnych a1, a2 ­ 0. Wystarczy

zatem sprawdzić, że Df(x)(x1) ­ 0 i Df(x)x2 ­ 0:

Df(x)(x1) = (−1,−4)

(−1−1

)= 5,

Df(x)(x2) = (−1,−4)

(9/2−3

)= 16

12.

Na mocy tw. 4.2 minimum jest rzeczywiście w punkcie (1, 3).

Rozszerzymy teraz twierdzenie 4.2 na klasę funkcji wypukłych nieróżniczkowalnych – sko-rzystamy z wprowadzonego w poprzednim rozdziale pojęcia subróżniczki.

Twierdzenie 4.3. Niech W ⊂ Rn wypukły otwarty, f : W → R wypukła. Załóżmy,że zbiór punktów dopuszczalnych W jest wypukłym podzbiorem W . Mamy następującąrównoważność: x jest rozwiązaniem (4.1) wtw, gdy istnieje ξ ∈ ∂f(x), takie że ξT (x−x) ­ 0 dla każdego x ∈W .

Wniosek 4.2. Niech W ⊂ Rn wypukły otwarty, f : W → R wypukła. Wówczas f ma w x ∈Wminimum globalne wtw, gdy 0 ∈ ∂f(x).

Dowód twierdzenia 4.3. Zacznijmy od łatwiejszej implikacji. Załóżmy, że istnieje ξ ∈ ∂f(x),takie że ξT (x− x) ­ 0 dla każdego x ∈W . Z faktu, że ξ jest subgradientem wynika, że

f(x) ­ f(x) + ξT (x− x), x ∈W.

Page 43: Optymalizacja II

4.1. Problem minimalizacyjny 43

Wystarczy teraz skorzystać z założenia, żeby zauważyć, że f(x) ­ f(x) dla x ∈W , czyli x jestrozwiązaniem (4.1).

Załóżmy teraz, że x ∈W jest rozwiązaniem (4.1). Zdefiniujmy dwa zbiory

C1 =(x, z) ∈ Rn × R : x ∈ W , z > f(x)− f(x)

,

C2 =(x, z) ∈ Rn × R : x ∈W, z ¬ 0

.

Oba zbiory są wypukłe, C1 ma niepuste wnętrze (zbiór C2 ma puste wnętrze, jeśli W ma pustewnętrze). Z faktu, że punkt x jest rozwiązaniem (4.1) wynika, że C1 ∩C2 = ∅. Stosujemy słabetwierdzenie o oddzielaniu: istnieje niezerowy wektor (µ, γ) ∈ Rn × R i stała b ∈ R, takie że

µTx + γz ¬ b, ∀ x ∈ W , z > f(x)− f(x)

µTx + γz ­ b, ∀ x ∈W, z ¬ 0.(4.2)

Zanim przejdziemy do analitycznych rozważań popatrzmy na geometryczny obraz. Zauważmy,że zbiory C1 i C2 „stykają” się w punkcie (x, 0). Hiperpłaszczyzna oddzielająca te zbiory musizatem przechodzić przez ten punkt. Jest ona styczna do wykresu funkcji x 7→ f(x) − f(x) –pierwsza grupa współrzędnych µ wektora (µ, γ) do niej normalnego, z dokładnością do długościi zwrotu, wyznacza subgradient tego odwzorowania w punkcie x (a zatem także subgradient f).Z faktu, że ta hiperpłaszczyzna jest również styczna do C2 dostajemy µT (x− x) ­ 0.

Udowodnijmy to teraz analitycznie. Odejmijmy od obu stron nierówności (4.2) µT x:

µT (x− x) + γz ¬ b, ∀ x ∈ W , z > f(x)− f(x) (4.3)

µT (x− x) + γz ­ b, ∀ x ∈W, z ¬ 0, (4.4)

gdzie b = b − µT x. Zauważmy najpierw, że γ nie może być większa od zera. Wówczas, wy-korzystując dowolność z ¬ 0, dostajemy sprzeczność z (4.4). Kładąc w (4.4) x = x i z = 0,otrzymujemy b ¬ 0. Wnioskujemy stąd, że niedopuszczalne jest γ = 0: z nierówności (4.3)(pamiętając o otwartości W ) dostalibyśmy bowiem µ = 0, co przeczyłoby niezerowości wektora(µ, γ). Wykazaliśmy więc, że

γ < 0.

Biorąc x = x, nierówność (4.3) upraszcza się do γz ¬ b dla z > 0. Stąd b ­ 0. Łącząc to zpoprzednio otrzymaną nierównością b ¬ 0 dostajemy

b = 0.

Przechodząc w (4.3) z z do f(x)− f(x) mamy

µT (x− x) + γ(f(x)− f(x)

)¬ 0.

Dzieląc obie strony przez γ i pamiętając, że γ < 0 dostajemy

µT

γ(x− x) + f(x)− f(x) ­ 0,

co dowodzi, że −µγ ∈ ∂f(x). Kładąc z = 0 w (4.4) otrzymujemy µT (x − x) ­ 0. Dzielimy obie

strony przez −γ > 0:

−µT

γ(x− x) ­ 0,

co kończy dowód.

Page 44: Optymalizacja II

44 4. Ekstrema funkcji wypukłej z ograniczeniami

4.2. Funkcje pseudowypukłe

W tym podrozdziale wprowadzimy rodzinę funkcji, dla której spełniony jest warunek:

Df(x) = 0 ⇐⇒ w x jest minimum globalne.

Okazuje się, że rodzina ta obejmuje nie tylko funkcje wypukłe.

Definicja 4.1. Niech W ⊂ Rn będzie otwarty i niepusty, zaś f : W → R – różniczkowalna wW . Funkcja f jest pseudowypukła w x ∈W , jeśli

∀ y ∈W : Df(x)(y − x) ­ 0 =⇒ f(y) ­ f(x).

Funkcja f jest ściśle pseudowypukła w x ∈W , jeśli

∀ y ∈W : Df(x)(y − x) ­ 0, x 6= y =⇒ f(y) > f(x).

Funkcja f jest (ściśle) pseudowypukła, jeśli jest ona (ściśle) pseudowypukła w każdym punkciex ∈W .

Funkcja f jest (ściśle) pseudowklęsła, jeśli (−f) jest (ściśle) pseudowypukła.

Uwaga 4.3. Implikacja w definicji pseudowypukłości ma równoważną postać:

∀ y ∈W : f(y) < f(x) =⇒ Df(x)(y − x) < 0.

Na rysunku 4.2 znajdują się przykłady jednowymiarowych funkcji pseudowypukłych i pseu-dowklęsłych.

Lemat 4.1. Niech f : W → R, gdzie W ⊂ Rn wypukły, otwarty i niepusty. Jeśli f jest (ściśle)wypukła i różniczkowalna na W , to f jest (ściśle) pseudowypukła.

Dowód. Załóżmy, że f wypukła. Na mocy tw. 3.8 dla dowolnych x,x ∈W mamy

f(x) ­ f(x) +Df(x)(x− x).

Jeśli zatem Df(x)(x − x) ­ 0, to f(x) ­ f(x) i f jest pseudowypukła. W analogiczny sposóbdowodzimy, że ścisła wypukłość pociąga ścisłą pseudowypukłość.

Lemat 4.2. Niech f : W → R, gdzie W ⊂ Rn, otwarty, niepusty, będzie funkcją pseudowypukłąw x ∈W . Wówczas x jest minimum globalnym wtw, gdy Df(x) = 0.

Dowód. Identyczny jak dowód wniosku 3.2.

Dowód poniższego lematu jest identyczny jak dowód twierdzenia 4.2.

Lemat 4.3. Niech W ⊂ Rn wypukły, f : W → R pseudowypukła. Mamy następującą równo-ważność: x jest rozwiązaniem (4.1) wtw, gdy Df(x)(x− x) ­ 0 dla każdego x ∈W .

4.3. Maksymalizacja funkcji wypukłej

Definicja 4.2. Punktem ekstremalnym zbioru wypukłegoW ⊂ Rn nazwiemy taki punkt x ∈W ,który nie jest punktem wewnętrznym żadnego odcinka zawartego w W , tj. jeśli x = λx1 + (1−λ)x2 dla pewnych λ ∈ (0, 1) i x1,x2 ∈W , to x1 = x2 = x.

Definicja 4.3. Otoczką wypukłą punktów (xi)i∈I nazywamy zbiór punktów będących kombi-nacją wypukłą skończonej liczby spośród punktów (xi).

Page 45: Optymalizacja II

4.3. Maksymalizacja funkcji wypukłej 45

Rysunek 4.2. Przykłady funkcji pseudowypukłych i pseudowklęsłych.

Otoczkę wypukłą można równoważnie definiować jako najmniejszy zbiór wypukły zawiera-jący punkty (xi)i∈I .

Przedstawimy teraz prostą wersję twierdzenia Kreina-Milmana.

Twierdzenie 4.4. Niech U ⊂ Rn będzie zbiorem wypukłym i zwartym. Jest on wów-czas otoczką wypukłą swoich punktów ekstremalnych.

Przed przejściem do dowodu powyższego twierdzenia wprowadzimy niezbędne pojęcia. Przy-pomnijmy, że przestrzenią afiniczną nazywamy zbiór A, taki że

∑ki=1 λixi ∈ A dla dowolnych

(xi) ⊂ A i (λi) ⊂ R takich że∑ki=1 λi = 1. Każda podprzestrzeń afiniczna Rn może zostać

przesunięta tak, aby zawierała 0. Staje się ona wówczas podprzestrzenią liniową. Wymiarempodprzestrzeni afinicznej nazywamy wymiar związanej z nią podprzestrzeni liniowej.

Definicja 4.4. Wymiarem zbioru wypukłego U ⊂ Rn nazywamy wymiar otoczki afinicznej U ,tzn. podprzestrzeni afinicznej generowanej przez U:

aff U = k∑i=1

λixi : x1, . . . ,xk ∈ U,k∑i=1

λi = 1.

Zapiszmy łatwe wnioski z powyższej definicji i rozważań ją poprzedzających:

Page 46: Optymalizacja II

46 4. Ekstrema funkcji wypukłej z ograniczeniami

Wniosek 4.3.1. Zbiór wypukły o wymiarze m < n możemy traktować jako podzbiór przestrzeni Rm.2. Zbiór wypukły w przestrzeni Rn ma niepuste wnętrze wtw, gdy jego wymiar wynosi n.

Dotychczas rozważaliśmy hiperpłaszczyzny podpierające epigraf funkcji wypukłej. Terazuogólnimy to pojęcie na dowolny zbiór wypukły.

Lemat 4.4. Niech U ⊂ Rn będzie zbiorem wypukłym o niepustym wnętrzu. Przez punkt brzegowyx ∈ U przechodzi wówczas hiperpłaszczyzna, taka że zbiór U leży w jednej z wyznaczonych przeznią półprzestrzeni. Hiperpłaszczyznę tą nazywamy hiperpłaszczyzną podpierającą zbiór U wpunkcie x.

Dowód. Na mocy słabego twierdzenia o oddzielaniu zastosowanego do U i V = x (zauważ-my, że (intU) ∩ V = ∅) istnieje a ∈ Rn, takie że aTx ¬ aT x dla każdego x ∈ U . Szukanąhiperpłaszczyzną jest

H = x ∈ Rn : aTx = aT x.

Zbiór U zawarty jest w półprzestrzeni x ∈ Rn : aTx ¬ aT x.

Dowód twierdzenia 4.4. Przeprowadzimy indukcję po wymiarze m zbioru zwartego i wypukłegoU . Przypadki m = 0 (U jest punktem) i m = 1 (U jest odcinkiem) są trywialne. Czas na krokindukcyjny. Załóżmy, że każdy zbiór wypukły i zwarty o wymiarze nie większym od m jestotoczką wypukłą swoich punktów ekstremalnych. Weźmy zbiór wypukły i zwarty U o wymiarzem + 1. Zbiór ten traktujemy jako podzbiór Rm+1. Ma on wówczas niepuste wnętrze. Niechx ∈ U .

Przypadek (I): x leży na brzegu U . Na mocy lematu 4.4 istnieje hiperpłaszczyzna podpiera-jąca H przechodząca przez x. Zbiór Ux = U ∩H jest wypukły, zwarty i o wymiarze co najwyżejm. Na mocy założenia indukcyjnego punkt x jest kombinacją wypukłą punktów ekstremalnychUx. Pozostaje już tylko wykazać, że punkty ekstremalne Ux są punktami ekstremalnymi U .Wynika to stąd, że żaden punkt x ∈ Ux nie może być przedstawiony jako kombinacja wypukłapunktów, z których jeden lub oba nie należą do Ux.

Przypadek (II): x leży we wnętrzu U . Przeprowadźmy przez x dowolną prostą. Przecina onabrzeg U w dwóch punktach x1,x2. Z przypadku (I) wiemy, że każdy z punktów x1,x2 możezostać przedstawiony jako kombinacja wypukła skończonej liczby punktów ekstremalnych U .Punkt x może być zapisany jako kombinacja wypukła x1,x2, a więc należy do otoczki wypukłejpunktów ekstremalnych U .

Poniżej prezentujemy inny dowód twierdzenia 4.4 bazujący częściowo na pomysłach wyko-rzystywanych w dowodzie ogólnej wersji twierdzenia Kreina-Milmana. W przeciwieństwie dopowyższego rozumowania, dowód ten nie jest konstruktywny.

Alternatywny dowód twierdzenia 4.4. Jeśli zbiór U zawarty jest w R1, to teza twierdzenia jesttrywialna. Załóżmy więc, że każdy wypukły zwarty podzbiór Rm jest otoczką wypukłą swoichpunktów ekstremalnych. Udowodnimy prawdziwość tego stwierdzenia dla U ⊂ Rm+1. Niech Wbędzie otoczką wypukłą punktów ekstremalnych U . Oczywiście W ⊂ U . Przypuśćmy, że istniejex ∈ U \ W . Wówczas możemy znaleźć kulę o środku w x i dostatecznie małym promieniu,która nie przecina W . Na mocy mocnego twierdzenia o oddzielaniu, tw. 3.2, istnieje wektora ∈ Rm+1, taki że aTx ¬ α dla x ∈ W i aT x > α. Niech β = supx∈U aTx. Supremum tojest po całym zbiorze U i jest skończone ze zwartości U . Hiperpłaszczyzna P = x ∈ Rm+1 :aTx = β nie przecina W (bo α < aT x ¬ β), ale ma punkt wspólny z U . Rzeczywiście,PU := P ∩U jest niepusty, gdyż ze zwartości U wynika, że supremum definiujące β jest osiągane,czyli istnieje x ∈ U , dla którego aTx = β. Pokażemy, że PU zawiera punkt ekstremalny U , cobędzie sprzeczne z definicją zbioru W . Zbiór PU jest niepustym, zwartym zbiorem wypukłym w

Page 47: Optymalizacja II

4.3. Maksymalizacja funkcji wypukłej 47

przestrzeni afinicznej o wymiarze m. Zbiór PU możemy traktować jako podzbiór Rm, czyli namocy założenia indukcyjnego jest on otoczką wypukłą swoich punktów ekstremalnych. Niech ybędzie jednym z punktów ekstremalnych PU i załóżmy, że jest on kombinacją wypukłą y1,y2 ∈U , y = λy1 + (1−λ)y2 dla λ ∈ (0, 1). Wówczas β = aT y = λaTy1 + (1−λ)aTy2. Z konstrukcjiβ wynika, że zarówno aTy1 jak i aTy2 muszą być równe β, czyli y1,y2 ∈ PU . Z faktu, że y jestpunktem ekstremalnym PU wnioskujemy, że y1 = y2 = y, czyli y jest punktem ekstremalnymU .

Twierdzenie 4.5. Niech f : W → R wypukła, ciągła, określona na wypukłym i zwar-tym zbiorze W ⊂ Rn. Wówczas punkt ekstremalny zbioru W jest jednym z rozwiązańglobalnych problemu

f(x)→ max,

x ∈W.

Dowód. Funkcja ciągła osiąga swoje kresy na zbiorze zwartym. Powyższy problem maksyma-lizacyjny ma zatem rozwiązanie x ∈ W . Na mocy tw. 4.4 punkt x jest kombinacją wypukłąskończonej liczby punktów ekstremalnych, x1, . . . ,xm, zbioru W , tzn.

x = a1x1 + a2x2 + . . .+ amxm

dla liczb a1, . . . , am > 0 takich że a1 + . . .+ am = 1. Z wypukłości f dostajemy

f(x) ¬ a1f(x1) + . . .+ amf(xm).

Z faktu, że x jest maksimum f na zbiorze W wynika, że f(x1) = . . . = f(xm) = f(x).

Przykład 4.2. Rozważmy następujące zadanie optymalizacyjne:x1 + x2

2 → max,

x21 + x2

2 ¬ 1,

x1 + x2 ­ 0.

Funkcja celu jest wypukła, więc na mocy twierdzenia 4.5 punkt ekstremalny jest rozwią-zaniem. Zbiór punktów dopuszczalnych jest kołem przeciętym z półprzestrzenią, czyli zbioremwypukłym. Zbiór punktów ekstremalnych zaznaczony jest pogrubioną linią na rysunku 4.3.Jest to fragment okręgu. Zmaksymalizujmy więc funkcję celu na całym okręgu i zobaczmy,czy rozwiązanie należy do tego fragmentu okręgu. Podstawiając x2

2 = 1 − x21 do funkcji celu

dostajemyx1 + 1− x2

1 → max .

Rozwiązaniem tego problemu jest x1 = 1/2. Stąd x2 = ±√

3/2. Para (1/2,√

3/2) należy dopółokręgu punktów ekstremalnych, więc jest rozwiązaniem, lecz niekoniecznie jedynym. Para(1/2,−

√3/2) nie należy do zbioru punktów dopuszczalnych.

Twierdzenie 4.5 jest szczególnie użyteczne przy maksymalizacji funkcji wypukłej na zbiorachwielościennych:

Definicja 4.5. Zbiór W ⊂ Rn nazwiemy zbiorem wielościennym, jeśli jest przecięciem skończo-nej rodziny półprzestrzeni, tzn.

W =x ∈ Rn : pTi x ¬ αi, i = 1, . . . ,m

,

gdzie pi ∈ Rn, pi 6= 0 i αi ∈ R.

Page 48: Optymalizacja II

48 4. Ekstrema funkcji wypukłej z ograniczeniami

Rysunek 4.3. Zbiór punktów dopuszczalnych. Punkty ekstremalne zaznaczone pogrubioną linią.

Rysunek 4.4. Zbiory wielościenne. Ciemnymi kropami zaznaczone są punkty ekstremalne.

Łatwo można zauważyć, że punktami ekstremalnymi ograniczonych zbiorów wielościennychsą „wierzchołki” (patrz rys. 4.4).

Lemat 4.5. Zbiór wielościenny jest domknięty i wypukły.

Dowód. Zbiór wielościenny jest domknięty i wypukły jako przecięcie rodziny zbiorów domknię-tych i wypukłych.

Przykład 4.3. Rozważmy problem optymalizacyjnyx2

1 + x22 → max,

x1 + 3x2 ¬ 12,

5x1 + x2 ¬ 18,

3x1 + 2x2 ­ 8.

Page 49: Optymalizacja II

4.4. Zadania 49

Rysunek 4.5. Zbiór punktów dopuszczalnych. Punkty ekstremalne zaznaczone dużymi kropka-mi.

Funkcja celu jest wypukła, zaś zbiór punktów dopuszczalnych jest wielościenny. Jego punktyekstremalne to (0, 4)T , (3, 3)T i (4,−2)T , patrz rysunek 4.5. Wartość funkcji celu w tych punk-tach wynosi odpowiednio: 16, 18 i 20. Rozwiązaniem jest zatem punkt (4,−2)T . Można łatwodowieść, że jest to jedyne rozwiązanie tego problemu.

4.4. Zadania

Ćwiczenie 4.1. Udowodnij, że zbiór rozwiązań globalnych zagadnienia (4.1) jest wypukły dlawypukłego zbioru W ⊂ Rn i wypukłej funkcji f : W → R.

Ćwiczenie 4.2. Rozważmy zagadnienie (4.1) dla wypukłego zbioru W ⊂ Rn i wypukłej funkcjif : W → R. Wykaż, że ścisłe rozwiązanie lokalne jest jedynym rozwiązaniem globalnym.

Ćwiczenie 4.3. Udowodnij: Niech W ⊂ Rn wypukły oraz g, h : W → R różniczkowalne. Jeślizachodzi jeden z poniższych warunków:

— g jest wypukła, g ­ 0, oraz h jest wklęsła, h > 0,— g jest wypukła, g ¬ 0, oraz h jest wypukła, h > 0,

to f = g/h jest pseudowypukła. Podaj przykład, że f nie jest wypukła.

Ćwiczenie 4.4. Udowodnij: Niech W ⊂ Rn wypukły oraz g, h : W → R różniczkowalne. Jeślig jest wypukła i g ¬ 0 oraz h jest wklęsła, h > 0, to f = gh jest pseudowypukła.

Ćwiczenie 4.5. Udowodnij, że zbiór minimów funkcji pseudowypukłej f : W → R, gdzieW ⊂ Rn wypukły, jest zbiorem wypukłym.

Ćwiczenie 4.6. Odpowiedz na następujące pytania:1. Czy suma funkcji pseudowypukłych jest pseudowypukła?2. Czy jeśli funkcje g1, g2 są pseudowypukłe w punkcie x oraz Dg1(x) = Dg2(x) = 0T , tofunkcja g1 + g2 jest pseudowypukła w x?

Page 50: Optymalizacja II

50 4. Ekstrema funkcji wypukłej z ograniczeniami

3. Czy suma funkcji pseudowypukłej i wypukłej jest pseudowypukła?Odpowiedzi uzasadnij kontrprzykładami lub dowodami.

Ćwiczenie 4.7. Korzystając z tw. 4.2 rozwiąż zadanie2x+ 3y → min,

x2 + 2y2 ¬ 1.

Ćwiczenie 4.8. Znaleźć rozwiązania zadanialog(x1 + 4) + x2 → max,

x2 ­ 2|x1|,x2 ¬ 4.

Wskazówka. Skorzystaj z tw. 4.2.

Ćwiczenie 4.9. Rozwiąż zadanie e(x1−3)

2+x2

log(x2)→ min,

x2 > 1,

x1 ∈ [1, 100].

Ćwiczenie 4.10. Udowodnij, że x ∈W jest punktem ekstremalnym zbioru wypukłego W ⊂ Rn

wtw, gdy W \ x jest zbiorem wypukłym.

Ćwiczenie 4.11. Wykaż, że jeśli w punkcie brzegowym x zbioru wypukłego U istnieje hiper-płaszczyzna podpierająca H, taka że H ∩ U = x, to punkt x jest punktem ekstremalnymU .

Ćwiczenie 4.12. Zbadaj związek pomiędzy subróżniczką funkcji wypukłej w punkcie x a hi-perpłaszczyznami podpierającymi epigraf tej funkcji w tym punkcie.

Ćwiczenie 4.13. Znaleźć rozwiązanie zadanialog

(1

x1+4

)+ x2 → max,

x2 ­ 2|x1|,x2 ¬ 4.

Ćwiczenie 4.14. Rozwiąż problem programowania nieliniowego z ograniczeniami:log2(x1 + x2)− 2|x2 − 2x1| − x2

2 + 2x2 → min,

x1 ­ 0, x2 ­ 0, x1 + x2 ­ 1,

|x1 − x2|+ |x1| ¬ 4.

Ćwiczenie 4.15. ([3, Zadania 3.28, 3.29]) Zdefiniujmy f : [0,∞)n → R najstępująco:

f(x) = mincTy + xT (Ay − b) : y ∈W

,

gdzie W jest zbiorem wielościennym, b, c ∈ Rn, A ∈ Rn×n.1. Wykaż, że f jest wklęsła.2. Scharakteryzuj subróżniczkę f .

Page 51: Optymalizacja II

4.4. Zadania 51

3. Znajdź subróżniczkę w punktach x ­ 0 dla

A =

(3 2−1 2

), b =

(64

), c =

(−1−2

).

Ćwiczenie 4.16. Korzystając z tw. 4.3 rozwiąż następujący problem optymalizacyjny:x2 − 6x+ y2 + 2y → min,

x+ 2y − 10 = 0,

25− x2 − y2 ­ 0.

Page 52: Optymalizacja II

5. Warunek konieczny I rzędu

5.1. Stożek kierunków stycznych

Rozważmy problem optymalizacyjnyf(x)→ min,

x ∈W,(5.1)

gdzie W ⊂ Rn i f : W → R. Niech x będzie rozwiązaniem lokalnym. Będziemy chcieli powiązaćgeometrię lokalną zbioru W w punkcie x z zachowaniem funkcji f , czyli kierunkami spadkujej wartości. Przez lokalną geometrię W rozumiemy zbiór kierunków, w których możemy sięporuszyć z punktu x nie opuszczając W .

Definicja 5.1. Stożkiem kierunków stycznych T (x) do W w punkcie x ∈ clW nazywamy zbiórwektorów d ∈ Rn takich że

d = limk→∞

λk(xk − x)

dla pewnych λk > 0, xk ∈W i xk → x.

Powyższa definicja mówi, iż kierunek d należy do stożka kierunków stycznych T (x), jeśli jeston granicą kierunków wyznaczonych przez ciąg punktów dopuszczalnych (xk) zmierzających tox. Zapisać możemy to formalnie w następujący sposób:

T (x) =d ∈ Rn : d = λ lim

k→∞

xk − x‖xk − x‖

dla pewnych λ ­ 0, (xk) ⊂W oraz xk → x, xk 6= x.

(5.2)Dowód tej tożsamości oraz poniższego lematu pozostawiamy jako ćwiczenie.

Lemat 5.1.1. Zbiór T (x) jest stożkiem, tzn. λd ∈ T (x) dla dowolnych d ∈ T (x) i λ ­ 0. W szczególności,0 ∈ T (x).

2. Jeśli x jest punktem wewnętrznym zbioru W , to T (x) = Rn.3. Stożek T (x) jest domknięty.

Przykład 5.1. Na rysunku 5.1 znajdują się trzy przykłady zbiorów i stożków do nich stycznychw punkcie x. Stożki te są przesunięte o wektor x, by pokazać ich zależność od kształtu zbioru.W przykładzie (a) i (c) zakładamy, że brzeg zbioru W jest gładki, więc stożki te są półprzestrze-niami ograniczonymi przez styczną w x. W przykładzie (b) zbiór W to środek narysowanegostożka (bez brzegu). Wówczas stożek kierunków stycznych jest domknięciem zbioru W .

Jak już wspomnieliśmy, stożek kierunków stycznych jest ściśle związany z rozwiązaniemzagadnienia (5.1). Jeśli w punkcie x ∈ W funkcja f ma minimum lokalne na W , to wówczaskierunki spadku wartości funkcji f nie mogą należeć do zbioru kierunków stycznych w punkciex. Gdyby tak nie było, to poruszając się w kierunku spadku funkcji f zmniejszalibyśmy jejwartość jednocześnie pozostając w zbiorze W . Intuicje te formalizujemy poniżej.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 53: Optymalizacja II

5.1. Stożek kierunków stycznych 53

Rysunek 5.1. Stożki styczne zaczepione w punkcie styczności.

Definicja 5.2. Niech f : X → R będzie różniczkowalna w x ∈ X. Zbiorem kierunków spadkufunkcji f w punkcie x nazywamy

D(x) = d ∈ Rn : Df(x) d < 0.

Twierdzenie 5.1. Niech x będzie rozwiązaniem lokalnym problemu (5.1). Jeśli f jestróżniczkowalna w x, to

D(x) ∩ T (x) = ∅.

Dowód. Weźmy d ∈ T (x). Wówczas d = limk→∞ λk(xk− x) dla pewnego ciągu punktów (xk) ⊂W zbieżnego do x oraz ciągu liczb (λk) ⊂ (0,∞). Z definicji różniczkowalności f w x mamy

f(xk) = f(x) +Df(x)(xk − x) + o(‖xk − x‖).

Z faktu, że x jest rozwiązaniem lokalnym f(xk) ­ f(x) dla dostatecznie dużych k. W połączeniuz powyższym wzorem daje to następujące oszacowanie:

0 ¬ f(xk)− f(x) = Df(x)(xk − x) + o(‖xk − x‖).

Mnożąc obie strony powyższej nierówności przez λk dostajemy

0 ¬ Df(x)(λk(xk − x)

)+ λko(‖xk − x‖).

Zrobimy teraz sztuczkę, aby rozwiązać problem z o(‖xk − x‖) i przejdziemy z k to nieskończo-ności:

0 ¬ Df(x)(λk(xk − x)

)︸ ︷︷ ︸→d

+ λk‖xk − x‖︸ ︷︷ ︸→‖d‖

o(‖xk − x‖)‖xk − x‖︸ ︷︷ ︸→0

.

Udowodniliśmy zatem, że Df(x)d ­ 0, czyli d /∈ D(x). Kończy to dowód twierdzenia.

Page 54: Optymalizacja II

54 5. Warunek konieczny I rzędu

Przykład 5.2. Rozważmy następujący problem optymalizacyjny:

x2

1 + x22 → min,

x1 + x2 ­ 1.

Oznaczmy f(x1, x2) = x21 + x2

2 i W = x ∈ R2 : x1 + x2 ­ 1. Zbadamy zbiory T (x) i D(x) wnastępujących punktach: [1, 1]T , [1, 0]T , [1

2 ,12 ]T .

— x = [1, 1]T . Punkt ten leży wewnątrz zbioru W , czyli T (x) = R2. Zbiór kierunków spadkufunkcji f dany jest następująco:

D(x) =d ∈ R2 : Df(x)d < 0

=d ∈ R2 : [2, 2]d < 0

=d ∈ R2 : d1 + d2 < 0

.

W oczywisty sposób część wspólna powyższych zbiorów nie jest pusta, czyli w punkcie [1, 1]T

nie ma minimum.— x = [1, 0]T . Punkt ten leży na brzegu zbioru W . Łatwo można zauważyć, że

T (x) =d ∈ R2 : d1 + d2 ­ 0

, D(x) =

d ∈ R2 : d1 < 0

.

Zbiory te mają niepuste przecięcie (patrz podwójna kratka na rys. 5.2), więc w punkcie

Rysunek 5.2. Stożek kierunków stycznych i stożek kierunków spadku w punkcie x = [1, 0]T .

[1, 0]T nie ma minimum.— x = [1

2 ,12 ]T . Zauważmy, że

T (x) =d ∈ R2 : d1+d2 ­ 0

, D(x) =

d ∈ R2 : [1, 1]d < 0

=d ∈ R2 : d1+d2 < 0

.

Zbiory te mają zatem puste przecięcie, więc w punkcie [12 ,

12 ]T może być minimum.

Bezpośrednie wykorzystanie twierdzenia 5.1 do szukania kandydatów na rozwiązania zadańz ograniczeniami nie wygląda zachęcająco. Dlatego postaramy się opisać prościej zbiór T (x)oraz warunek T (x) ∩D(x) = ∅.

Page 55: Optymalizacja II

5.2. Ograniczenia nierównościowe 55

5.2. Ograniczenia nierównościowe

Zajmiemy się problemem optymalizacyjnym w następującej formie:f(x)→ min,

gi(x) ¬ 0, i = 1, . . . ,m,

x ∈ X,(5.3)

gdzie X ⊂ Rn jest zbiorem otwartym i f, g1, . . . , gm : X→ R. A zatem

W =x ∈ X : g1(x) ¬ 0, . . . , gm(x) ¬ 0

. (5.4)

Funkcje gi nazywane są ograniczeniami nierównościowymi, zaś cały problem (5.3) zadaniemoptymalizacyjnym z ograniczeniami nierównościowymi.

Ustalmy x ∈W i załóżmy, że funkcje gi są ciągłe. Wówczas ruch wokół x ograniczają lokalnietylko te warunki, dla których gi(x) = 0. W przypadku pozostałych, z ciągłości gi wynika, iżistnieje pewne otoczenie x, na którym mamy gi < 0. Okazuje się, że ta obserwacja będzie pełnićważną rolę w procesie optymalizacji z ograniczeniami nierównościowymi.

Definicja 5.3. Zbiorem ograniczeń aktywnych w punkcie x ∈W nazywamy zbiór

I(x) =i ∈ 1, 2, . . . ,m : gi(x) = 0

.

Głównym wynikiem tego rozdziału będzie powiązanie własności ograniczeń aktywnych wdanym punkcie x ∈ W z lokalną geometrią tego zbioru wokół x. W tym celu wprowadźmynastępującą definicję.

Definicja 5.4. Niech x ∈ W i gi różniczkowalne w x dla ograniczeń aktywnych i ∈ I(x).Stożkiem kierunków stycznych dla ograniczeń zlinearyzowanych nazywamy zbiór

Tlin(x) =d ∈ Rn : ∀i ∈ I(x) Dgi(x)d ¬ 0

.

Stożek kierunków stycznych dla ograniczeń zlinearyzowanych jest zbiorem wielościennym, azatem wypukłym i domkniętym.

Lemat 5.2. Jeśli x ∈W , toT (x) ⊂ Tlin(x).

Dowód. Dowód przebiega bardzo podobnie do dowodu twierdzenia 5.1. Weźmy d ∈ T (x). Wów-czas d = limk→∞ λk(xk − x) dla pewnego ciągu punktów (xk) ⊂ W zbieżnego do x oraz ciąguliczb dodatnich (λk). Ustalmy i ∈ I(x). Z definicji różniczkowalności gi w x mamy

gi(xk) = gi(x) +Dgi(x)(xk − x) + o(‖xk − x‖).

Ograniczenie i-te jest aktywne w x. Zatem gi(x) = 0. Oczywiście, gi(xk) ¬ 0, ponieważ xk ∈W .W połączeniu w powyższym wzorem daje to następujące oszacowanie:

0 ­ gi(xk)− gi(x) = Dgi(x)(xk − x) + o(‖xk − x‖).

Mnożąc obie strony powyższej nierówności przez λk dostajemy

0 ­ Dgi(x)(λk(xk − x)

)+ λko(‖xk − x‖).

Zrobimy teraz sztuczkę, aby rozwiązać problem o(‖xk−x‖) i przejdziemy z k to nieskończoności:

0 ­ Dgi(x)(λk(xk − x)

)︸ ︷︷ ︸→d

+ λk‖xk − x‖︸ ︷︷ ︸→‖d‖

o(‖xk − x‖)‖xk − x‖︸ ︷︷ ︸→0

.

Udowodniliśmy zatem, że Dgi(x)d ¬ 0. Analogicznie wynik otrzymujemy dla każdego ograni-czenia aktywnego i ∈ I(x). A zatem d ∈ Tlin(x).

Page 56: Optymalizacja II

56 5. Warunek konieczny I rzędu

Rysunek 5.3. Zbiór punktów dopuszczalnych (zaznaczony na szaro) z przykładu 5.3.

Przykład 5.3. Rozważmy zbiór W = x ∈ R2 : x21 + x2

2 ¬ 1, x2 ­ 0, patrz rysunek 5.3.Zapiszmy go w kanonicznej formie (5.4):

X = Rn, g1(x1, x2) = x21 + x2

2, g2(x1, x2) = −x2.

Zbadajmy trzy punktu tego zbioru (12 ,

12), (0, 1) i (1, 0).

— x = (12 ,

12): I(x) = ∅ i T (x) = Tlin = Rn.

— x = (0, 1): I(x) = 1, T (x) = d ∈ Rn : d2 ¬ 0,

Tlin(x) = d ∈ R2 : Dg1(0, 1)d ¬ 0 = d ∈ R2 : [0, 2]d ¬ 0 = T (x).

— x = (1, 0): I(x) = 1, 2, T (x) = d ∈ Rn : d1 ¬ 0, d2 ­ 0,

Tlin(x) = d ∈ R2 : Dg1(1, 0)d ¬ 0, Dg2(1, 0)d ¬ 0= d ∈ R2 : [2, 0]d ¬ 0, [0,−1]d ¬ 0 = T (x).

Przykład 5.4. Rozważmy ten sam zbiór W co w powyższym przykładzie, lecz zapiszmy gonieco inaczej:

W = x ∈ R2 : x21 + x2

2 ¬ 1, x32 ­ 0.

Zmianie uległo drugie ograniczenie: z x2 ­ 0 na x32 ­ 0. Nowy opis zbioru W odpowiada

ograniczeniom g1(x1, x2) = x21 + x2

2, g2(x1, x2) = −x32. Rozważmy zbiory T (x) i Tlin(x) w

punkcie x = (0, 1). Stożek kierunków stycznych jest identyczny, gdyż zbiór się nie zmienił:

T (x) = d ∈ Rn : d1 ¬ 0, d2 ­ 0.

Natomiast stożek kierunków stycznych dla ograniczeń zlinearyzowanych jest następujący:

Tlin(x) = d ∈ R2 : Dg1(1, 0)d ¬ 0, Dg2(1, 0)d ¬ 0= d ∈ R2 : [2, 0]d ¬ 0, [0, 0]d ¬ 0= d ∈ R2 : d1 ¬ 0.

Widzimy zatem, że nie zawsze zachodzi równość pomiędzy T (x) i Tlin(x).

Page 57: Optymalizacja II

5.3. Warunki konieczne Kuhna-Tuckera 57

5.3. Warunki konieczne Kuhna-Tuckera

W lemacie 5.2 wykazaliśmy, że T (x) ⊂ Tlin(x). Pokazaliśmy w przykładach, że dość częstomamy równość tych dwóch zbiorów. Okazuje się, że to bardzo ważna własność, która będziepunktem wyjścia dla całej teorii optymalizacji nieliniowej Kuhna-Tucker’a. Zanim jednak przej-dziemy do głównego twierdzenia dowiedziemy pomocniczy, lecz bardzo ważny lemat.

Lemat 5.3 (Farkas (1901)). Niech A będzie macierzą m × n i d ∈ Rn. Wówczas dokładniejeden z układów ma rozwiązanie:

(1)

Ax ¬ 0,

dTx > 0,

x ∈ Rn,

(2)

ATy = d,

y ­ 0,

y ∈ Rm.

Dowód. Pokażemy najpierw, że jeśli układ (2) ma rozwiązanie, to układ (1) go nie ma. Weźmyzatem y spełniające (2). Zatem d = ATy. Wstawiamy to do układu (1) i otrzymujemy

Ax ¬ 0,

yTAx > 0.

Pierwsza nierówność oznacza, że każda współrzędna wektora Ax jest niedodatnia. Ponieważwspółrzędne y są nieujemne, to iloczyn skalarny yT (Ax) jest niedodatni. Przeczy to drugiejnierówności, a zatem dowodzi, że (1) nie ma rozwiązania.

Załóżmy teraz, że układ (2) nie ma rozwiązania. Zdefiniujmy zbiór

V = x ∈ Rn : x = ATy dla pewnego y ∈ Rm, y ­ 0.

Łatwo sprawdzić, że jest to zbiór wypukły i domknięty. Z faktu, że układ (2) nie ma rozwiązaniawynika, że d /∈ V . Zastosujmy więc mocne twierdzenia o oddzielaniu, tw. 3.2 do zbiorów V iU = d. Istnieje więc wektor a ∈ Rn taki że

aTd > supx∈V

aTx.

Pokażemy, że x = a jest rozwiązaniem układu (1). Oznaczmy α = supx∈V xTx. Ponieważ0 ∈ V , to α ­ 0, co pociąga dT x > 0. Pozostaje tylko udowodnić, że Ax ¬ 0. Przypuśćmy,że i-ta współrzędna Ax jest dodatnia. Z definicji zbioru V wynika, że dla dowolnego y ­ 0zachodzi α ­ xTATy = yTAx. Zdefiniujmy ciąg yn = [0, . . . , 0, n, 0, . . . , 0]T , gdzie n jest nai-tej współrzędnej. Na mocy założenia o dodatniości (Ax)i dostajemy

limn→∞

yTnAx = limn→∞

n(Ax)i =∞,

co przeczy temu, że yTnAx ¬ α. Sprzeczność ta dowodzi, że Ax ¬ 0.

Twierdzenie 5.2 (Twierdzenie Kuhna-Tuckera). Niech x będzie rozwiązaniem lokal-nym (5.3). Jeśli funkcje f oraz gi, i ∈ I(x), są różniczkowalne w x oraz T (x) = Tlin(x),to istnieje µ ∈ [0,∞)m, takie że

Df(x) +∑i∈I(x) µiDgi(x) = 0T ,

µigi(x) = 0, i = 1, 2, . . . ,m.(5.5)

Page 58: Optymalizacja II

58 5. Warunek konieczny I rzędu

Często tezę powyższego twierdzenia zapisuje się biorąc sumę po wszystkich i = 1, . . . ,m:Df(x) +

∑mi=1 µiDgi(x) = 0T ,

µigi(x) = 0, i = 1, 2, . . . ,m.

Jest to naginanie notacji, gdyż funkcje opisujące ograniczenia nieaktywne nie muszą być róż-niczkowalne w punkcie x. Z drugiej strony są one mnożone przez zerowe współczynniki µi. Jestto pewne usprawiedliwienie powyższej notacji, którą należy rozumieć tak, jak zapisane zostałow twierdzeniu 5.2.

Dowód twierdzenia 5.2. Na mocy twierdzenia 5.1 mamy D(x) ∩ T (x) = ∅. Dalej, korzystając zzałożenia, dostajemy D(x) ∩ Tlin(x) = ∅, co innymi słowy oznacza, że nie istnieje rozwiązaniez ∈ Rn układu

Df(x)z < 0,

Dgi(x)z ¬ 0, i ∈ I(x).

Stosujemy lemat Farkasa z d = −(Df(x)

)T i macierzą A złożoną wierszowo z gradientówograniczeń aktywnych Dgi(x), i ∈ I(x). Istnieje zatem y ∈ [0,∞)|I(x)| takie że yTA = −Df(x)lub inaczej

Df(x) + yTA = 0T .

Zdefiniujmy µ ∈ [0,∞)m następująco: (µi)i∈I(x) = y i (µi)i/∈I(x) = 0. Wówczas powyższa równośćjest równoważna następującej

Df(x) +m∑

i∈I(x)µiDgi(x) = 0T .

Z definicji µi oczywiste jest, że µigi(x) = 0.

Uwaga 5.1. Założenia twierdzenia Kuhna-Tuckera są trywialnie spełnione, gdy x ∈ intW , tzn.gdy I(x) = ∅. Wówczas warunki (5.5) sprowadzają się do

Df(x) = 0T , µ = 0.

Na zakończenie zwróćmy jeszcze raz uwagę na tezę twierdzenia Kuhna-Tuckera. Warun-ki (5.5) nazywane są warunkami koniecznymi pierwszego rzędu. Wektor µ będzie pojawiał sięjeszcze wiele razy na tym wykładzie. Nadajmy mu zatem nazwę:

Definicja 5.5. Wektor µ spełniający (5.5) nazywa się wektorem mnożników Lagrange’a wpunkcie x.

5.4. Zadania

Ćwiczenie 5.1. Wykaż, że zbiór T (x) dla x ∈ clW jest stożkiem.

Ćwiczenie 5.2. Udowodnij, że stożek kierunków stycznych T (x) jest zbiorem domkniętym.

Ćwiczenie 5.3. Udowodnij tożsamość (5.2).

Ćwiczenie 5.4. Znajdź stożek kierunków stycznych do zbioru W w punkcie x = 0, gdy1. W = (x1, x2) ∈ R2 : x2 ­ −x3

1,2. W = (x1, x2) ∈ R2 : x1 ∈ Z, x2 = 0,3. W = (x1, x2) ∈ R2 : x1 ∈ Q, x2 = 0.

Page 59: Optymalizacja II

5.4. Zadania 59

Ćwiczenie 5.5. Udowodnić, że dla zadaniaf(x)→ min,

gi(x) ¬ 0, i = 1, . . . ,m,

xi ­ 0, i = 1, . . . , n,

warunek konieczny pierwszego rzędu przyjmuje postać:

Df(x) +∑i∈I(x) µiDgi(x) ­ 0T ,(

Df(x) +∑i∈I(x) µiDgi(x)

)x = 0,

µigi(x) = 0, i = 1, . . . ,m,

µi ­ 0, i = 1, . . . ,m.

Nierówność dla wektorów oznacza nierówność po współrzędnych.

Page 60: Optymalizacja II

6. Warunki regularności i przykłady

W tym rozdziale podamy warunki dostateczne równości stożka kierunków stycznych T (x)i stożka kierunków stycznych dla ograniczeń zlinearyzowanych Tlin(x). Przypomnijmy, że jestto główne założenie twierdzenia Kuhna-Tuckera, tw. 5.2, opisującego warunek konieczny pierw-szego rzędu dla lokalnego rozwiązania problemu optymalizacyjnego z ograniczeniami nierówno-ściowymi (5.3).

6.1. Warunki regularności

Sformułujemy teraz trzy warunki dostateczne równości T (x) = Tlin(x), zwane warunkamiregularności. Dowody dostateczności podamy w kolejnych twierdzeniach.

Definicja 6.1. W punkcie x ∈W spełniony jest:— warunek liniowej niezależności, jeśli funkcje gi, i /∈ I(x), są ciągłe w x oraz wektoryDgi(x), dla i ∈ I(x), są liniowo niezależne,

— warunek afiniczności, jeśli funkcje gi, i ∈ I(x), są afiniczne oraz funkcje gi, i /∈ I(x), sąciągłe w x,

— warunek Slatera, jeśli funkcje gi, i ∈ I(x) są pseudowypukłe w x, funkcje gi, i /∈ I(x), sąciągłe w x oraz istnieje x ∈ X, dla którego gi(x) < 0 dla i ∈ I(x).

Zauważmy, że w warunku Slatera nie wymagamy, aby punkt x spełniał warunki ograniczeńnieaktywnych, tzn. x nie musi być w zbiorze W .

Twierdzenie 6.1. Jeśli w punkcie x ∈ W spełniony jest warunek afiniczności, toT (x) = Tlin(x).

Dowód. Zawieranie T (x) ⊂ Tlin(x) wynika z lematu 5.2. Wystarczy zatem wykazać zawieraniew drugą stronę.

Niech d ∈ Tlin(x). Udowodnimy, że istnieje λ∗ > 0, taka że cały odcinek x + λd, λ ∈ [0, λ∗],zawarty jest w W :

x + λd : λ ∈ [0, λ∗)⊂W. (6.1)

Zauważmy, że gi(x) < 0 dla i /∈ I(x). Z ciągłości tych funkcji w x wynika, że istnieje λ∗ > 0,dla której gi(x + λd) ¬ 0, i /∈ I(x), λ ∈ [0, λ∗]. Pozostaje jeszcze wykazać, że nierówność takazachodzi dla ograniczeń aktywnych. Ustalmy i ∈ I(x). Z definicji d wiemy, że Dgi(x)d ¬ 0.Ograniczenie gi jest afiniczne, czyli postaci gi(x) = aTi x + bi, gdzie ai ∈ Rn, bi ∈ R. ZatemDgi(x)d = aTi d. Z faktu, że gi jest aktywne w x dostajemy również 0 = gi(x) = aTi x + bi. Stąddla dowolnego λ ­ 0 mamy

0 ­ λaTi d = λaTi d + aTi x + bi︸ ︷︷ ︸0

= aTi (x + λd) + bi = gi(x + λd).

Dowodzi to (6.1).

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 61: Optymalizacja II

6.1. Warunki regularności 61

Pozostaje już tylko skonstruować ciąg (xk) ⊂W , xk → x i (λk) ⊂ (0,∞). Kładziemy

xk = x +λ∗

kd, λk =

k

λ∗.

Wówczas xk ∈W , xk → x oraz λk(xk − x) = d, czyli trywialnie

limk→∞

λk(xk − x) = d,

a zatem d ∈ T (x).

Przed przystąpieniem do dowodu analogicznych twierdzeń dla pozostałych warunków regu-larności sformułujemy pomocniczy lemat. Wprowadźmy zbiór

Tint(x) =d ∈ Rn : ∀ i ∈ I(x) Dgi(x)d < 0

.

Uwaga 6.1. Zauważmy, że jeśli w punkcie x ∈ W funkcje gi, i ∈ I(x), są różniczkowalne w x,zaś funkcje gi, i /∈ I(x) są ciągłe w x, to d ∈ Tint(x) oznacza, że x+λd ∈ intW dla dostateczniemałych λ > 0.

Lemat 6.1. Niech x ∈ W oraz funkcje gi, i ∈ I(x), są różniczkowalne w x, zaś funkcje gi,i /∈ I(x) są ciągłe w x. Wówczas

I) Tint(x) ⊂ T (x),II) Jeśli Tint(x) 6= ∅, to cl(Tint(x)) = Tlin(x).

Dowód. Dowód (I) zostawiamy jako ćwiczenie. Do dowodu (II) zauważmy, że Tint(x) jest wnę-trzem zbioru Tlin(x). Ponadto Tlin(x) jest zbiorem wielościennym, a zatem wypukłym (patrzlemat 4.5). Zastosowanie lematu 3.2 kończy dowód.

Twierdzenie 6.2. Jeśli w punkcie x ∈ W spełniony jest warunek Slatera, to T (x) =Tlin(x).

Dowód. Pokażemy najpierw, że Tint(x) 6= ∅. Niech x ∈ X taki że gi(x) < 0 dla i ∈ I(x). Zpseudowypukłości gi w punkcie x dostajemy Dgi(x)(x − x) < 0 dla i ∈ I(x), czyli (x − x) ∈Tint(x).

Na mocy lematu 6.1 mamy Tlin(x) = cl(Tint(x)). Udowodniliśmy także, że Tint(x) ⊂ T (x) ⊂Tlin(x) oraz, że T (x) jest domknięty. A zatem Tlin(x) = T (x).

Dowód analogicznego twierdzenia dla warunku liniowej niezależności wymaga pomocniczegolematu w stylu lematu Farkasa. Wynik ten jest jednak wcześniejszy i został uzyskany przezPaul’a Gordana w 1873 roku.

Lemat 6.2 (Gordan, 1873). Niech A będzie macierzą m×n. Wówczas dokładnie jeden z układówma rozwiązanie:

(1)

Ax < 0,

x ∈ Rn,(2)

ATy = 0,

y ­ 0, y 6= 0

y ∈ Rm.

Dowód. Dowód rozpoczniemy od uzasadnienia, że oba te układy nie mogą mieć rozwiązaniajednocześnie. Załóżmy więc przez sprzeczność, że istnieją x,y spełniające (1)-(2). Z faktu, że yrozwiązuje (2), dostajemy, że yTAx = 0. Z drugiej strony x rozwiązuje (1), czyli (Ax)i < 0 dla

Page 62: Optymalizacja II

62 6. Warunki regularności i przykłady

każdego i = 1, . . . , n. Pamiętając, że yj ­ 0, j = 1, . . . ,m, i y 6= 0 mamy yTAx < 0. Dostaliśmywięc sprzeczność, co dowodzi, że nie może istnieć jednocześnie rozwiązanie (1) i (2).

Następnym krokiem dowodu będzie wykazanie, że zawsze któryś z układów ma rozwiązanie.W tym celu udowodnimy, że jeśli układ (1) nie ma rozwiązania, to układ (2) ma rozwiązanie.W tym celu zdefiniujmy następujące zbiory wypukłe:

U = (−∞, 0)m, V = z ∈ Rm : z = Ax dla pewnego x ∈ Rn.

Z faktu, że układ (1) nie ma rozwiązania, wynika, iż zbiory te są rozłączne. Słabe twierdzenieo oddzielaniu implikuje istnienie wektora a ∈ Rm, a 6= 0, takiego że

supz∈U

aT z ¬ infz∈V

aT z.

Wykażemy, że a ­ 0. Przypuśćmy przeciwnie, że istnieje współrzędna ai < 0. Rozważmyciąg zn = [− 1

n ,−1n , . . . ,−n, . . . ,−

1n ]T , gdzie (−n) jest na i-tej pozycji. Wówczas zn ∈ U oraz

limn→∞ aT zn =∞, a zatem dostaliśmy sprzeczność, gdyż supz∈U aT z jest skończone.Wiemy zatem, że wektor a ma wszystkie współrzędne nieujemne. Pociąga to supz∈U aT z = 0.

Weźmy z = A(−ATa). Wówczas z ∈ V , czyli aT z ­ 0. A zatem

0 ¬ aT z = aTA(−ATa) = −‖ATa‖2,

co implikuje, że ‖ATa‖ = 0, czyli ATa = 0. Rozwiązaniem układu (2) jest zatem y = a.

Twierdzenie 6.3. Jeśli w punkcie x ∈ W spełniony jest warunek liniowej niezależ-ności, to T (x) = Tlin(x).

Dowód. Identycznie jak w dowodzie tw. 6.2 wystarczy pokazać, że Tint(x) 6= ∅. Niech A będziemacierzą składającą się z gradientów Dgi(x) ograniczeń aktywnych (jako rzędów). Na mocyliniowej niezależności nie istnieje wektor µ ∈ R|I(x)|, µ 6= 0, o tej własności, że ATµ = 0. Nieistnieje więc rozwiązanie układu (2) w lemacie 6.2. A zatem ma rozwiązanie układ (1), czyliistnieje d ∈ Rn, takie że Ad < 0:

Dgi(x)d < 0, ∀ i ∈ I(x).

Stąd d ∈ Tint(x).

6.2. Przykłady

Przykład 6.1. Rozważmy problem optymalizacji na zbiorze:

W =x ∈ R2 : x2

1 + x22 ¬ 1, x1 + 2x2 ¬ 1, x1 − 3x2 ¬ 1

.

Zbiór X = R2. Ograniczenia są opisane przez trójkę funkcji

g1(x1, x2) = x21 + x2

2 − 1, g2(x1, x2) = x1 + 2x2 − 1, g3(x1, x2) = x1 − 3x2 − 1.

W punkcie x = [1, 0]T wszystkie ograniczenia są aktywne i mamy

Dg1(x) = [2, 0], Dg2(x) = [1, 2], Dg3(x) = [1,−3].

Warunek liniowej niezależności ograniczeń nie jest spełniony w x. Ograniczenia aktywne nie sąrównież afiniczne. Pozostaje zatem sprawdzić warunek Slatera. Wszystkie funkcje ograniczeńsą wypukłe, a więc także pseudowypukłe. W punkcie x = [0, 0]T mamy gi(x) = −1 < 0 dlai = 1, 2, 3. Zachodzi więc warunek Slatera.

Page 63: Optymalizacja II

6.2. Przykłady 63

Przykład 6.2 (Kuhn, Tucker (1951)). Rozważmy zadanie optymalizacyjne:x1 → min,

x2 ¬ x31,

x2 ­ 0,

Rysunek 6.1. Zbiór punktów dopuszczalnych dla przykładu Kuhna-Tuckera.

Zbiór punktów dopuszczalnych W naszkicowany jest na rysunku 6.1. Zapiszmy funkcje opi-sujące ograniczenia:

g1(x1, x2) = −x31 + x2, g2(x1, x2) = −x2.

Zauważmy, że w każdym punkcie dopuszczalnym, poza [0, 0]T , spełniony jest warunek liniowejniezależności. Widać jednak, że rozwiązaniem powyższego problemu optymalizacyjnego jest x =[0, 0]T . Niestety w tym punkcie T (x) 6= Tlin(x):

T (x) =d ∈ R2 : d1 ­ 0, d2 = 0

, Tlin(x) =

d ∈ R2 : d2 = 0

.

Przykład 6.3. Niech A będzie macierzą symetryczną n × n. Rozważmy zadanie optymaliza-cyjne:

xTAx→ max,

‖x‖ ¬ 1,

x ∈ Rn.

Zapiszmy najpierw problem optymalizacyjny w kanonicznej formie. Zauważmy przy tym, żewarunek ‖x‖ ¬ 1 jest równoważny ‖x‖2 = xTx ¬ 1.

−xTAx→ min,

xTx− 1 ¬ 0,

x ∈ Rn.

Page 64: Optymalizacja II

64 6. Warunki regularności i przykłady

Oznaczmy przez W zbiór punktów dopuszczalnych. Zauważmy, że w każdym punkcie dopusz-czalnym spełnione są warunki liniowej niezależności i Slatera. Wynika stąd, że rozwiązanie po-wyższego zadania spełnia warunki konieczne pierwszego rzędu (warunki Kuhna-Tuckera (5.5)).Znajdziemy teraz wszystkie punkty „podejrzane”.

Warunki Kuhna-Tuckera mają następującą postać:−2xTA+ 2µxT = 0T ,

µ(xTx− 1) = 0,

µ ­ 0, x ∈ Rn.

Przypadek xTx− 1 < 0. Wówczas µ = 0 (z powodu drugiego równania) i pierwsze równanieprzyjmuje postać xTA = 0T , którą poprzez transponowanie obu stron sprowadzamy do

Ax = 0.

Równanie to spełnione jest przez wszystkie x ∈ kerA, ‖x‖ < 1. W szczególności ma ono conajmniej jedno rozwiązanie (x = 0).

Przypadek xTx−1 = 0. Teraz nic nie możemy powiedzieć o µ. Może być zerowe lub dodatnie.Pierwsze równanie przyjmuje jednak postać µxT = xTA, które po stransponowaniu wyglądanastępująco:

µx = Ax.

Rozwiązaniami są zatem wektory własne (x) odpowiadające nieujemnym wartościom własnym(µ). Zbiór rozwiązań może być pusty, jeśli wszystkie wartości własne są ujemne.

Podsumowując, zbiór punktów podejrzanych, czyli punktów, w których spełniony jest wa-runek konieczny pierwszego rzędu, ma postać:

x ∈ kerA : ‖x‖ < 1

∪x ∈ R2 : ‖x‖ = 1 oraz x jest wektorem własnym A dla nieujemnej wartości własnej

.

Na obecnym etapie nie mamy żadnej techniki pozwalającej na znalezienie rozwiązania. Możemytylko posłużyć się zdrowym rozsądkiem. Otóż, jeśli x ∈ kerA, to wartość funkcji celu xTAxjest zerowa. Dla dowolnego elementu drugiego zbioru, wartość funkcji celu jest równa wartościwłasnej. Możemy zatem wyciągnąć następujący wniosek: jeśli maksymalna wartość własna jestdodatnia, to każdy wektor jej odpowiadający jest rozwiązaniem globalnym. Jeśli macierz Anie ma wartości własnych większych od zera, to rozwiązaniem jest dowolny punkt z jądra A onormie nie większej niż 1.

6.3. Zadania

Ćwiczenie 6.1. Uzasadnij prawdziwość stwierdzenia umieszczonego w uwadze 6.1, by późniejudowodnić, że Tint(x) ⊂ T (x), gdzie Tint(x) zdefiniowane jest w lemacie 6.1.

Ćwiczenie 6.2. Przez ”punkty podejrzane” problemu optymalizacyjnego rozumiemy takiepunkty dopuszczalne, w których nie są spełnione warunki regularności albo spełnione są warunkikonieczne pierwszego rzędu. Znajdź wszystkie punkty podejrzane dla następującego problemuoptymalizacyjnego:

x2 − 6x+ y2 + 2y → min,

x+ 2y − 10 = 0,

25− x2 − y2 ­ 0.

Czy w którymś z nich jest rozwiązanie? Jeśli tak, to w którym? Odpowiedź uzasadnij.

Page 65: Optymalizacja II

6.3. Zadania 65

Ćwiczenie 6.3. Znajdź zbiór rozwiązań problemu optymalizacyjnego∑ni=1 cix

2i → min,∑n

i=1 xi = b,

gdzie b, (ci) > 0. Uzasadnij, że są to wszystkie rozwiązania.

Ćwiczenie 6.4. Znajdź rozwiązania globalne problemu optymalizacyjnegox2

1 + 3x22 − x1 → min,

x21 − x2 ¬ 1,

x1 + x2 ­ 1.

Ćwiczenie 6.5. Znajdź minima i maksima globalne funkcji

f(x1, x2) = 4x21 + 2x2

2 − 6x1x2 + x1

na zbiorze

W =(x1, x2) ∈ R2 : −2x1 + 2x2 ­ 1, 2x1 − x2 ¬ 0, x1 ¬ 0, x2 ­ 0

.

Page 66: Optymalizacja II

7. Funkcje quasi-wypukłe i warunki dostateczne

Mogliśmy już zaobserwować na kilku przykładach, że wypukłość znacznie ułatwia rozwiązy-wanie problemów optymalizacyjnych. W rozdziale 3 zauważyliśmy, że warunkiem koniecznymi dostatecznym minimum funkcji wypukłej jest zerowanie się pochodnej. Później wykazaliśmy,że identyczny warunek zachodzi dla większej rodziny funkcji: funkcji pseudowypukłych. W roz-dziale 4 zajmowaliśmy się maksymalizacją funkcji wypukłej na zbiorze wypukłym i zwartym.Udowodniliśmy, że maksimum jest przyjmowane w jednym z punktów ekstremalnych tego zbio-ru. W tym rozdziale rozszerzymy rodzinę funkcji, dla których jest to prawdą; wprowadzimywłasność quasi-wypukłości.

Patrząc na powyższą listę można się domyślać, że wypukłość może również pomagać przyrozwiązywaniu zadań z ograniczeniami nierównościowymi. Jeśli założymy, że funkcje gi, opisu-jące ograniczenia nierównościowe, są wypukłe lub, ogólniej, quasi-wypukłe oraz funkcja f jestpseudowypukła, to spełnienie warunku pierwszego rzędu w pewnym punkcie x jest wystarcza-jące, by stwierdzić jego optymalność. Dowód powyższego faktu przytoczymy pod koniec tegorozdziału.

7.1. Quasi-wypukłość

W tym podrozdziale rozszerzymy rodzinę funkcji, dla których maksimum znajduje się wpunktach ekstremalnych dziedziny.

Definicja 7.1. Niech W ⊂ Rn będzie zbiorem wypukłym, zaś f : W → R.Funkcję f nazywamy quasi-wypukłą, jeśli dla dowolnych x,y ∈W i λ ∈ [0, 1] mamy

f(λx + (1− λ)y

)¬ max

(f(x), f(y)

).

Funkcję f nazywamy quasi-wklęsłą, jeśli funkcja (−f) jest quasi-wypukła, tzn. dla dowolnychx,y ∈W i λ ∈ [0, 1] zachodzi

f(λx + (1− λ)y

)­ min

(f(x), f(y)

).

Funkcję f nazywamy quasi-liniową, jeśli jest ona jednocześnie quasi-wypukła i quasi-wklęsła.

Na rys. 7.1 pokazane są przykłady jednowymiarowych funkcji quasi-wypukłych i quasi-wklęsłych.Zwróćmy uwagę na to, że funkcje takie nie muszą być ciągłe, nie mówiąc już o różniczkowalności.Ciekawym jest również uogólnienie rodziny funkcji afinicznych do funkcji quasi-liniowych, patrzrys. 7.2.

Przykład 7.1. Funkcja afiniczna jest quasi-liniowa. Rzeczywiście, niech f(x) = aTx + b dlaa ∈ Rn i b ∈ R. Wówczas dla dowolnych x,y ∈W i λ ∈ [0, 1] mamy

f(λx + (1− λ)y

)= λf(x) + (1− λ)f(y).

Prawa strona jest oczywiście nie mniejsza od minimum z f(x) i f(y) i nie większa od maksimumtych liczb, czyli f jest zarówno quasi-wypukła jak i quasi-wklęsła.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 67: Optymalizacja II

7.1. Quasi-wypukłość 67

Rysunek 7.1. Przykłady funkcji quasi-wypukłych i quasi-wklęsłych.

Przypomnijmy, że zbiorem poziomicowym funkcji f : W → R nazywamy zbiór

Wα(f) =x ∈W : f(x) ¬ α

, α ∈ R.

Page 68: Optymalizacja II

68 7. Funkcje quasi-wypukłe i warunki dostateczne

Rysunek 7.2. Przykłady funkcji quasi-liniowych.

Twierdzenie 7.1. Niech f : W → R, gdzie W ⊂ Rn wypukły. Wówczas funkcja fjest quasi-wypukła wtw, gdy zbiór poziomicowy Wα(f) jest wypukły dla każdego α ∈ R.

Dowód. Załóżmy, że funkcja f jest quasi-wypukła i ustalmy α ∈ R. Niech x,y ∈Wα(f). Wów-czas f(x) ¬ α i f(y) ¬ α. Dla dowolnego λ ∈ (0, 1) dostajemy

f(λx + (1− λ)y

)¬ max

(f(x), f(y)

)¬ α.

Wnioskujemy stąd, że λx + (1− λ)y ∈Wα(f), czyli Wα(f) jest zbiorem wypukłym.Załóżmy teraz, że Wα(f) jest wypukły dla każdego α ∈ R. Ustalmy x,y ∈ W oraz λ ∈

(0, 1). Na mocy założenia zbiór Wα(f) jest wypukły dla α = max(f(x), f(y)

). Wynika stąd, że

λx + (1− λ)y ∈Wα(f), czyli

f(λx + (1− λ)y

)¬ α = max

(f(x), f(y)

).

Uwaga 7.1. Analogiczne twierdzenie dla funkcji wypukłej, tw. 3.5, brzmiało: funkcja f jestwypukła wtw, gdy jej epigraf jest zbiorem wypukłym.

Wniosek 7.1. Funkcja wypukła jest quasi-wypukła.

Dowód. Wynika to wprost z twierdzeń 3.6 i 7.1.

Twierdzenie przeciwne nie jest prawdziwe. Poniżej podajemy przykład funkcji quasi-wypukłej,która nie jest wypukła.

Przykład 7.2. Funkcja f(x) = −ex2 , dla x ­ 0, jest quasi-wypukła choć jest ściśle wklęsła.Dla α ­ −1 zbiór Wα(f) = [0,∞), zaś dla α < −1 mamy Wα(f) = [

√log(−α),∞). Wszystkie

te zbiory są wypukłe, więc na mocy twierdzenia 7.1 funkcja f jest quasi-wypukła. W podobnysposób możemy także pokazać, że funkcja f jest quasi-wklęsła, a zatem quasi-liniowa.

Przykład 7.3. Funkcja f(x) = −ex, x ∈ R, jest ściśle wklęsła a zarazem quasi-liniowa (czyli,między innymi, quasi-wypukła).

Page 69: Optymalizacja II

7.1. Quasi-wypukłość 69

Przykład 7.4. Funkcja f(x) = x2 jest quasi-wypukła, lecz nie jest quasi-wklęsła. Quasi-wypukłośćwynika z wypukłości f . Quasi-wklęsłość badamy rozpatrując zbiory poziomicowe funkcji (−f).Dla α < 0 mamy Wα(−f) = (−∞,−

√−α]∪ [

√−α,∞). Nie jest to zbiór wypukły, czyli funkcja

(−f) nie jest quasi-wypukła.

Dowód poniższego lematu pozostawiamy jako zadanie.

Lemat 7.1. Funkcja f : W → R, W ⊂ Rn wypukły, jest quasi-liniowa wtw, gdy jej obcięcie dodowolnego odcinka jest funkcją monotoniczną.

Na mocy tego lematu możemy od razu zauważyć, że funkcja z przykładu 7.2 jest quasi-liniowa.Okazuje się, że istnieją funkcje quasi-wypukłe jednej zmiennej, które nie są ani wypukłe ani

monotoniczne.

Przykład 7.5. Funkcja f(x) = e−x2

jest quasi-wypukła. Mamy następujące zbiory poziomicowew zależności od α:

Wα(f) = ∅, α ¬ 0,

Wα(f) =[−√− log(−α),

√− log(−α)], α ∈ (0, 1],

Wα(f) = R, α > 1.

Wszystkie te zbiory są wypukłe, czyli na mocy tw. 7.1 funkcja f jest quasi-wypukła.

Na koniec podamy przykład funkcji quasi-wypukłej wielu zmiennych, która nie jest wypukła.

Przykład 7.6. Funkcja f : [0,∞)2 → R zadana wzorem f(x1, x2) = −x1x2 jest quasi-wypukła.Jej zbiory poziomicowe dla α ­ 0 są trywialne: Wα(f) = [0,∞)2, zaś dla α < 0 mają formęprzedstawioną na rysunku 7.3. Funkcja f nie jest ani wypukła ani wklęsła, gdyż jej hesjan mawartości własne −1 i 1.

Rysunek 7.3. Zbiór poziomicowy dla funkcji z przykładu 7.6.

Page 70: Optymalizacja II

70 7. Funkcje quasi-wypukłe i warunki dostateczne

Przykład 7.7. Niech a, c ∈ Rn i b, d ∈ R. Połóżmy D = x ∈ Rn : cTx + d > 0. Wówczasfunkcja wymierna f : D → R

f(x) =aTx + b

cTx + d

jest quasi-liniowa. Dowód pozostawiamy jako ćwiczenie.

Zbadamy teraz własności różniczkowalnych funkcji quasi-wypukłych.

Twierdzenie 7.2. Niech f : W → R dla wypukłego zbioru W ⊂ Rn.I) Jeśli funkcja f jest quasi-wypukła i różniczkowalna w y ∈W , to

∀ x ∈W f(x) ¬ f(y) =⇒ Df(y)(x− y) ¬ 0.

II) Załóżmy, że funkcja f jest różniczkowalna w każdym punkcie W . Wówczas fjest quasi-wypukła wtw, gdy zachodzi następujący warunek:

∀ x,y ∈W f(x) ¬ f(y) =⇒ Df(y)(x− y) ¬ 0.

Uwaga 7.2. 1. Implikacja f(x) ¬ f(y) =⇒ Df(x)(x− y) ¬ 0 ma równoważną postać:

Df(y)(x− y) > 0 =⇒ f(x) > f(y).

2. Jeśli funkcja f jest quasi-liniowa i f(x) = f(y), to Df(y)(x− y) = 0.

Dowód tw. 7.2. (I): Ustalmy x,y ∈W , dla których zachodzi warunek f(x) ¬ f(y). Dla każdegoλ ∈ (0, 1) mamy

f(y + λ(x− y)

)= f

(λx + (1− λ)y

)¬ max

(f(x), f(y)

)= f(y).

Wynika stąd, żef(y + λ(x− y)

)− f(y)

λ¬ 0.

Z definicji pochodnej kierunkowej dostajemy

Df(y)(x− y) = limλ↓0

f(y + λ(x− y)

)− f(y)

λ¬ 0.

Dowód (II) pozostawiamy jako niełatwe ćwiczenie.

Wiemy już, że funkcja wypukła jest quasi-wypukła. Okazuje się, że również funkcja pseudo-wypukła jest quasi-wypukła.

Twierdzenie 7.3. Jeśli f : W → R określona na zbiorze wypukłym W ⊂ Rn jestpseudowypukła, to f jest quasi-wypukła.

Dowód. Zakładając, że funkcja f nie jest quasi-wypukła doprowadzimy do sprzeczności z pseu-dowypukłością. Weźmy więc punkty x,y ∈W oraz λ ∈ (0, 1) spełniające

f(λx + (1− λ)y

)> max

(f(x), f(y)

).

Page 71: Optymalizacja II

7.2. Maksymalizacja funkcji quasi-wypukłej 71

Oznaczmy z = λx + (1 − λ)y. Na mocy pseudowypukłości (wykorzystujemy tu warunek pseu-dowypukłości zapisany w uwadze 4.3) dostajemy:

f(x) < f(z) =⇒ Df(z)(x− z) < 0,

f(y) < f(z) =⇒ Df(z)(y − z) < 0.

Wektory (x− z) i (y− z) mają ten sam kierunek lecz przeciwne zwroty. Pochodna f w punkciez nie może być ujemna w obu kierunkach. Sprzeczność.

Twierdzenie odwrotne nie jest prawdziwe. Możemy jednak podać warunek dostateczny, przyktórym funkcja quasi-wypukła jest pseudowypukła.

Twierdzenie 7.4. Niech f : W → R określona na zbiorze wypukłym otwartym W ⊂Rn będzie quasi-wypukła i ciągła. Jeśli f jest różniczkowalna w x ∈ W oraz Df(x) 6=0T , to f jest pseudowypukła w x.

Dowód. Musimy pokazać, że dla każdego y ∈ W warunek Df(x)(y − x) ­ 0 pociąga f(y) ­f(x). Oznaczmy przez A przestrzeń afiniczną prostopadłą do Df(x) i przechodzącą przez x:

A =x ∈ Rn : Df(x) (x− x) = 0

.

Z warunku, że Df(x) 6= 0T wynika, że przestrzeń A ma wymiar n − 1, czyli jest właściwąhiperpłaszczyzną w Rn.

Zauważmy najpierw, że jeśli y ∈ W \ A i Df(x)(y − x) ­ 0, to pochodna kierunkowajest ściśle dodatnia: Df(x)(y − x) > 0. Na mocy uwagi 7.2 wnioskujemy, że f(y) > f(x),czyli to, co mieliśmy wykazać. Ustalmy teraz punkt y ∈ W ∩ A. Z otwartości W i z tego,że A jest hiperpłaszczyzną wynika, że istnieje ciąg punktów (yn) ⊂ W \ A zmierzający doy i taki że Df(x)yn > 0. Zatem f(yn) > f(x). Korzystając z ciągłości funkcji f dostajemyf(y) ­ f(x).

7.2. Maksymalizacja funkcji quasi-wypukłej

Jak zostało zasygnalizowane wcześniej, funkcja quasi-wypukła zachowuje się podobnie jakfunkcja wypukła przy maksymalizacji na zbiorze wypukłym zwartym. Dla pełności przytoczymydowód, który jest prawie identyczny jak dowód twierdzenia 4.5.

Twierdzenie 7.5. Niech f : W → R quasi-wypukła, ciągła, określona na wypukłymi zwartym zbiorze W ⊂ Rn. Wówczas punkt ekstremalny zbioru W jest jednym z roz-wiązań globalnych problemu

f(x)→ max,

x ∈W.

Dowód. Funkcja ciągła osiąga swoje kresy na zbiorze zwartym. Powyższy problem maksyma-lizacyjny ma zatem rozwiązanie x ∈ W . Na mocy tw. 4.4 punkt x jest kombinacją wypukłąskończonej liczby punktów ekstremalnych, x1, . . . ,xm, zbioru W , tzn.

x = a1x1 + a2x2 + . . .+ amxm

Page 72: Optymalizacja II

72 7. Funkcje quasi-wypukłe i warunki dostateczne

dla liczb a1, . . . , am > 0 takich że a1 + . . .+ am = 1. Z quasi-wypukłości f dostajemy

f(x) ¬ max(f(x1), . . . , f(xm)

).

Ponieważ w punkcie x jest maksimum f na zbiorze W , to dla któregoś z punktów xi zachodzirówność f(xi) = f(x).

7.3. Warunki dostateczne

Zajmiemy się problemem optymalizacyjnym, w którym występują zarówno ograniczenia nie-równościowe jak i równościowe:

f(x)→ min,

gi(x) ¬ 0, i = 1, . . . ,m,

hj(x) = 0, j = 1, . . . , l,

x ∈ X,

(7.1)

gdzie X ⊂ Rn jest zbiorem otwartym i f, g1, . . . , gm, h1, . . . , hl : X→ R. A zatem zbiór punktówdopuszczalnych zadany jest następująco:

W =x ∈ X : g1(x) ¬ 0, . . . , gm(x) ¬ 0, h1(x) = 0, . . . , hl(x) = 0

. (7.2)

Funkcje gi nazywane są ograniczeniami nierównościowymi, funkcje hj są ograniczeniami rów-nościowymi, zaś cały problem (7.1) nazywa się zadaniem optymalizacyjnym z ograniczeniamimieszanymi.

Podamy teraz warunki dostateczne, by punkt spełniający warunki pierwszego rzędu byłrozwiązaniem globalnym.

Twierdzenie 7.6. Rozważmy problem optymalizacyjny w kanonicznej formie (7.1) ipunkt x ∈W . Załóżmy, że

— funkcje gi, i /∈ I(x) są ciągłe w x, funkcje gi, i ∈ I(x) są różniczkowalne w x iquasi-wypukłe,

— funkcje hj, j = 1, . . . ,m, są quasi-liniowe i różniczkowalne w x,— funkcja f jest pseudowypukła w x.

Jeśli istnieją stałe µ ∈ [0,∞)m oraz λ ∈ Rl spełniające warunek pierwszego rzędu:Df(x) +

∑i∈I(x) µiDgi(x) +

∑lj=1 λjDhj(x) = 0T ,

µigi(x) = 0, i = 1, . . . ,m,(7.3)

to punkt x jest rozwiązaniem globalnym.

Dowód. Ustalmy dowolny punkt dopuszczalny x ∈ W i pomnóżmy obie strony pierwszegorównania w warunku (7.3) przez (x− x):

Df(x)(x− x) +∑i∈I(x)

µiDgi(x)(x− x) +l∑

j=1

λjDhj(x)(x− x) = 0.

Page 73: Optymalizacja II

7.4. Zadania 73

Na mocy tw. 7.2 mamy Dhj(x)(x− x) = 0 dla każdego j, bo hj(x) = hj(x) = 0. To samo twier-dzenie implikuje, że Dgi(x)(x− x) ¬ 0 dla i ∈ I(x), ponieważ 0 = gi(x) ­ gi(x). Korzystając ztych obserwacji wnioskujemy z powyższego równania, że

Df(x)(x− x) ­ 0.

Z definicji funkcji pseudowypukłej, f(x) ­ f(x). Punkt x wybraliśmy dowolnie spośród punktówdopuszczalnych, a zatem x jest rozwiązaniem globalnym.

Uwaga 7.3. Jeśli założenia twierdzenia 7.6 są spełnione lokalnie, na pewnym otoczeniu x, to xjest rozwiązaniem lokalnym.

Uwaga 7.4. Na mocy twierdzenia 7.4 zamiast zakładać pseudowypukłość funkcji f w punkcie xmożemy założyć jej ciągłość na X, quasi-wypukłość oraz warunek Df(x) 6= 0T . Jest to jedna zform warunku koniecznego zaprezentowana w pracy Arrowa i Enthovena z 1961 roku [1]. Kenneth

JosephArrow jestamerykańskimekonomistą.Wspólniez John’emHicks’emotrzymałnagrodę Noblaz ekonomii w1972 roku.

7.4. Zadania

Ćwiczenie 7.1. Udowodnij, że funkcja f : [a, b]→ R jest quasi-liniowa wtw, gdy jest monoto-niczna.

Ćwiczenie 7.2. Niech f : W → R, W ⊂ Rn wypukły. Udowodnij następujący fakt: funkcjaf jest quasi-liniowa wtw, gdy jej obcięcie do każdego odcinka zawartego w W jest funkcjąmonotoniczną.

Ćwiczenie 7.3. Wykaż, że jeśli funkcja f : W → R, W ⊂ Rn wypukły, jest quasi-wypukłaoraz g : R→ R jest niemalejąca, to funkcja g f jest quasi-wypukła. Jeśli natomiast funkcja gjest nierosnąca, to g f jest quasi-wklęsła.

Ćwiczenie 7.4. Niech f : (a, b) → R będzie funkcją jednej zmiennej. Wykaż, że f jestquasi-wypukła wtw, gdy zachodzi jeden z warunków:

— f jest monotoniczna,— istnieje x ∈ (a, b) taki że f jest nierosnąca dla x < x oraz niemalejąca dla x > x.

Ćwiczenie 7.5. Dla jakich wartości parametrów a, b, c, d ∈ R funkcja f(x) = ax3 +bx2 +cx+djest quasi-wypukła?

Ćwiczenie 7.6. Sprawdź, że funkcja f : [0,∞)2 → R zadana wzorem f(x1, x2) = e−x1x2 jestquasi-wklęsła.

Ćwiczenie 7.7. Znajdź przykład pokazujący, że suma funkcji quasi-wypukłych nie musi byćquasi-wypukła.

Ćwiczenie 7.8. Niech a, c ∈ Rn i b, d ∈ R. Wykaż, że funkcja wymierna

f(x) =aTx + b

cTx + d

jest quasi-liniowa na swojej dziedzinie D = x ∈ Rn : cTx + d > 0.

Ćwiczenie 7.9. Niech h : Rn → R będzie funkcją liniową i W = x ∈ Rn : h(x) > 0. Wykaż,że jeśli f : W → R jest wypukła, to funkcja g(x) = f(x)/h(x) dla x ∈W jest quasi-wypukła.

Ćwiczenie 7.10. Udowodnij, że jeśli (gα)α∈I jest rodziną funkcji quasi-wypukłych, w : I → Rjest funkcją nieujemną, to h(x) = supα∈I w(α)gα(x) jest quasi-wypukła, o ile jest skończona dlakażdego x.

Page 74: Optymalizacja II

74 7. Funkcje quasi-wypukłe i warunki dostateczne

Ćwiczenie 7.11. Niech A ⊂ Rn, C ⊂ Rm będą zbiorami wypukłymi, zaś f : A×C → R będziequasi-wypukła. Wykaż, że h(x) = infc∈C f(x, c) jest quasi-wypukła.

Ćwiczenie 7.12. NiechW ⊂ Rn zbiór wypukły, f : W → R. Udowodnij, że jeśli f quasi-liniowa,to zbiór x ∈W : f(x) = α jest wypukły dla dowolnego α ∈ R.

Ćwiczenie 7.13. Niech f : Rn → R, ciągła. Udowodnij następującą równoważność: f jestquasi-liniowa wtw, gdy f(x) = g(aTx) dla funkcji monotonicznej, ciągłej g : R → R orazwektora a ∈ Rn.

Wykaż, że powyższa równoważność nie musi być prawdziwa, gdy funkcję f rozważamy nawypukłym podzbiorze właściwym Rn.

Ćwiczenie 7.14. Przeprowadź dowód punktu (II) twierdzenia 7.2.

Wskazówka. Dla dowolnych punktów x,y ∈ W uporządkowanych tak, że f(x) ¬ f(y) rozważfunkcję

g(λ) = f(λx + (1− λ)y

), λ ∈ [0, 1]

oraz zbiórA =

λ ∈ [0, 1] : g(λ) > g(0)

.

Pokaż, że jeśli zbiór ten jest niepusty, to prowadzi to do sprzeczności z ciągłością funkcji f .Oznacz przez A spójną składową A, tzn. przedział.1. Udowodnij, że ∀ λ ∈ A g′(λ) = 0.2. Wykaż, że A ma niepuste wnętrze.3. Wykaż, że funkcja f jest stała na A oraz ściśle większa od g(0).4. Wykaż, że istnieje przedział otwarty I ⊂ [0, 1] taki że I ∩A = A.5. Zauważ sprzeczność z ciągłością funkcji f , bo f |A > f |I\A.

Ćwiczenie 7.15. Wykaż, że funkcja quasi-wypukła (niekoniecznie ciągła) określona na zbiorzewielościennym zwartym przyjmuje swoje maksimum globalne w jednym z punktów ekstremal-nych.

Ćwiczenie 7.16. Rozważmy problem optymalizacyjny (7.1). Niech x będzie punktem dopusz-czalnym, w którym spełnione są warunki pierwszego rzędu z mnożnikami Lagrange’a µ i λ.

1. Załóżmy, że f jest pseudowypukła w x, zaś funkcja

φ(x) =m∑i=1

µigi(x) +l∑

j=1

λjhj(x)

jest quasi-wypukła w x. Udowodnij, że x jest rozwiązaniem globalnym.2. Przypomnijmy, że L(x, µ, λ) jest funkcją Lagrange’a. Udowodnij, że jeśli x 7→ L(x, µ, λ)jest pseudowypukła w x, to x jest rozwiązaniem globalnym.

3. Wykaż, że warunki zawarte w powyższych punktach nie są równoważne. Znajdź zależnościpomiędzy nimi a założeniami twierdzenia 7.6.

Ćwiczenie 7.17. Niech x będzie rozwiązaniem globalnym problemu optymalizacyjnego (7.1).Załóżmy, że gk(x) < 0 dla pewnego k ∈ 1, . . . ,m. Wykaż, że jeśli ograniczenie gk(x) ¬ 0zostanie usunięte, to x może nie być nawet lokalnym rozwiązaniem otrzymanego problemu.Udowodnij natomiast, że jeśli funkcja gk jest ciągła w x, to po usunięciu tego ograniczenia xpozostaje rozwiązaniem lokalnym.

Ćwiczenie 7.18. Dla jakich wartości parametru α ∈ R problemx1 + x2 + α(x1 − 1)2 → min,

x1 − x2 ¬ 0, x1 ­ 0

Page 75: Optymalizacja II

7.4. Zadania 75

ma rozwiązanie? Jak zależy ono od wartości α?

Ćwiczenie 7.19. Rozwiąż zadanie optymalizacyjne:bTx→ min,

‖x‖p ¬ 1,

gdzie b ∈ Rn, zaś ‖x‖p =(∑n

i=1 |xi|p)1/p i p > 1.

Ćwiczenie 7.20. Niech u : [0,∞)n → R będzie funkcją quasi-wklęsłą o pochodnej Du(x) > 0dla każdego x. Ustalmy liczbę w > 0 i wektor p ∈ (0,∞)n. Rozważmy problem optymalizacyjny

u(x)→ max,∑ni=1 pixi ¬ w,

x ­ 0.

Wektor p pełni rolę cen produktów, x ich ilości, w jest wielkością budżetu, zaś funkcja u oceniasatysfakcję z decyzji zakupowej x.

Zapisz warunki Kuhn’a-Tucker’a dla powyższego problemu.1. Załóżmy, że x jest rozwiązaniem. Czy będzie wówczas istniał wektor mnożników Lagran-ge’a, dla którego warunki Kuhn’a-Tucker’a są spełnione w x?

2. Załóżmy, że warunki Kuhn’a-Tucker’a są spełnione w x. Czy x jest rozwiązaniem problemuoptymalizacyjnego?

3. Niech x będzie rozwiązaniem. Co możesz powiedzieć o związku pomiędzy pi/pj a u′i(x)/u′j(x),gdy— xi > 0 i xj > 0?— xi = 0 i xj > 0?— xi = 0 i xj = 0?

Ćwiczenie 7.21. Rozwiąż problem optymalizacyjny√x+ y → max,

px+ y ¬ I,x, y ­ 0,

gdzie p, I > 0 są parametrami.

Ćwiczenie 7.22. Niech A będzie macierzą symetryczną n × n dodatnio określoną, zaś b ∈(0,∞). Rozwiąż problem optymalizacyjny:

− log detX → min,

tr(AX) ¬ b,

w zbiorze macierzy X ∈ Rn×n symetrycznych i dodatnio określonych.

Page 76: Optymalizacja II

8. Warunek konieczny dla ograniczeń mieszanych

W tym rozdziale wyprowadzimy warunek konieczny pierwszego rzędu dla problemu optyma-lizacyjnego w następującej formie:

f(x)→ min,

gi(x) ¬ 0, i = 1, . . . ,m,

hj(x) = 0, j = 1, . . . , l,

x ∈ X,

(8.1)

gdzie X ⊂ Rn jest zbiorem otwartym i f, g1, . . . , gm, h1, . . . , hl : X→ R. Zbiór punktów dopusz-czalnych zadany jest następująco:

W =x ∈ X : g1(x) ¬ 0, . . . , gm(x) ¬ 0, h1(x) = 0, . . . , hl(x) = 0

. (8.2)

Przypomnijmy, że funkcje gi nazywane są ograniczeniami nierównościowymi, funkcje hj są ogra-niczeniami równościowymi, zaś cały problem (8.1) nazywa się zadaniem optymalizacyjnym zograniczeniami mieszanymi.

Przykład 8.1. Rozważmy następujący problem optymalizacyjny:f(x)→ min,

aTx + b = 0,

x ∈ Rn,

dla pewnego a ∈ Rn i b ∈ R. Ograniczenie równościowe możemy zamienić na dwa ograniczenianierównościowe:

f(x)→ min,

aTx + b ¬ 0,

−aTx− b ¬ 0,

x ∈ Rn.

Ograniczenia są afiniczne, czyli w każdym punkcie spełniony jest warunek afiniczności. Jeśli xjest rozwiązaniem lokalnym, to istnieje wektor mnożników Lagrange’a µ = [µ1, µ2]T i spełnionesą warunki Kuhna-Tuckera (5.5):

Df(x) + µ1aT + µ2(−aT ) = 0T ,

µ1(aTx + b) = 0,

µ2(−aTx− b) = 0,

µ1, µ2 ­ 0.

Punkt x jest dopuszczalny (jako że jest rozwiązaniem), czyli spełnia ograniczenia: aTx + b = 0.Stąd trywialnie spełnione są druga i trzecia równość. Możemy zatem powyższe warunki równo-ważnie zapisać jako:

Df(x) + (µ1 − µ2)aT = 0T ,

µ1, µ2 ­ 0.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 77: Optymalizacja II

8.1. Warunek konieczny pierwszego rzędu 77

Oznaczmy λ = µ1 − µ2. Warunki nieujemności µ1, µ2 implikują, że λ ∈ R. Dostajemy więcfinalnie:

Df(x) + λaT = 0T , λ ∈ R.

Jest to warunek Kuhna-Tuckera dla ograniczeń równościowych.

Powyższy przykład sugerowałby, że teoria dla problemów z ograniczeniami nierównościo-wymi, zbudowana w poprzednich rozdziałach, pozwala poradzić sobie z ograniczeniami rów-nościowymi. Niestety nie jest to prawda. Ograniczenia afiniczne są szczególnym przypadkiem.Jeśli któreś z ograniczeń równościowych nie jest afiniczne i rozbijemy je na dwie nierówności,jak powyżej, to w żadnym punkcie zbioru W nie jest spełniony ani warunek liniowej zależnościograniczeń ani warunek Slatera.

8.1. Warunek konieczny pierwszego rzędu

Teoria wprowadzana w tym podrozdziale jest prostym rozszerzeniem tego, co już zrobili-śmy dla problemu optymalizacyjnego z ograniczeniami nierównościowymi. Rozpoczniemy odrozszerzenia Tlin:

Definicja 8.1. Niech x ∈ W , gi różniczkowalne w x dla ograniczeń aktywnych i ∈ I(x) orazhj są różniczkowalne w x dla j = 1, . . . , l. Stożkiem kierunków stycznych dla ograniczeń zline-aryzowanych nazywamy zbiór

Tlin(x) =d ∈ Rn : ∀i ∈ I(x) Dgi(x)d ¬ 0, ∀j = 1, . . . , l Dhj(x)d = 0

.

Podobnie jak poprzednio zauważmy, że stożek kierunków stycznych dla ograniczeń zlineary-zowanych jest zbiorem wielościennym, a zatem wypukłym i domkniętym. Jeśli jest choć jednoograniczenie równościowe, to ma on puste wnętrze.

Warunek konieczny istnienia rozwiązania lokalnego problemu z ograniczeniami mieszanymijest sformułowany poniżej. Identycznie jak w twierdzeniu 5.2 zakładamy równość stożka kie-runków stycznych dla ograniczeń oryginalnych i zlinearyzowanych. Później uogólnimy warunkiregularności, które będą taką równość pociągały.

Twierdzenie 8.1 (Twierdzenia Kuhna-Tuckera). Niech x będzie rozwiązaniem lokal-nym (8.1). Jeśli funkcje f , gi, i ∈ I(x), oraz hj, j = 1, . . . , l, są różniczkowalne w xoraz T (x) = Tlin(x), to istnieją µ ∈ [0,∞)m oraz λ ∈ Rl takie że

Df(x) +∑i∈I(x) µiDgi(x) +

∑lj=1 λjDhj(x) = 0T ,

µigi(x) = 0, i = 1, 2, . . . ,m.(8.3)

Dowód. Na mocy twierdzenia 5.1 mamy D(x) ∩ T (x) = ∅. Dalej, korzystając z założenia, do-stajemy D(x)∩Tlin(x) = ∅, co innymi słowy oznacza, że nie istnieje rozwiązanie z ∈ Rn układu

Df(x)z < 0,

Dgi(x)z ¬ 0, i ∈ I(x).

Dhj(x)z ¬ 0, j = 1, . . . , l,

−Dhj(x)z ¬ 0, j = 1, . . . , l.

(8.4)

Page 78: Optymalizacja II

78 8. Warunek konieczny dla ograniczeń mieszanych

Stosujemy lemat Farkasa, lemat 5.3, z d = −Df(x) i macierzą A następującej postaci:

A =

Dhj(x), j = 1, . . . , l−Dhj(x), j = 1, . . . , lDgi(x), i ∈ I(x)

Istnieje zatem y ∈ [0,∞)|I(x)|+2l takie że yTA = −Df(x) lub inaczej

Df(x) + yTA = 0T . (8.5)

Zdefiniujmy λj = yj − yl+j , j = 1, . . . , l. Przypiszmy współrzędnym µ odpowiadającym ograni-czeniom aktywnym, i ∈ I(x), ostatnie |I(x)| wartości wektora y. Na pozostałych współrzędnychpołóżmy zera. Wówczas równość (8.5) jest równoważna następującej

Df(x) +m∑

i∈I(x)µiDgi(x) +

l∑j=1

λjDhj(x) = 0T .

Z definicji µi oczywiste jest, że µigi(x) = 0.

8.2. Warunki regularności

Sformułujemy teraz trzy warunki dostateczne równości T (x) = Tlin(x), zwane warunkamiregularności.

Definicja 8.2. W punkcie x ∈W spełniony jest:— warunek liniowej niezależności, jeśli funkcje gi, i /∈ I(x), są ciągłe w x, pozostałe ogra-niczenia nierównościowe i wszystkie równościowe są klasy C1 na otoczeniu x oraz wektoryDgi(x) dla i ∈ I(x) i Dhj(x) dla j = 1, . . . , l są liniowo niezależne,

— warunek afiniczności, jeśli funkcje gi, i ∈ I(x), oraz hj , j = 1, . . . , l, są afiniczne,— warunek Slatera, jeśli— funkcje gi, i ∈ I(x) są pseudowypukłe w x, funkcje gi, i /∈ I(x), są ciągłe w x,— funkcje hj , j = 1, . . . , l, są afiniczne,— istnieje x ∈ X, dla którego gi(x) < 0 dla i ∈ I(x) oraz hj(x) = 0 dla j = 1, . . . , l.

Zaczniemy od najprostszego przypadku.

Twierdzenie 8.2. Jeśli w punkcie x ∈ W spełniony jest warunek afiniczności, tozachodzi równość T (x) = Tlin(x).

Dowód. Postępując jak w przykładzie 8.1 zamieniamy ograniczenia afiniczne równościowe naograniczenia afiniczne nierównościowe. Teza wynika z twierdzenia 6.1.

Twierdzenie 8.3. Jeśli w punkcie x ∈W spełniony jest warunek Slatera, to zachodzirówność T (x) = Tlin(x).

Page 79: Optymalizacja II

8.2. Warunki regularności 79

Dowód. Zapiszmy najpierw funkcje hj dla j = 1, . . . , l:

hj(y) = aTj y + bj , aj ∈ Rn, bj ∈ R.

Wprowadźmy uogólnienie zbioru Tint(x) do przypadku ograniczeń mieszanych:

Tint(x) =d ∈ Rn : ∀i ∈ I(x) Dgi(x)d < 0, ∀j = 1, . . . , l Dhj(x)d = 0

.

(1) Tint(x) 6= ∅. Weźmy punkt x z warunku Slatera. Na mocy pseudowypukłości, patrzuwaga 4.3, mamy

Dgi(x)(x− x) < 0, ∀ i ∈ I(x).

Dla każdego j mamy także

aTj (x− x) = aTj x + bj − aTj x− bj = hj(x)− hj(x) = 0.

Wnioskujemy więc, że wektor (x− x) ∈ Tint(x).(2) Tint(x) ⊂ T (x). W tym celu weźmy dowolny d ∈ Tint(x). Wystarczy pokazać, że pewien

odcinek o końcu x i kierunku d zawiera się w całości w zbiorze W . Rozważmy w tym celu funkcjęy(λ) = x + λd. Na mocy ciągłości funkcji opisujących ograniczenia nieaktywne istnieje ε > 0taki że gi

(y(λ)

)¬ 0 dla λ ∈ [0, ε] oraz i /∈ I(x). Z faktu, że d ∈ Tint(x) dostajemy również, że

hj(y(λ)

)= 0 dla j = 1, . . . , l i dowolnego λ. Pozostaje tylko zająć się ograniczeniami aktywnymi.

Z faktu, że gi są różniczkowalne w x dla i ∈ I(x) mamy

limλ↓0

gi(y(λ)

)− gi(x)λ

= Dgi(x)d < 0,

gdzie ostatnia nierówność wynika z tego, że d ∈ Tint(x). A zatem gi(y(λ)

)− gi(x) < 0 dla

dostatecznie małych λ.(3) clTint(x) = Tlin(x). Zbiory Tint(x) i Tlin(x) leżą na hiperpłaszczyźnie H wyznaczonej

przez afiniczne ograniczenia liniowe. Możemy zatem znaleźć przekształcenie liniowe P o pełnymrzędzie przekształcające tą hiperpłaszczyznę w przestrzeń Rn′ , gdzie n′ jest wymiarem rzeczonejhiperpłaszczyzny (jeśli funkcje hj są parami różne, to n′ = n − l). Przekształcenie to jestwzajemnie jednoznaczne rozpatrywane jako funkcja określona na H. A zatem topologie w Rn′

i na H są identyczne. Wystarczy więc udowodnić tezę tego podpunktu na obrazach T ′int(x) iT ′lin(x) zbiorów Tint(x) i Tlin(x). Zauważmy, że zbiór T ′int(x) jest otwarty. Wykazaliśmy, że jestniepusty. Jest również wnętrzem zbioru T ′lin(x). Na mocy lematu 6.1 mamy clT ′int(x) = T ′lin(x).

(4) T (x) ⊂ Tlin(x). Identycznie jak dowód lematu 5.2.Pozostaje już tylko przypomnieć, że T (x) jest zbiorem domkniętym. A zatem

clTint(x) ⊂ T (x) ⊂ Tlin = clTint(x).

Zanim przejdziemy do rozważań nad trzecim warunkiem regularności, warunkiem liniowejniezależności, przypomnijmy twierdzenie o funkcji uwikłanej, by, korzystając z niego, podać opisstożka kierunków stycznych do powierzchni zadanej przez ograniczenia równościowe.

Page 80: Optymalizacja II

80 8. Warunek konieczny dla ograniczeń mieszanych

Twierdzenie 8.4 (Twierdzenie o funkcji uwikłanej). Niech f : X → Rn, gdzie X ⊂Rn+m otwarty, będzie odwzorowaniem klasy Ck. Załóżmy, że f(a,b) = 0, gdzie (a,b) ∈X. Przyjmujemy tutaj notację, że a ∈ Rn, zaś b ∈ Rm. Oznaczmy przez Ax macierzpochodnych cząstkowych, w punkcie (a,b), względem pierwszych n zmiennych: Ax ∈Rn×n zadana jest wzorem (Ax)ij = ∂fi

∂uj(a,b).

Jeśli macierz Ax jest odwracalna, to istnieje zbiór otwarty W ⊂ Rm zawierający boraz funkcja g : W → Rn klasy Ck, taka że

(g(y),y

)∈ X dla y ∈ W , g(b) = a oraz

f(g(y),y

)= 0 dla y ∈ W . Ponadto, Dg(b) = −(Ax)−1Ay, gdzie Ay jest pochodną f

w punkcie (a,b) względem ostatnich m zmiennych: Ay ∈ Rn×m zadana jest wzorem(Ay)ij = ∂fi

∂un+j(a,b).

Rozważmy powierzchnię opisaną przez układ m∗ równań:

S =x ∈ X : ci(x) = 0, i = 1, . . . ,m∗,

gdzie X ⊂ Rn otwarty. Przez TS(x) oznaczmy stożek kierunków stycznych do S punkcie x ∈ S.

Twierdzenie 8.5. Załóżmy, że funkcje ci, i = 1, . . . ,m∗, są klasy Ck, k ­ 1, naotoczeniu x oraz gradienty Dci(x), i = 1, . . . ,m∗, są liniowo niezależne. Wówczas

TS(x) = TSlin(x) :=d ∈ Rn : Dci(x)d = 0, i = 1, . . . ,m∗

.

Ponadto, dla każdego d ∈ TS(x) istnieje ε > 0 i krzywa y : (−ε, ε)→ S klasy Ck o tejwłasności, że y(0) = x oraz y′(0) = d.

Dowód. Pokażemy najpierw, że TS(x) ⊂ TSlin(x). Niech d ∈ TS(x). Wówczas d = limk→∞ λk(xk−x) dla (xk) ⊂ S, xk 6= x. Z definicji pochodnej dostajemy dla każdego i = 1, . . . ,m∗:

ci(xk)︸ ︷︷ ︸=0

= ci(x)︸ ︷︷ ︸=0

+Dci(x)λn(xk − x)︸ ︷︷ ︸→d

+ λk‖xk − x‖︸ ︷︷ ︸→‖d‖

o(‖xk − x‖)‖xk − x‖︸ ︷︷ ︸→0

,

czyli Dci(x)d = 0. Stąd wynika, że d ∈ TSlin(x).Pozostało jeszcze zawieranie w drugą stronę. Dowód tej części będzie zdecydowanie trud-

niejszy. Ustalmy d ∈ TSlin(x). Skonstruujemy krzywą przechodzącą przez x i zawartą w S, którejpochodna w punkcie x jest równa d. Oznaczmy c(x) =

(c1(x), . . . , cm∗(x)

)i zdefiniujmy funkcję

Φ : Rm∗ × R→ Rm∗ wzorem

Φ(u, t) = c(x + td + (Dc(x))Tu

).

Zauważmy, że Φ(0, 0) = 0. Oznaczmy przez DuΦ macierz pochodnych cząstkowych względemzmiennych wektora u: DuΦ = (∂Φi

∂uj)m∗

i,j=1. W (0, 0) mamy DuΦ(0, 0) = Dc(x)(Dc(x)

)T . Przy-pomnijmy, że zgodnie z założeniem macierz Dc(x) ma maksymalny rząd (równy m∗), czyliDuΦ(0, 0) jest odwracalna. Na mocy twierdzenia o funkcji uwikłanej istnieje zatem ε > 0 orazfunkcja u : (−ε, ε)→ Rm∗ klasy Ck, taka że Φ

(u(t), t

)= 0. Połóżmy

y(t) = x + td + (Dc(x))Tu(t).

Page 81: Optymalizacja II

8.2. Warunki regularności 81

Krzywa ta, zgodnie z konstrukcją, leży na powierzchni S, tzn. c(y(t)) = 0 dla t ∈ (−ε, ε) orazy(0) = x. Różniczkując złożenie c(y(t)) dostajemy

d

dtc(y(t)

)= Dc

(y(t)

)(d + (Dc(x))Tu′(t)

).

czyli w t = 0 mamyd

dtc(y(t)

)∣∣t=0 = Dc(x)

(d + (Dc(x))Tu′(0)

).

Z drugiej strony wiemy, że c(y(t)) = 0, czyli powyższa pochodna jest równa zero: Dc(x)(d +

(Dc(x))Tu′(0))

= 0. Przypomnijmy, że d ∈ TSlin(x), co w naszym zapisie oznacza Dc(x)d = 0.Wynika stąd, że Dc(x)(Dc(x))Tu′(0) = 0. Korzystając z faktu, że Dc(x) ma rząd m∗ dostajemyu′(0) = 0. Jesteśmy już teraz gotowi, aby dokończyć dowód. Różniczkując funkcję y dostajemy

y′(t) = d + (Dc(x))Tu′(t),

co w t = 0 daje y′(0) = d. Możemy stąd już łatwo wywnioskować, że d ∈ TS(x).

Uwaga 8.1. Powyższe twierdzenie dowodzi powszechnie znanego faktu dotyczącego przestrzenistycznej do rozmaitości. Otóż, z założeń wynika, że S jest lokalnie wokół punktu x rozmaitościąróżniczkową klasy Ck. Przestrzeń styczna do rozmaitości w punkcie x definiowana jest jakozbiór wektorów, które są pochodnymi (w punkcie x) krzywych leżących na tej rozmaitości iprzechodzących przez x (jest to równoważne definicji T (x)). Równość Tlin(x) = T (x) oznacza,że przestrzeń styczna jest jądrem przekształcenia liniowego Dc(x).

Z powyższego twierdzenia będziemy wielokrotnie korzystać w następnych rozdziałach. Bę-dzie ono głównym narzędziem przy dowodzeniu warunku koniecznego drugiego rzędu. W tymrozdziale pozwoli łatwo wykazać równość T (x) = Tlin(x) przy założeniu warunku liniowej nie-zależności.

Twierdzenie 8.6. Jeśli w punkcie x ∈ W spełniony jest warunek liniowej niezależ-ności, to zachodzi równość T (x) = Tlin(x).

Dowód. Ustalmy d ∈ Tlin(x). Niech I(x) = i ∈ I(x) : Dgi(x)d = 0. Na mocy twierdzenia8.5 istnieje krzywa y : (−ε, ε) → Rn, taka że y(0) = x, y′(0) = d oraz gi

(y(t)

)= 0, i ∈ I(x),

i hj(y(t)

)= 0, j = 1, . . . , l. Ustalmy i ∈ I(x) \ I(x). Połóżmy gi(t) = gi(y(t)), t ∈ (−ε, ε).

Wówczas g′i(0) = Dgi(x)d < 0, czyli istnieje εi > 0, takie że gi(t) < 0 dla t ∈ [0, εi). Z ciągłości,gi(y(t)) < 0 na pewnym otoczeniu 0 dla i /∈ I(x). Podsumowując, istnieje ε > 0, takie żey(t) ∈W dla t ∈ [0, ε). Stąd trywialnie d ∈ T (x).

Dowód zawierania T (x) ⊂ Tlin(x) jest identyczny do dowodu lematu 5.2.

Page 82: Optymalizacja II

9. Warunki drugiego rzędu

W tym rozdziale przedstawimy warunki konieczne i dostateczne drugiego rzędu, tzn. warunkisformułowane w języku drugich pochodnych oraz podsumujemy dotychczasową wiedzę dotyczącąrozwiązywania problemów optymalizacyjnych z ograniczeniami mieszanymi.

9.1. Warunki drugiego rzędu

Rozważmy problem optymalizacyjny z ograniczeniami mieszanymi (8.1). Załóżmy, że pew-nym punkcie x ∈W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory µ ∈ [0,∞)m

i λ ∈ Rl, takie że Df(x) +

∑i∈I(x) µiDgi(x) +

∑lj=1 λjDhj(x) = 0T ,

µigi(x) = 0, i = 1, 2, . . . ,m.

Definicja 9.1. Funkcją Lagrange’a nazywamy funkcję

L(x, µ, λ) = f(x) +m∑i=1

µigi(x) +l∑

j=1

λjhj(x).

Możemy teraz zapisać warunek pierwszego rzędu w skróconej formie:

DxL(x, µ, λ) = 0T , oraz µigi(x) = 0, i = 1, 2, . . . ,m,

gdzie Dx oznacza różniczkowanie względem zmiennej x ∈ Rn.

Definicja 9.2. ZbiórI∗(x) =

i ∈ I(x) : µi > 0

nazywamy zbiorem ograniczeń nierównościowych mocno aktywnych.

ZbiórI0(x) = I(x) \ I∗(x)

nazywamy zbiorem ograniczeń nierównościowych słabo aktywnych.

Twierdzenie 9.1 (Warunek konieczny drugiego rzędu). Załóżmy, że punkt x jestlokalnym rozwiązaniem problemu z ograniczeniami mieszanymi i spełniony jest w nimwarunek liniowej niezależności. Niech µ, λ będą mnożnikami Lagrange’a z warunkupierwszego rzędu. Jeśli f , gi, i ∈ I(x) oraz hj, j = 1, . . . , l, są klasy C2 w otoczeniu x,to

dTD2xL(x, µ, λ)d ­ 0

dla każdego d ∈ Rn spełniającego

Dgi(x)d = 0, i ∈ I(x),

Dhj(x)d = 0, j = 1, . . . , l.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 83: Optymalizacja II

9.1. Warunki drugiego rzędu 83

Dowód. Ustalmy d ∈ Rn jak w warunkach twierdzenia. Na mocy twierdzenia 8.5 istnieje ε > 0i krzywa y : (−ε, ε) → Rn klasy C2 o następujących własnościach: y(0) = x, y′(0) = d, orazdla t ∈ (−ε, ε) mamy hj(y(t)) = 0, j = 1, . . . , l, i gi(y(t)) = 0, i ∈ I(x). Wynika stąd, że funkcjaF (t) := L(y(t), µ, λ) równa jest f(y(t)) dla t w otoczeniu 0. Z ciągłości ograniczeń nieaktywnychwnioskujemy, że y(t) ∈ W dla t w otoczeniu 0. Zatem F ma minimum lokalne w 0, gdyż y(0)jest minimum lokalnym f na W. Na mocy założeń, F jest klasy C2. Istnienie minimum w zerzeimplikuje, że F ′′(0) ­ 0, a więc

0 ¬ dTD2xL(x, µ, λ)d +DxL(x, µ, λ)y′′(0).

To kończy dowód, gdyż w punkcie x spełnione są warunki pierwszego rzędu: DxL(x, µ, λ) =0T .

Bez dowodu pozostawiamy następujące uogólnienie powyższego twierdzenia:

Twierdzenie 9.2. Przy założeniach tw. 9.1 następująca nierówność

dTD2xL(x, µ, λ)d ­ 0

zachodzi dla każdego d ∈ Rn spełniającego

Dgi(x)d = 0, i ∈ I∗(x),

Dgi(x)d ¬ 0, i ∈ I0(x),

Dhj(x)d = 0, j = 1, . . . , l.

Podamy teraz warunek dostateczny istnienia rozwiązania lokalnego. Zwróćmy uwagę na to,że warunek ten implikuje, iż rozwiązanie jest ścisłe. Pozostaje więc szara strefa, gdzie jestspełniony warunek konieczny drugiego rzędu, lecz nie zachodzi warunek dostateczny drugiegorzędu. Podobnie jak w przypadku optymalizacji bez ograniczeń, na to nie ma niestety rady.

Twierdzenie 9.3 (Warunek dostateczny drugiego rzędu). Załóżmy, że w punkciex ∈ W spełniony jest warunek pierwszego rzędu, tzn. istnieją wektory µ ∈ [0,∞)m iλ ∈ Rl, takie że

Df(x) +∑i∈I(x) µiDgi(x) +

∑lj=1 λjDhj(x) = 0T ,

µigi(x) = 0, i = 1, 2, . . . ,m.(9.1)

Załóżmy ponadto, że funkcje gi, i ∈ I∗(x), oraz hj, j = 1, . . . , l, są dwukrotnie różnicz-kowalne w x. Jeśli

dTD2xL(x, µ, λ)d > 0

dla każdego d ∈ Rn \ 0 spełniającego

Dgi(x)d = 0, i ∈ I∗(x),

Dgi(x)d ¬ 0, i ∈ I0(x),

Dhj(x)d = 0, j = 1, . . . , l,

(9.2)

to x jest ścisłym rozwiązaniem lokalnym.

Page 84: Optymalizacja II

84 9. Warunki drugiego rzędu

Zanim przejdziemy do dowodu podkreślmy, iż w powyższym twierdzeniu nie zakłada się regu-larności punktu ograniczeń.

Dowód twierdzenia 9.3. Przeprowadzimy dowód przez zaprzeczenie. Załóżmy mianowicie, że xnie jest ścisłym rozwiązaniem lokalnym. Istnieje zatem ciąg punktów dopuszczalnych xk ∈ W ,takich że xk 6= x oraz f(xk) ¬ f(x). Zdefiniujmy

dk =xk − x‖xk − x‖

, oraz λk = ‖xk − x‖.

Wówczas xk = x + λkdk. Zauważmy, że limk→∞ λk = 0. Z faktu ‖dk‖ = 1 wynika, że istniejepodciąg dkn zbieżny do pewnego d o normie jednostkowej. Aby uprościć notację zakładamy, żeod początku dk był zbieżny do d. Oczywiście z definicji λk wynika, że limk→∞ λk = 0.

W dalszej części dowodu wykażemy dwie własności d: (a) dTD2xL(x, µ, λ)d ¬ 0 oraz (b) d

spełnia warunki (9.2). A to przeczy założeniom twierdzenia.Rozpocznijmy od dowodu własności (a). Z definicji drugiej pochodnej:

L(x, µ, λ) = L(x, µ, λ) +DxL(x, µ, λ)(x− x) +12

(x− x)TD2xL(x, µ, λ)(x− x) + o(‖x− x‖2).

Przypomnijmy, że L(xk, µ, λ) ¬ L(x, µ, λ), bo f(xk) ¬ f(x) oraz gi(xk) ¬ gi(x) dla i ∈ I(x). Zwarunku pierwszego rzędu (9.1) wynika również, że DxL(x, µ, λ) = 0T . Zatem

(xk − x)TD2xL(x, µ, λ)(xk − x) + o(‖xk − x‖2) ¬ 0.

Przypomnijmy, że xk = x+λkdk. Wstawiając tą reprezentację do powyższego wzoru dostajemy:

λ2kd

TkD

2xL(x, µ, λ)dk + o(λ2

k‖dk‖2) ¬ 0.

Dzielimy obie strony przez λ2k:

dTkD2xL(x, µ, λ)dk +

o(λ2k‖dk‖2)λ2k

¬ 0.

Przypomnijmy, że ‖dk‖ = 1. A zatem w granicy, gdy k → ∞, drugi składnik powyższej sumydąży do 0. Korzystając z faktu, że limk→∞ dk = d dostajemy

dTD2xL(x, µ, λ)d ¬ 0,

co kończy dowód faktu (a).W dowodzie własności (b) zastosujemy podobne podejście jak powyżej. Z różniczkowalności

funkcji f w punkcie x mamy

f(xk) = f(x) +Df(x)(xk − x) + o(‖xk − x‖).

Przypomnijmy, że f(xk) ¬ f(x), co implikuje

Df(x)(xk − x) + o(‖xk − x‖) ¬ 0.

Korzystając znów z reprezentacji xk = x + λkdk dostajemy

Df(x)dk +o(λk‖dk‖)

λk¬ 0.

Zatem w granicy, przy k → ∞, otrzymujemy Df(x)d ¬ 0. Zauważając, że gi(xk) ¬ gi(x) = 0dla i ∈ I(x) i postępując podobnie jak powyżej dostajemy Dgi(x)d ¬ 0, i ∈ I(x). Analogicznierównież dowodzimy, że Dhj(x)d = 0 dla j = 1, . . . , l.

Page 85: Optymalizacja II

9.2. Podsumowanie 85

Pomnóżmy obie strony pierwszej równości w (9.1) przez d:

Df(x)d +∑i∈I(x)

µiDgi(x)d +l∑

j=1

λjDhj(x)d = 0.

Suma ta składa się z wyrazów nieujemnych. Ponieważ sumują się one do zera, to wszystkiemuszą być zerowe. W szczególności

Df(x)d = 0, oraz Dgi(x)d = 0, i ∈ I∗(x).

Dowiedliśmy zatem, że d spełnia warunki (9.2).

9.2. Podsumowanie

Opiszemy teraz ogólny algorytm postępowania w przypadku rozwiązywania problemów opty-malizacyjnych z ograniczeniami mieszanymi.

Krok 1. Szukamy punktów podejrzanych:

A1 = x ∈ X : w punkcie x nie zachodzi warunek regularności,A2 = x ∈ X : w punkcie x zachodzi warunek regularności

i spełnione są warunki pierwszego rzędu.

Krok 2. Sprawdzamy, czy w punktach ze zbiorów A1, A2 spełnione są założenia tw. 7.6, tzw.warunki dostateczne pierwszego rzędu. Jeśli tak, to w punktach tych są rozwiązania globalne.Pozostałe kroki podejmujemy, jeśli— nie znaleźliśmy żadnego rozwiązania globalnego, lub— chcemy znaleźć wszystkie rozwiązania globalne, lub— chcemy znaleźć wszystkie rozwiązania lokalne.Usuwamy ze zbiorów A1, A2 punkty, które są rozwiązaniami globalnymi. Oznaczmy nowe zbioryA′1, A

′2.

Krok 3. Eliminujemy ze zbioru A′2 te punkty, gdzie nie zachodzi warunek konieczny drugiegorzędu. Pozostałe punkty oznaczamy A′′2.

Krok 4. W każdym punkcie ze zbioru A′1 ∩A′′2 sprawdzamy warunek dostateczny drugiegorzędu. Punkty, w których jest spełniony, są rozwiązaniami lokalnymi.

Krok 5. Optymalność punktów ze zbioru A′1 ∩ A′′2, w których nie jest spełniony warunekdostateczny drugiego rzędu sprawdzamy innymi metodami.

9.3. Przykład

W tym podrozdziale opiszemy bardzo dokładnie rozwiązanie następującego problemu opty-malizacyjnego:

(x1 − 1)2 + x22 → min,

2kx1 − x22 ¬ 0,

x = (x1, x2) ∈ R2,

gdzie k > 0 jest parametrem.Zauważmy, że w każdym punkcie, gdzie aktywne jest ograniczenie, spełniony jest warunek

liniowej niezależności ograniczeń: pierwsza pochodna ograniczenia wynosi [2k,−2x2] 6= 0T . Wy-nika stąd, że A1 = ∅.

Page 86: Optymalizacja II

86 9. Warunki drugiego rzędu

Funkcja Lagrange’a dla powyższego problemu ma postać:

L(x1, x2;µ) = (x1 − 1)2 + x22 + µ(2kx1 − x2

2).

Zapiszmy warunek pierwszego rzędu:

[2(x1 − 1), 2x2] + µ[2k,−2x2] = 0T , (9.3)

µ(2kx1 − x22) = 0, (9.4)

µ ­ 0.

Sprawdźmy, czy możliwe jest µ = 0. Wówczas z równania (9.3) dostajemy

2(x1 − 1) = 0, 2x2 = 0,

co pociąga x1 = 1, x2 = 0. Punkt ten nie jest dopuszczalny: nie spełnia warunku nierównościo-wego dla żadnego k > 0. Wnioskujemy zatem, że µ > 0 i warunek konieczny pierwszego rzędumoże być spełniony tylko w punktach, w których ograniczenie nierównościowe jest aktywne:

2kx1 − x22 = 0. (9.5)

Rozpiszmy równanie (9.3): x1 − 1 + µk = 0,

x2 − µx2 = 0.

Z drugiego równania wynika, że albo µ = 1 albo x2 = 0. Jeśli x2 = 0, to z (9.5) dostajemyx1 = 0. Punkt (0, 0) wraz z mnożnikiem Lagrange’a µ = 1/k spełnia warunek pierwszego rzędu.

Rozważmy teraz przypadek µ = 1. Wówczas z równania x1−1+µk = 0 dostajemy x1 = 1−k.Jeśli k > 1, to x1 < 0 i równanie (9.5) nie ma rozwiązania. Dla k = 1 dostajemy punkt (0, 0),zaś dla k ∈ (0, 1) dwa punkty

x1 = 1− k, x2 = ±√

2k(1− k).

Podsumowując: A1 = ∅ oraz

A2 = (0, 0) dla k ­ 1,

A2 =(0, 0),

(1− k,

√2k(1− k)

),(1− k,−

√2k(1− k)

)dla 0 < k < 1.

Funkcja g1(x1, x2) = 2kx1− x22 nie jest quasi-wypukła, wiec nie możemy skorzystać z twier-

dzenia 7.6 stwierdzającego dostateczność warunku pierwszego rzędu. Zatem A′2 = A2.Przechodzimy do kroku 3 i sprawdzamy warunek konieczny drugiego rzędu dla punktów z

A′2. Rozważmy najpierw punkt (0, 0). Odpowiada mu mnożnik Lagrange’a µ = 1/k. Pierwszapochodna funkcji Lagrange’a ma postać:

DxL(x1, x2, 1/k) = [(2(x1 − 1) + 2, 2x2(1− 1k

)].

Macierz drugich pochodnych to;

D2xL(x1, x2, 1/k) =

[2, 00, 2(1− 1

k )

].

Na mocy twierdzenia wystarczy sprawdzić, że

dT[2, 00, 2(1− 1

k )

]d ­ 0

Page 87: Optymalizacja II

9.4. Zadania 87

dla wektorów d ∈ R2 \ 0 spełniających Dg1(0, 0)d = [2k, 0]d = 0, czyli takich że d1 = 0.Wstawiając do powyższej nierówności dostajemy (1 − 1

k )d22 ­ 0. Nierówność ta zachodzi dla

k ­ 1: w punkcie (0, 0) może być rozwiązanie lokalne. Dla k < 1 nierówność nie zachodzi, więcw (0, 0) nie ma rozwiązania lokalnego.

Załóżmy teraz 0 < k < 1 i rozważmy dwa pozostałe punkty. W obu przypadkach mnożnikLagrange’a µ = 1. Mamy zatem

DxL(x1, x2, 1) = [(2(x1 − 1) + 2k, 0],

D2xL(x1, x2, 1) =

[2, 00, 0

].

Macierz drugich pochodnych jest nieujemnie określona, więc warunek konieczny drugiego rzędujest spełniony w obu punktach. Podsumowując:

A′′2 = (0, 0) dla k ­ 1,

A′′2 =(

1− k,√

2k(1− k)),(1− k,−

√2k(1− k)

)dla 0 < k < 1.

Przechodzimy do sprawdzenia warunku dostatecznego drugiego rzędu. W przypadku k > 1macierz drugich pochodnych funkcji Lagrange’a jest dodatnio określona, więc na mocy tw. 9.3w punkcie (0, 0) jest ścisłe rozwiązanie lokalne. Niestety nie możemy nic powiedzieć o punkcie(0, 0), gdy k = 1.

Rozważmy przypadek 0 < k < 1. Zajmijmy się punktem x =(1 − k,

√2k(1− k)

). Musimy

sprawdzić warunki tw. 9.3:

dT[2, 00, 0

]d = 2d2

1 > 0

dla d ∈ R2 \ 0 spełniającego [2k,−2√

2k(1− k)]d = 0, czyli d1 = 1k

√2k(1− k)d2. A zatem

jeśli d 6= 0, to d1 6= 0 i w punkcie x spełniony jest warunek dostateczny drugiego rzędu: x jestścisłym rozwiązaniem lokalnym. Analogicznie dowodzimy, że punkt

(1 − k,−

√2k(1− k)

)jest

również ścisłym rozwiązaniem lokalnym.Pozostaje jeszcze przypadek k = 1. Choć (0, 0) jest rozwiązaniem globalnym, to nie udało

nam się tego pokazać korzystając z teorii Kuhna-Tuckera. Łatwo można to jednak udowodnićbezpośrednio.

9.4. Zadania

Ćwiczenie 9.1. Rozwiąż geometrycznie i analitycznie zadanie minimalizacji x2 na zbiorzeW = (x1, x2) : x1 + x2 ­ 2, x2

1 + x22 ¬ 2.

Ćwiczenie 9.2. Niech A będzie macierzą m × n o pełnym rzędzie (tzn. o rzędzie równymmin(m,n)). Udowodnij, że rzut na jądro kerA jest przekształceniem liniowym zadanym wzorem

I −AT (AAT )−1A.

W dowodzie wykorzystaj fakt, że rzeczony rzut, to taki punkt zbioru kerA, który jest najmniejoddalony od rzutowanego punktu.

Ćwiczenie 9.3. Na brzegu będącym prostym odcinkiem co 500 metrów stoją trzy stacje po-miarowe, patrz rys. 9.1. Każda z nich mierzy kąt między prostą prostopadłą do brzegu a prostąprzechodzącą przez punkt pomiarowy i statek. Wyniki obserwacji są następujące:

α1 = 0.083, α2 = 0.024, α3 = −0.017.

Page 88: Optymalizacja II

88 9. Warunki drugiego rzędu

Rysunek 9.1. Położenie punktów pomiarowych.

Pomiary te są obarczone małymi błędami. Skoryguj je tak, aby były zgodne tzn. wskazywałyna ten sam punkt na płaszczyźnie i korekta była jak najmniejsza w sensie średniokwadrato-wym (suma kwadratów różnic pomiędzy zmierzonymi kątami i skorygowanymi kątami). Znajdźpołożenie statku względem punktów pomiarowych. W obliczeniach przyjmij, że tg(α) ≈ α dlamałych kątów α.

Ćwiczenie 9.4. Metalowa belka ma przekrój trapezoidalny. Pole tego przekroju ze względówwytrzymałościowych musi wynosić S. Górna i boczna powierzchnia musi zostać zabezpieczonaantykorozyjnie. Ustal tak kształt przekroju, aby powierzchnia do zabezpieczenia antykorozyj-nego była jak najmniejsza.

Page 89: Optymalizacja II

10. Teoria dualności

W tym rozdziale omówimy elementy teorii dualności, tzn. innej charakteryzacji optymalnościrozwiązania zadania optymalizacyjnego z ograniczeniami nierównościowymi. Teoria ta odróżniasię od poprzednio opisywanego podejścia Kuhna-Tucker’a tym, że nie wymagamy różniczkowal-ności funkcji celu f i funkcji ograniczeń gi. Ponadto, przy odpowiednich założeniach, rozwiązaniepierwotnego zadania optymalizacyjnego możemy łatwo uzyskać z rozwiązania tzw. zadania doniego dualnego. Niezależnie od zadania pierwotnego, zadanie dualne polega na maksymaliza-cji wklęsłej funkcji celu po nieujemnym oktancie. Jak zobaczymy w następnych rozdziałach,wklęsłość jest cechą gwarantującą dobrą zbieżność metod numerycznych. Prosty zbiór punktówdopuszczalnych dodatkowo przyspiesza działanie i ułatwia implementację algorytmów nume-rycznych. Nie należy zapominać także o tym, że zadanie dualne jest czasami łatwiejsze dorozwiązania metodami analitycznymi, czego przykłady zobaczymy w zadaniach na końcu ni-niejszego rozdziału.

10.1. Warunek dostateczny

Definicja 10.1. Niech A,B będą dowolnymi zbiorami, zaś h : A × B → R funkcją. Punkt(x, µ) ∈ A×B nazywamy punktem siodłowym funkcji h, jeśli

h(x, µ) ¬ h(x, µ) ¬ h(x, µ), ∀ x ∈ A, µ ∈ B.

Przykład 10.1. Najprostszym przykładem punktu siodłowego jest ”środek siodła” (patrz rys.10.1): A,B = R, h(x, µ) = x2−µ2 ma punkt siodłowy w (0, 0). Funkcja h ma minimum w (0, 0)ze względu na zmienną x i maksimum ze względu na µ.

Okazuje się, że punkt siodłowy funkcji Lagrange’a jest związany z rozwiązaniem globalnymproblemu optymalizacji z ograniczeniami nierównościowymi:

f(x)→ min,

gi(x) ¬ 0, i = 1, . . . ,m,

x ∈ X.(10.1)

Przypomnijmy, że przez W oznaczamy zbiór punktów dopuszczalnych, tj.

W =x ∈ X : g1(x) ¬ 0, . . . , gm(x) ¬ 0

.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 90: Optymalizacja II

90 10. Teoria dualności

Rysunek 10.1. Wykres funkcji (x, y) 7→ x2 − y2.

Twierdzenie 10.1. Jeśli (x, µ) ∈ W × [0,∞)m jest punktem siodłowym funkcji La-grange’a na W × [0,∞)m

L(x, µ) = f(x) +m∑i=1

µigi(x),

tzn.L(x, µ) ¬ L(x, µ) ¬ L(x, µ), ∀ x ∈W, µ ∈ [0,∞)m,

to x jest rozwiązaniem globalnym problemu (10.1) oraz µigi(x) = 0 dla i = 1, . . . ,m.

Page 91: Optymalizacja II

10.2. Warunek konieczny dla programowania wypukłego 91

Dowód. Udowodnimy najpierw, że µigi(x) = 0 dla i = 1, . . . ,m. Nierówność L(x, µ) ¬ L(x, µ)możemy rozwinąć następująco:

f(x) +m∑i=1

µigi(x) ¬ f(x) +m∑i=1

µigi(x).

Zatem dla każdego µ ∈ [0,∞)m mamy

m∑i=1

µigi(x) ¬m∑i=1

µigi(x).

W szczególności, dla µ = µ/2 dostajemy

m∑i=1

µigi(x) ­ 0.

Wiemy, że x jest punktem dopuszczalnym (x ∈W ), czyli gi(x) ¬ 0 dla i = 1, . . . ,m. Pamiętając,że µ ma wszystkie współrzędne nieujemne wnioskujemy, iż

∑mi=1 µigi(x) = 0 oraz każdy wyraz

jest niedodatni. Stąd już wynika, że µigi(x) = 0 dla i = 1, . . . ,m.Skorzystamy teraz z drugiej nierówności L(x, µ) ¬ L(x, µ) dla x ∈W , aby wykazać globalną

optymalność x. Nierówność tą rozpisujemy następująco:

f(x) +m∑i=1

µigi(x) ¬ f(x) +m∑i=1

µigi(x), x ∈W.

Z pierwszej części dowodu mamy∑mi=1 µigi(x) = 0. Z faktu, że x ∈W dostajemy

∑mi=1 µigi(x) ¬

0. Czylif(x) ¬ f(x), x ∈W.

Uwaga 10.1.1. W powyższym twierdzeniu nie zakładamy otwartości X ani ciągłości funkcji f i gi.2. Zbiór punktów dopuszczalnych W nie musi być wypukły.3. Nie ma żadnych warunków regularności.4. Tw. 10.1 nie podaje sposobu szukania punktu siodłowego. Można go znaleźć np. przypomocy warunków koniecznych pierwszego rzędu, a twierdzenie 10.1 używać jako warunekdostateczny.

5. Tw. 10.1 pełni ważną rolę teoretyczną (podejście dualne) i służy do budowy algorytmównumerycznych rozwiązujących zadanie (10.1).

10.2. Warunek konieczny dla programowania wypukłego

W tym podrozdziale zakładamy, że w problemie (10.1) zbiór X ⊂ Rn jest wypukły oraz funk-cje f, gi : X → R, i = 1, . . . ,m, są wypukłe. Dla takiego zadania optymalizacyjnego warunekpunktu siodłowego funkcji Lagrange’a jest warunkiem koniecznym dla rozwiązania globalne-go. Zaczniemy od prostszego przypadku, gdy wszystkie funkcje są różniczkowalne, by przejśćpóźniej do twierdzenia nie wymagającego różniczkowalności. Jak wspomnieliśmy wcześniej, brakwymagania różniczkowalności odróżnia metodę punktu siodłowego od opisanej wcześniej metodyKuhn’a-Tucker’a.

Page 92: Optymalizacja II

92 10. Teoria dualności

Lemat 10.1. Załóżmy, że zbiór X w problemie programowania wypukłego jest otwarty orazfunkcje f i gi, i = 1, . . . ,m, są różniczkowalne w punkcie x. Jeśli x jest rozwiązaniem lokalnym(10.1) i spełniony jest jeden z warunków regularności: liniowej niezależności, afiniczności lubSlatera, to istnieje µ ∈ [0,∞)m, taki że (x, µ) jest punktem siodłowym funkcji Lagrange’a naprzestrzeni X× [0,∞)m.

Dowód. Na mocy twierdzenia 5.2 istnieje wektor mnożników Langrange’a µ ∈ [0,∞)m, dlaktórych spełniony jest warunek optymalności pierwszego rzędu (spełnienie założeń tego twier-dzenia wynika z regularności punktu x oraz rozważań rozdziału 6). Teza wynika teraz z ćwiczenia10.1.

Uwaga 10.2. Na mocy twierdzenia 7.6 każdy punkt spełniający warunki pierwszego rzędu jestrozwiązaniem globalnym zadania programowania wypukłego. Nie jest zatem ważne, czy wyma-gać będziemy w powyższym lemacie, aby x był rozwiązaniem lokalnym czy globalnym.

Przechodzimy teraz do głównego twierdzenia.

Twierdzenie 10.2. Niech x ∈ X będzie rozwiązaniem globalnym problemu progra-mowania wypukłego (10.1) oraz istnieje x∗ ∈ X, taki że gi(x∗) < 0 dla i = 1, . . . ,m.Wówczas istnieje µ ∈ [0,∞)m o tej własności, że (x, µ) jest punktem siodłowym funkcjiLagrange’a na przestrzeni X× [0,∞)m, tzn.

L(x, µ) ¬ L(x, µ) ¬ L(x, µ), ∀ x ∈ X, µ ∈ [0,∞)m.

Ponadto, µigi(x) = 0 dla i = 1, . . . ,m.

Uwaga 10.3. Punkt siodłowy funkcji Langrange’a jest rozpatrywany na różnych przestrzeniachw tw. 10.1 i 10.2. W drugim ze wspomnianych twierdzeń przestrzeń jest większa, gdyż pierwszazmienna przebiega cały zbiór X, a nie tylko zbiór punktów dopuszczalnych W . W sumie, do-stajemy równoważność istnienia punktu siodłowego funkcji Lagrange’a i rozwiązania globalnegozadania optymalizacji wypukłej.

Dowód tw. 10.2. Podobnie jak w dowodzie warunku koniecznego pierwszego rzędu, tw. 5.2,główną rolę będzie tutaj odgrywać twierdzenie o oddzielaniu zbiorów wypukłych. Wskaże namono wektor mnożników Lagrange’a µ.

Oznaczmy g(x) =(g1(x), . . . , gm(x)

). Zdefiniujmy następujące podzbiory Rm+1:

A =y = (y0,y) ∈ R× Rm : y0 ­ f(x), y ­ g(x) dla pewnego x ∈ X

,

B =y = (y0,y) ∈ R× Rm : y0 = f(x), y = g(x) dla pewnego x ∈ X

,

C =y = (y0,y) ∈ R× Rm : y0 < f(x), y < 0

.

Zauważmy, że ostatni ze zbiorów jest ”oszukany”: jest on produktem półprostej kończącej sięw minimum f(x) i ujemnego oktantu. Łatwo widzimy, że jest on wypukły. Z optymalności xdostajemy, że B∩C = ∅. Zbiór B nie jest jednak wypukły, więc nie możemy stosować twierdzeńo oddzielaniu. Radą na to jest spostrzeżenie, że zamiast B można brać zbiór wypukły A, któryma również puste przecięcie z C. Przypuśćmy przeciwnie: niech y = (y0,y) ∈ A ∩ C. Mamyzatem dla pewnego x′ ∈ X następujące nierówności:

y0 ­ f(x′), y ­ g(x′), y0 < f(x), y < 0.

Wnioskujemy z nich, że f(x′) < f(x) oraz g(x′) < 0. A zatem punkt x′ jest dopuszczalny, zaśfunkcja f przyjmuje w nim wartość mniejszą od f(x). Przeczy to optymalności x.

Page 93: Optymalizacja II

10.2. Warunek konieczny dla programowania wypukłego 93

Przykład 10.2. Przed przystąpieniem do dalszej części dowodu popatrzmy na zbiory A,B,Cdla następującego problemu optymalizacyjnego:

−x→ min,

x2 − 1 ¬ 0, x ∈ X = R.

Rozwiązaniem tego zagadnienia jest x = 1. Mamy jedno ograniczenie, więc szukane zbiory leżąw przestrzeni R2. Na rysunku 10.2 znajduje się ich szkic. Zwróćmy uwagę na zależność międzyzbiorami A i B. Zbiór B jest brzegiem A dla y0 ¬ 0, lecz znajduje się w jego wnętrzu dla y0 > 0.

Rysunek 10.2. Szkic zbiorów A,B,C zdefiniowanych w dowodzie twierdzenia 10.2.

Powróćmy do dowodu. Wypukłość zbioru C już została uzasadniona. Wypukłość A dowo-dzimy bezpośrednio. Weźmy dwa punkty y′, y′′ ∈ A oraz λ ∈ (0, 1). Istnieją wówczas punktyx′,x′′ ∈ X o następującej własności:

y′0 ­ f(x′), y′ ­ g(x′),

y′′0 ­ f(x′′), y′′ ­ g(x′′).

Zdefiniujmy x = λx′ + (1− λ)x′′. Z wypukłości X wynika, że x ∈ X. Mamy również

λy′0 + (1− λ)y′′0 ­ λf(x′) + (1− λ)f(x′′) ­ f(λx′ + (1− λ)x′′

)= f(x),

gdzie pierwsza nierówność wynika z powyższych własności x′ i x′′, zaś druga nierówność zwypukłości f . Podobnie, korzystając z wypukłości g, pokazujemy, że

λy′ + (1− λ)y′′ ­ g(x).

Stąd y = λy′ + (1− λ)y′′ ∈ A, ponieważ

y0 ­ f(x), y ­ g(x)

Page 94: Optymalizacja II

94 10. Teoria dualności

dla zdefiniowanego powyżej punktu x. Kończy to dowód wypukłości zbioru A.Na mocy słabego twierdzenia o oddzielaniu, tw. 3.1, istnieje µ ∈ Rm+1, µ 6= 0 i takie że

µT y ­ µT z, ∀ y ∈ A, z ∈ C.

Z faktu, że supz∈C µT z < ∞ wynika, że µ ­ 0. Z ciągłości funkcji liniowej wnioskujemy, że z

można brać z domknięcia C:

µT y ­ µT z, ∀ y ∈ A, z ∈ clC.

Zatem dla z = [f(x),0]T mamy

µ0y0 +m∑i=1

µiyi ­ µ0f(x), ∀ (y0,y) ∈ A.

W szczególności powyższa nierówność zachodzi dla y0 = f(x) i y = g(x) dla x ∈ X:

µ0f(x) +m∑i=1

µigi(x) ­ µ0f(x). (10.2)

Wykażemy teraz, że µ0 6= 0, co razem z obserwacją µ ­ 0 będzie implikować µ0 > 0. Dowódprzeprowadzimy przez zaprzeczenie: załóżmy µ0 = 0. Wówczas z nierówności (10.2) wynika, że

m∑i=1

µigi(x) ­ 0, ∀ x ∈ X.

W szczególności zachodzi to dla punktu x∗ z założenia twierdzenia. W tym punkcie mamyjednak gi(x∗) < 0 dla każdego i = 1, . . . ,m. To, w połączeniu z faktem, iż µ ­ 0 pociągaµ1, . . . , µm = 0. Przypomnijmy, że µ0 = 0, czyli µ = 0, a to przeczy wyborowi µ z twierdzeniao oddzielaniu.

Wiemy zatem, że µ0 > 0. Zdefiniujmy

µ =[ µ1

µ0, . . . ,

µmµ0

]T.

Oczywiście µ ∈ [0,∞)m. Ponieważ x, jako rozwiązanie, jest punktem dopuszczalnym, to gi(x) ¬0, i = 1, . . . ,m, i

∑mi=1 µigi(x) ¬ 0. Dodajemy tą sumę do prawej strony nierówności (10.2)

podzielonej przez µ0:

f(x) +m∑i=1

µigi(x) ­ f(x) +m∑i=1

µigi(x), ∀ x ∈ X.

Inaczej,L(x, µ) ­ L(x, µ), ∀ x ∈ X.

Pozostaje jeszcze wykazanie drugiej nierówności punktu siodłowego. Biorąc x = x i dzielącobie strony nierówności (10.2) przez µ0 dostajemy

∑mi=1 µigi(x) ­ 0. Z drugiej strony punkt x

jest dopuszczalny, czyli gi(x) ¬ 0. Pamiętając, że µ ­ 0 wnioskujemy, że każdy składnik tejsumy jest niedodatni. Stąd już mamy

µigi(x) = 0, i = 1, . . . ,m.

Dla dowolnego innego µ ∈ [0,∞)m mamy∑mi=1 µigi(x) ¬ 0, czyli

m∑i=1

µigi(x) ¬m∑i=1

µigi(x), ∀µ ∈ [0,∞m.

Ta nierówność jest równoważna

L(x, µ) ¬ L(x, µ), ∀ µ ∈ [0,∞)m.

Page 95: Optymalizacja II

10.3. Zadanie pierwotne i dualne 95

10.3. Zadanie pierwotne i dualne

Z teorią puntów siodłowych związane są pojęcia zadania pierwotnego i dualnego. Rozważmyzadanie optymalizacyjne (10.1) i związaną z nim funkcję Lagrange’a L(x, µ). Zdefiniujmy funkcjęLP : X→ (−∞,∞]

LP (x) = supµ∈[0,∞)m

L(x, µ).

Zauważmy, że

LP (x) =

f(x), g(x) ¬ 0,

∞, w przeciwnym przypadku.

A zatem zadanie (10.1) można zapisać w wydawałoby się prostszej postaci

LP (x)→ min, x ∈ X.

Niestety powyższe przeformułowanie sprowadza się do rozwiązania oryginalnego zadania, a więcnie zawiera żadnej „wartości dodanej”; ale tylko do czasu. Zanim zdradzimy jego zastosowanie,zdefiniujmy kolejną funkcję LD : [0,∞)m → [−∞,∞)

LD(µ) = infx∈X

L(x, µ).

Uwaga 10.4. 1. Dla dowolnego x ∈ X i µ ∈ [0,∞)m mamy LP (x) ­ L(x, µ) ­ LD(µ).2. Jeśli (x, µ) jest punktem siodłowym funkcji Lagrange’a na X× [0,∞)m, to LP (x) = LD(µ).

Powyższe spostrzeżenia kierują nas we właściwą stronę. Będziemy wykorzystywać funkcjeLP i LD do znajdowania punktów siodłowych.

Definicja 10.2. Zadaniem pierwotnym nazywamy problem optymalizacyjny

LP (x)→ min, x ∈ X.

Zadaniem dualnym do niego jest problem optymalizacyjny

LD(µ)→ max, µ ∈ [0,∞)m.

Z własności wspomnianych w uwadze 10.4 wynika, że wartość rozwiązania zadania pierwot-nego jest nie mniejsza niż wartość rozwiązania zadania dualnego:

infx∈X

LP (x) ­ supµ∈[0,∞)m

LD(µ).

Co więcej, rozwiązanie zadania dualnego daje dolne oszacowanie na wartość funkcji f :

Lemat 10.2 (Słabe twierdzenie o dualności). Dla dowolnego punktu dopuszczalnego x ∈ Woraz dowolnego µ ∈ [0,∞)m mamy

f(x) ­ LD(µ).

A zatemf(x) ­ sup

µ∈[0,∞)mLD(µ).

Dowód. Dowód pozostawiamy jako ćwiczenie.

Definicja 10.3. Luką dualności nazwiemy różnicę między wartością rozwiązania zadania pier-wotnego i dualnego:

infx∈X

LP (x)− supµ∈[0,∞)m

LD(µ).

Page 96: Optymalizacja II

96 10. Teoria dualności

Zapiszmy w języku funkcji pierwotnej i dualnej warunek punktu siodłowego: (x, µ) jestpunktem siodłowym, jeśli

LP (x) = L(x, µ) = LD(µ).

Innymi słowy, jeśli funkcja Lagrange’a posiada punkt siodłowy, to luka dualności jest zerowa.Ma to miejsce, na przykład, jeśli spełnione są założenia tw. 10.2.

Możemy teraz zaproponować algorytm rozwiązywania zagadnienia (10.1) przy pomocy me-tod dualnych.1. Rozwiąż zadanie dualne. Jego wartość daje dolne ograniczenie na wartość rozwiązania pro-

blemu pierwotnego na mocy lematu 10.2.2. Załóżmy, że istnieje rozwiązanie skończone µ ∈ [0,∞) zadania dualnego oraz taki punkt

x ∈ X, że LD(µ) = L(x, µ). Jeśli x jest dopuszczalny oraz f(x) = LD(µ), to (x, µ) jestpunktem siodłowym funkcji Lagrange’a i twierdzenie 10.1 implikuje, że x jest rozwiązaniemzadania (10.1).

Wyjaśnijmy warunki punktu drugiego. Z faktu LD(µ) = L(x, µ) wynika, że L(x, µ) ¬ L(x, µ)dla dowolnego x ∈ X. Zatem mamy prawą nierówność warunku punktu siodłowego. Pozo-staje jeszcze nierówność lewa. Przypomnijmy, że LP (x) = f(x) dla punktu dopuszczalnegox i infx∈X LP (x) ­ LD(µ) dla dowolnego µ ∈ [0,∞)m. W punkcie drugim zakładamy, żef(x) = LD(µ), co pociąga

LP (x) = f(x) = LD(µ),

a zatem (x, µ) jest punktem siodłowym.

10.4. Zadania

Ćwiczenie 10.1. Udowodnij, że jeśli w problemie optymalizacyjnym (10.1) funkcje f i gi, i =1, . . . ,m, są wypukłe, to punkt spełniający warunek konieczny pierwszego rzędu jest punktemsiodłowym funkcji Lagrange’a na przestrzeni X× [0,∞)m.

Ćwiczenie 10.2. Uzasadnij, że LP (x) ­ L(x, µ) ­ LD(µ) dla dowolnego x ∈ X i µ ∈ [0,∞)m.

Ćwiczenie 10.3. Uzasadnij nierówność:

infx∈X

LP (x) ­ supµ∈[0,∞)m

LD(µ).

Ćwiczenie 10.4. Udowodnij, że jeśli (x, µ) jest punktem siodłowym funkcji Lagrange’a, toLP (x) = LD(µ) lub, innymi słowy, luka dualności jest zerowa.

Ćwiczenie 10.5. Udowodnij lemat 10.2.

Ćwiczenie 10.6. Wykaż, że funkcja dualna LD jest wklęsła.

Ćwiczenie 10.7. Podaj przykład problemu optymalizacyjnego, dla którego luka dualności jestdodatnia.

Ćwiczenie 10.8. Rozwiąż metodą dualną zadaniex1 → min,

x21 + x2

2 ¬ 2,

(x1, x2) ∈ X,

gdzie X = x ∈ R2 : x1 ­ 1. Zwróć uwagę na umieszczenie jednego z ograniczeń w zbiorze X.

Page 97: Optymalizacja II

10.4. Zadania 97

Ćwiczenie 10.9. Rozwiąż metodą dualną zadanie

12∑ni=1 x

2i → min,∑n

i=1 xi = 1,

0 ¬ xi ¬ ui, i = 1, . . . , n,

x ∈ Rn,

gdzie 0 ¬ u1 ¬ . . . ¬ un oraz∑ni=1 ui ­ 1.

Wskazówka. Rozważ zbiór X = x ∈ Rn : 0 ¬ xi ¬ ui dla i = 1, . . . , n.

Ćwiczenie 10.10. Znajdź zadanie dualne (czyli formę zadania supµ∈[0,∞)m LD(µ)) dla zadaniaoptymalizacji liniowej

dTx→ min,

Ax ¬ b,

x ∈ Rn,

gdzie d ∈ Rn, A jest macierzą m× n i b ∈ Rm.

Ćwiczenie 10.11. Znajdź zadanie dualne do zadania programowania kwadratowego12xTHx + dTx→ min,

Ax ¬ b,

x ∈ Rn,

gdzie H jest macierzą symetryczną dodatnio określoną, d ∈ Rn, A jest macierzą m×n i b ∈ Rm.

Definicja 10.4. Niech X ⊂ Rn. Transformatą Legendre’a-Fenchela funkcji f : X→ R nazywa-my funkcję f∗ : Rn → R ∪ +∞ daną wzorem

f∗(y) = supx∈X

(yTx− f(x)

).

Ćwiczenie 10.12. Rozważmy problem optymalizacyjny:f(x)→ min,

Ax ¬ b,

Cx = d,

x ∈ X,

gdzie X ⊂ Rn, b ∈ Rm, d ∈ Rl, zaś A,C są dowolnymi macierzami o odpowiednich wymiarach.Udowodnij, że problem do niego dualny ma następującą postać:

−bTµ− dTλ− f∗

(−ATµ− CTλ

)→ max,

µ ∈ [0,∞)m, λ ∈ Rl.

Wskazówka. Rozbij ograniczenie równościowe na dwa ograniczenia nierównościowe.

Page 98: Optymalizacja II

98 10. Teoria dualności

Ćwiczenie 10.13. Znajdź transformatę Legendre’a-Fenchela następujących funkcji:

f(x) =12x2, x ∈ X = R,

f(x) =12

n∑i=1

x2i , x ∈ X = Rn,

f(x) = ex, x ∈ X = R,

f(x) = ‖x‖p, x ∈ X = Rn, p > 1,

f(x) =12xTHx, x ∈ X = Rn, H - macierz symetryczna, nieosobliwa.

Ćwiczenie 10.14. Udowodnij, że transformata Legendre’a-Fenchela f∗ jest wypukła dla do-wolnej funkcji f .

Ćwiczenie 10.15. Wykaż równoważność następujących dwóch zadań optymalizacyjnych:

log( m∑i=1

eaTi x+bi

)→ min

oraz log

(∑mi=1 e

yi

)→ min,

Ax + b = y,

x ∈ Rn, y ∈ Rm,

(10.3)

gdzie przez a1, . . . ,am oznaczamy rzędy macierzy A. Udowodnij następnie, że zadaniem dualnymdo (10.3) jest

bT ν −∑mi=1 νi log νi → max,∑m

i=1 νi = 1,

AT ν = 0,

ν ∈ [0,∞)m.

Page 99: Optymalizacja II

11. Teoria wrażliwości

Dotychczas mnożniki Lagrange’a wydawały się techniczną sztuczką służącą do znajdowaniarozwiązania problemu optymalizacyjnego z ograniczeniami. W tym rozdziale pokażemy, że peł-nią one rolę kosztu związanego ze zmianą ograniczeń. Oddzielnie zajmiemy się ograniczeniamirównościowymi i nierównościowymi.

11.1. Ograniczenia równościowe

Rozważmy problem optymalizacyjny z ograniczeniami równościowymi:f(x)→ min,

hj(x) = 0, j = 1, . . . , l,

x ∈ X,(11.1)

gdzie X ∈ Rn jest zbiorem otwartym i f, h1, . . . , hl : X → R. Dla uproszczenia notacji połóżmyh(x) = [h1(x), . . . , hl(x)]T . Rozważmy problem zaburzony, tzn.

f(x)→ min,

h(x) = z,

x ∈ X,(11.2)

gdzie z ∈ Rl.

Twierdzenie 11.1. Niech x będzie rozwiązaniem lokalnym problemu (11.1), zaś λwektorem jego mnożników Lagrange’a. Załóżmy, że funkcje f, h1, . . . , hl są klasy C2

na otoczeniu x, gradienty ograniczeń są liniowo niezależne (spełniony jest warunekliniowej niezależności) oraz

dTD2xL(x, λ)d > 0 (11.3)

dla d ∈ Rn \ 0 spełniających Dhj(x)d = 0, j = 1, . . . , l. Wówczas istnieje otoczenieO punktu 0 ∈ Rl oraz funkcja x : O → X klasy C1, taka że x(0) = x oraz x(z) jestścisłym rozwiązaniem lokalnym problemu zaburzonego (11.2). Ponadto,

D(f x)(0) = −λT .

Dowód. Na mocy tw. 8.1 punkt x rozwiązuje układ równań:DxL(x, λ) = 0T ,

h(x) = 0,

gdzie

DxL(x, λ) = Df(x) + λTDh(x) = Df(x) +l∑

j=1

λjDhj(x).

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 100: Optymalizacja II

100 11. Teoria wrażliwości

Zaburzając prawą stronę drugiej równości przez z będziemy chcieli pokazać, że istnieje rozwią-zanie, które jest funkcją z klasy C1. Rozważmy więc układ:

DxL(x, λ) = 0T , h(x) = z,

gdzie niewiadomymi są λ oraz x. Zdefiniujmy funkcję G : Rn × Rl × Rl → Rn × Rl wzorem

G(x, λ, z) =

[(DxL(x, λ)

)Th(x)− z

].

Zaburzony układ możemy wówczas zapisać jako

G(x, λ, z) = 0.

Wiemy, żeG(x, λ,0) = 0. Skorzystamy z twierdzenia o funkcji uwikłanej, aby rozwikłać pierwszedwie zmienne w zależności od trzeciej. W tym celu rozważamy macierz pochodnych DG(x, λ,0):

DG(x, λ,0) =

[D2xL(x, λ),

(Dh(x)

)T, 0

Dh(x), 0, −I

].

Warunek liniowej niezależności gradientów ograniczeń implikuje nieosobliwość podmacierzy[D2xL(x, λ),

(Dh(x)

)TDh(x), 0

].

Spełnione są zatem założenia twierdzenia 8.4 i istnieje otoczenie O punktu 0 ∈ Rl oraz funkcjex : O → X i λ : O → Rl klasy C1, takie że dla z ∈ O zachodzi G

(x(z), λ(z), z

)= 0, czyli

DxL(x(z), λ(z)

)= 0T , h

(x(z)

)= z.

Korzystając z faktu, iż funkcje D2xL,Dh,x, λ są ciągłe oraz nierówność (11.3) spełniona jest

dla niezaburzonego problemu, wnioskujemy, że istnieje być może mniejsze otoczenie O punktu0 ∈ Rl, takie że

dTD2xL(x(z), λ(z)

)d > 0

dla z ∈ O i d ∈ Rn\0 spełniających Dhj(x(z)

)d = 0, j = 1, . . . , l. Kluczowa dla tego wyniku jest

ostra nierówność w warunku (11.3). Na mocy tw. 9.3 punkt x(z) jest zatem ścisłym rozwiązaniemlokalnym problemu zaburzonego (11.2). Przypomnijmy, że funkcja x jest klasy C1. Możemyzatem zdefiniować pochodną złożenia

D(f x)(0) = Df(x)Dx(0).

Od zakończenia dowodu dzielą nas dwa spostrzeżenia. Po pierwsze, mnożąc obie strony warunkukoniecznego pierwszego rzędu dla problemu niezaburzonego

Df(x) + λTDh(x) = 0T .

przez Dx(0) dostajemyDf(x)Dx(0) + λTDh(x)Dx(0) = 0T .

Po drugie, rózniczkując h(x(z)

)= z po z otrzymujemy w punkcie z = 0 następującą pochodną

D(h x)(0) = I, czyli Dh(x)Dx(0) = I. Upraszcza to powyższe równanie do

Df(x)Dx(0) + λT = 0T .

Stąd już teza wynika natychmiast.

Twierdzenie 11.1 można rozumieć następująco: nieznaczna zmiana j-tego ograniczenia z zerado ε prowadzi do zmiany optymalnej wartości funkcji f o −λjε+o(ε), tzn. dla małych ε zmianata jest w przybliżeniu równa −λjε.

Page 101: Optymalizacja II

11.2. Ograniczenia nierównościowe 101

11.2. Ograniczenia nierównościowe

W przypadku ograniczeń nierównościowych zastosujemy inne podejście. Skoncentrujemy sięna zadaniu optymalizacji wypukłej:

f(x)→ min,

gi(x) ¬ 0, i = 1, . . . ,m,

x ∈ X,(11.4)

gdzie X ⊂ Rn jest wypukły, f, g1, . . . , gm : X→ R są wypukłe. Dla uproszczenia notacji będziemypisać g(x) = [g1(x), . . . , gm(x)]T . Problem (11.4) zapisujemy więc jako

f(x)→ min,

g(x) ¬ 0, x ∈ X.(11.5)

Rozważmy zadanie zaburzone: dla z ∈ Rmf(x)→ min,

g(x) ¬ z, x ∈ X,(11.6)

Definicja 11.1. Niech DM będzie zbiorem takich z ∈ Rm, dla których zbiór punktów dopusz-czalnych Wz = x ∈ X : g(x) ¬ z jest niepusty. Funkcją perturbacji nazywamy funkcję

M(z) = infx∈X, g(x)¬z

f(x)

określoną dla z należących do dziedziny DM .

Zauważmy, że M(z) <∞ dla z ∈ DM , ale może się zdarzyć, że M(z) = −∞.

Twierdzenie 11.2.1. Zbiór DM jest wypukły.2. Funkcja M : DM → R ∪ −∞ jest wypukła.3. Jeśli istnieje punkt x∗ ∈ X, taki że gi(x∗) < 0, i = 1, . . . ,m, to intDM 6= ∅ i0 ∈ intDM .

Dowód. Z wypukłości g wynika następująca implikacja:

g(x1) ¬ z1, g(x2) ¬ z2 =⇒ ∀ λ ∈ [0, 1] g(λx1 + (1− λ)x2) ¬ λz1 + (1− λ)z2.

(11.7)Będziemy korzystać z tego spostrzeżenia wielokrotnie w dowodzie.

(1) Niech z1, z2 ∈ DM i λ ∈ (0, 1). Wówczas istnieją x1,x2 ∈ X takie że g(x1) ¬ z1 ig(x2) ¬ z2. Z wzoru (11.7) dostajemy g

(λx1 + (1 − λ)x2) ¬ λz1 + (1 − λ)z2, skąd wynika

λz1 + (1− λ)z2 ∈ DM .(2) Niech z1, z2 ∈ DM i λ ∈ (0, 1). Wówczas

λM(z1) + (1− λ)M(z2) = infx1∈X, g(x1)¬z1

(λf(x1)

)+ infx2∈X, g(x2)¬z2

((1− λ)f(x2)

)= infx1∈X, g(x1)¬z1, x2∈X, g(x2)¬z2

(λf(x1) + (1− λ)f(x2)

)­ infx1∈X, g(x1)¬z1, x2∈X, g(x2)¬z2

f(λx1 + (1− λ)x2)

­ infx∈X, g(x)¬λz1+(1−λ)z2

f(x),

Page 102: Optymalizacja II

102 11. Teoria wrażliwości

gdzie pierwsza nierówność wynika z wypukłości f , zaś ostatnia – z własności (11.7):

λx1+(1−λ)x2 : x1 ∈ X, g(x1) ¬ z1, x2 ∈ X, g(x2) ¬ z2 ⊆ x ∈ X : g(x) ¬ λz1+(1−λ)z2.

(3) Musimy udowodnić, że zbiór dopuszczalny Wz jest niepusty dla z z pewnego otoczenia0 ∈ Rm. Wiemy, że istnieje punkt x∗ ∈ X, taki że gi(x∗) < 0, i = 1, . . . ,m. Weźmy a =min−gi(x∗) : i = 1, . . . ,m. Wówczas dla każdego z ∈ [−a, a]m mamy x∗ ∈ Wz. Zatem[−a, a]m ⊂ DM .

Uwaga 11.1.1. Jeśli M(z) = −∞ dla pewnego z ∈ DM , to dla dowolnego z ∈ DM i λ ∈ (0, 1) mamy zwypukłości M

(λz + (1− λ)z

)= −∞.

2. Jeśli M(z) = −∞ dla pewnego z ∈ DM , to M(z) = −∞ dla z ∈ intDM . Wynika to wprostz powyższej uwagi.

3. Jeśli istnieje z ∈ intDM taki że M(z) > −∞, to M(z) > −∞ dla każdego z ∈ DM . Inaczejmielibyśmy sprzeczność z punktem (2).

Twierdzenie 11.3. Jeśli w problemie optymalizacji wypukłej istnieje punkt x∗ ∈ X,taki że gi(x∗) < 0, i = 1, . . . ,m, oraz M(0) > −∞, to M(z) > −∞ dla każdegoz ∈ DM oraz istnieje wektor µ ∈ [0,∞)m wyznaczający płaszczyznę podpierającą M :

M(z) ­M(0)− µT z, z ∈ DM .

Dowód. Z tw. 11.2 wynika, że M jest funkcją wypukłą i 0 ∈ intDM . Zatem na mocy ostatniej zpowyższych uwag mamy M(z) > −∞ dla z ∈ DM . Istnienie płaszczyzny podpierającej wynikaz tw. 3.8:

M(z) ­M(0)− µT z, z ∈ DM ,

dla pewnego µ ∈ Rm. Udowodnimy teraz, że wszystkie współrzędne µ muszą być nieujemne.Przypuśćmy przeciwnie, tzn. µi < 0 dla pewnego i ∈ 1, . . . ,m. Ponieważ 0 ∈ intDM , to dladostatecznie małego a > 0 punkt z = [0, . . . , 0, a, 0, . . . , 0]T , gdzie a jest na i-tej pozycji, należydo DM . Korzystając z ujemności µi mamy

M(z) ­M(0)− µia > M(0).

Z drugiej strony W0 ⊆ Wz, czyli M(z) ¬ M(0). To daje sprzeczność, czyli dowiedliśmy, żeµ ∈ [0,∞)m.

Wektor µ nazywamy wektorem wrażliwości dla problemu (11.4). Z tw. 3.8 wynika, że jeśli funkcjaM jest różniczkowalna w punkcie 0, to µ = −

(DM(0)

)T. Zatem µ oznacza szybkość i kierunek

zmian wartości minimalnej f przy zmianie ograniczeń, podobnie jak w przypadku ograniczeńrównościowych omawianych wcześniej w tym rozdziale.

Zbadajmy teraz relacje pomiędzy wektorem wrażliwości a punktem siodłowym i warunkiempierwszego rzędu. Zauważmy, że powiązanie punktu siodłowego z wektorem wrażliwości niewymaga wypukłości problemu optymalizacyjnego.

Page 103: Optymalizacja II

11.3. Zadania 103

Twierdzenie 11.4.1. Jeśli (x, µ) jest punktem siodłowym funkcji Lagrange’a na zbiorze X × [0,∞)m,to µ jest wektorem wrażliwości (tzn. wyznacza płaszczyznę podpierającą). Teza tanie wymaga założenia o wypukłości problemu optymalizacyjnego.

2. Załóżmy, że funkcje f, g1, . . . , gm są różniczkowalne w x, i wypukłe. Jeśli w xspełniony jest warunek pierwszego rzędu z mnożnikami Lagrange’a µ ∈ [0,∞)m, toµ jest wektorem wrażliwości.

Dowód. (1) Oznaczmy przez Lz(x, µ) funkcję Langrange’a dla problemu zaburzonego. Wówczas

Lz(x, µ) = f(x) +m∑i=1

µi(gi(x)− zi

)= L(x, µ)− µT z.

Z faktu, że (x, µ) jest punktem siodłowym wynika, że

M(0) = L(x, µ) = infx∈X

L(x, µ).

ZatemM(0) = inf

x∈XL(x, µ) = inf

x∈X

(Lz(x, µ) + µT z

)= infx∈X

Lz(x, µ) + µT z. (11.8)

Zauważmy, że dla dowolnego x ∈Wz i µ ∈ [0,∞)m mamy f(x) ­ Lz(x, µ), czyli, w szczególności,

M(z) = infx∈Wz

f(x) ­ infx∈Wz

Lz(x, µ) ­ infx∈X

Lz(x, µ).

Wstawiając tą zależność do (11.8) otrzymujemy

M(0) ¬M(z) + µT z.

(2) Z zadania 10.1 wynika, iż punkt (x, µ) jest punktem siodłowym funkcji Lagrange’a. Tezędostajemy z pierwszej części niniejszego twierdzenia.

11.3. Zadania

Ćwiczenie 11.1. Dla problemu x2

1 + 2x22 → min,

x21 + x2

2 ¬ 0,

x1 ¬ 0.

1. Znaleźć DM .2. Znaleźć wektor wrażliwości.3. Znaleźć funkcję perturbacji.

Wskazówka. Umieszczenie ograniczenia x21 + x2

2 ¬ 0 było intencją autora zadania.

Ćwiczenie 11.2. Znajdź funkcję perturbacji i wektor wrażliwości dla problemux2

1 + x22 → min,

x1 + x2 ¬ 0.

Page 104: Optymalizacja II

104 11. Teoria wrażliwości

Ćwiczenie 11.3. Załóżmy, że w zadaniu optymalizacyjnym (11.4) funkcje f i gi są klasy C1

oraz X = Rn. Czy funkcja perturbacji musi być wówczas klasy C1? Udowodnij lub podajkontrprzykład.

Ćwiczenie 11.4. Załóżmy, że w zadaniu optymalizacyjnym (11.4) funkcje f i gi są ciągłe orazX = Rn. Czy funkcja perturbacji musi być wówczas ciągła? Udowodnij lub podaj kontrprzykład.

Ćwiczenie 11.5. Rozważmy problem producenta. Dysponuje on budżetem b > 0, który możespożytkować na wytworzenie dwóch rodzajów towarów. Pierwszy z towarów sprzedaje po ceniep1 > 0, zaś drugi – po cenie p2 > 0. Cena produkcji opisana jest funkcją c(x1, x2), gdziewektor x opisuje wielkość produkcji każdego z towarów. Celem producenta jest maksymalizacjaprzychodów ze sprzedaży bez przekroczenia budżetu produkcyjnego:

p1x1 + p2x2 → max,

c(x1, x2) ¬ b.

1. Podaj warunki konieczne istnienia rozwiązania powyższego problemu.2. Załóżmy, że c jest funkcją wypukłą. Jak należy zmodyfikować wielkość produkcji, jeślibudżet produkcyjny b wrośnie nieznacznie?

Ćwiczenie 11.6. Rozważmy funkcję f : [0,∞)→ R zadaną wzorem

f(t) = minx,y∈R

ex2−y + y2 − x : x2 + x4 − 2xy + 3y2 ¬ t

.

Uzasadnij, że funkcja f jest dobrze określona i wypukła.

Page 105: Optymalizacja II

12. Metody numeryczne. Optymalizacja bezograniczeń

W poprzednich rozdziałach budowaliśmy teorię służącą rozwiązywaniu problemów optyma-lizacyjnych. By być bardziej precyzyjnym, dowiedliśmy twierdzeń, które ułatwiają znalezieniekandydatów na rozwiązania oraz stwierdzenie, czy któryś z nich jest rozwiązaniem. Niestety wobu tych krokach musimy rozwiązywać układy równań nieliniowych. W praktycznych zadaniachoptymalizacyjnych układy te mogą nie mieć ”ładnych” rozwiązań lub po prostu nie jesteśmyw stanie ich znaleźć w sposób analityczny. Pozostaje wówczas zastosowanie metod numerycz-nych, które pozwolą na przybliżenie rozwiązania. W tym i kolejnych rozdziałach opiszemy kilkatakich algorytmów numerycznych. Algorytmy te będą raczej atakowały problem optymalizacyj-ny bezpośrednio (tzn. nie będziemy się starali znaleźć zbioru punktów spełniających warunekkonieczny pierwszego rzędu). Będą one krok po kroku tworzyły ciąg punktów zbiegający dorozwiązania. Nie oznacza to jednak, że mnożniki Lagrange’a i metody dualne są nieprzydatneprzy tworzeniu algorytmów numerycznych. Wręcz przeciwnie. W przypadku ograniczeń rów-nościowych klasyczne podejście wiedzie właśnie poprzez mnożniki Lagrange’a (tzw. metodamnożników Lagrange’a), patrz monografie Bazaraa, Sherali, Shetty [3] oraz Bertsekas [4, 5]. Myjednak pójdziemy inną drogą, gdyż możemy poświęcić optymalizacji z ograniczeniami zaledwiejeden rozdział.

Na kolejnych stronach będziemy opisywać algorytmy optymalizacyjne oraz analizować ichdziałanie. Ta analiza powinna zawierać następujące punkty:— zbieżność do rozwiązania (poprawność algorytmu),— warunek końca (kiedy możemy przerwać wykonywanie programu, ponieważ znaleziony punkt

jest dostatecznie blisko rozwiązania),— szybkość zbieżności do rozwiązania.W tym rozdziale opiszemy metody optymalizacyjne na prostej. Będą one konieczne do zaim-plementowania algorytmów optymalizacyjnych w wyższym wymiarze, którymi zajmiemy się wroz. 13. Zadania z ograniczeniami rozważymy w roz. 14.

12.1. Optymalizacja bez użycia pochodnych

Zanim przejdziemy do dyskusji właściwego algorytmu, wprowadzimy pojęcie funkcji ściślequasi-wypukłej i jej własności.

Definicja 12.1. Niech W ⊂ Rn będzie zbiorem wypukłym. Funkcję f : W → R nazywamyściśle quasi-wypukłą, jeśli dla dowolnych x,y ∈W , x 6= y oraz λ ∈ (0, 1) zachodzi

f(λx + (1− λ)y) < max

(f(x), f(y)

).

Dowód poniższych własności funkcji quasi-wypukłych pozostawiamy jako ćwiczenie.

Lemat 12.1.1. Funkcja quasi-wypukła ma co najwyżej jedno minimum (lokalne i globalne).2. Funkcja ściśle wypukła jest ściśle quasi-wypukła.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 106: Optymalizacja II

106 12. Metody numeryczne. Optymalizacja bez ograniczeń

3. Funkcja określona na prostej lub otwartym przedziale jest ściśle quasi-wypukła jeśli jestściśle malejąca, ściśle rosnąca lub istnieje punkt x w jej dziedzinie o tej własności, że funkcjajest ściśle malejąca dla x ¬ x i ściśle rosnąca dla x ­ x.

Okazuje się, że własność ścisłej quasi-wypukłości pozwala na skonstruowanie algorytmu znaj-dowania minimum funkcji na domkniętym odcinku bez wykorzystania pochodnych. Głównaobserwacja znajduje się w poniższym lemacie:

Lemat 12.2. Niech f : [a, b]→ R będzie funkcją ściśle quasi-wypukłą i a ¬ x ¬ y ¬ b.1. Jeśli f(x) ­ f(y), to f(z) > f(y) dla każdego z ∈ [a, x).2. Jeśli f(x) ¬ f(y), to f(z) > f(x) dla każdego z ∈ (y, b].

Dowód. Udowodnimy punkt (1) przez sprzeczność. Przypuśćmy, że istnieje z ∈ [a, x) o tejwłasności, że f(z) ¬ f(y). Wówczas z quasi-wypukłości f wynika, że f(x) < max

(f(z), f(y)

)=

f(y), co przeczy założeniu, że f(x) ­ f(y). Dowód punktu (2) jest analogiczny.

Rysunek 12.1. Podział odcinka.

Idea algorytmu jest bardzo prosta. Szukając minimum funkcji ściśle quasi-wypukłej f :[a, b]→ R wybieramy mały ε > 0 i porównujemy wartości w punktach a+b

2 − ε i a+b2 + ε (patrz

rys. 12.1). Jeśli f(a+b

2 − ε)­ f

(a+b

2 + ε), to minimum znajduje się w przedziale

[a+b

2 − ε, b]. W

przeciwnym przypadku jest ono w przedziale[a, a+b

2 + ε].

Algorytm wygląda następująco:Inicjalizacja: Wybierz 0 < ε0 <

a+b2 . Połóż x0 = a, y0 = b.

Krok k-ty:1. Jeśli f

(xk+yk2 − εk

)­ f

(xk+yk2 + εk

), to xk+1 = xk+yk

2 − εk i yk+1 = yk.2. W przeciwnym przypadku xk+1 = xk oraz yk+1 = xk+yk

2 + εk.3. εk+1 = εk/2.Koniec: gdy różnica yk+1 − xk+1 jest dostatecznie mała.Załóżmy, że istnieje minimum x funkcji f na przedziale [a, b] (tak być nie musi, patrz zadanie

12.2). Na mocy lematu 12.2 minimum to leży w przedziale [xk, yk] dla każdego k. Długośćtego przedziału dąży do zera, co pociąga zbieżność zarówno (xk) jak i (yk) do rozwiązania x.Dowiedliśmy zatem poprawności algorytmu.

Jeśli zatrzymamy się w kroku k-tym, to dokładność wyznaczenia punktu minimum zada-na jest przez długość przedziału (xk+1, yk+1). Uzasadnia to wybór warunku końca. Niestety,ze względu na brak założeń dotyczących różniczkowalności, nie możemy nic powiedzieć, jakdokładnie przybliżamy wartość funkcji w punkcie minimum.

W zadaniu 12.3 pokażemy, że długość przedziału (xk, yk) zmniejsza się wykładniczo szybko,tzn. istnieje stała c ∈ (0, 1), taka że

yk − xk ¬ (b− a)ck.

Pamiętając, że rozwiązanie x leży w tym przedziale dla każdego k, wnioskujemy, iż zbieżnośćxk i yk do rozwiązania x jest wykładnicza.

Page 107: Optymalizacja II

12.2. Metoda Newtona 107

12.2. Metoda Newtona

Metoda Newtona służy do znajdowania zer funkcji różniczkowalnej. Stosując ją do funkcjig(x) = f ′(x) możemy znaleźć miejsce zerowania się pochodnej funkcji f lub inaczej punktkrytyczny. Jeśli f jest pseudowypukła, to punkt krytyczny pokrywa się z minimum funkcji. Wpozostałych przypadkach, znaleziony punkt może być tylko punktem przegięcia funkcji.

Dla przypomnienia wyprowadzimy metodę Newtona dla znajdowania minimum funkcji. Za-łóżmy, że funkcja f : R → R jest dwukrotnie różniczkowalna. Przybliżamy ją wokół punktu xza pomocą wielomianu Taylora drugiego stopnia:

f(y) ≈ f(x) + f ′(x)(y − x) +12f ′′(x)(y − x).

Zamiast minimalizować funkcję f szukamy minimum jej przybliżenia. Aby miało to sens musimyzałożyć, że f ′′(x) 6= 0. Różniczkując prawą stronę po y dostajemy wzór na punkt krytycznyprzybliżenia Taylora:

y = x− f ′(x)f ′′(x)

.

Zauważmy, że jeśli w punkcie x zeruje się pochodna f ′(x), to y = x. To daje nadzieję napoprawność podejścia. Dokładniejsze wyniki podamy po zapisaniu algorytmu:

Inicjalizacja: Wybierz punkt początkowy x0 i dokładność ε > 0.

Krok k-ty: xk+1 = xk −f ′(xk)f ′′(xk)

Koniec: gdy |f ′(xk+1)| ¬ ε.

Powyższy algorytm niesie ze sobą wiele wątpliwości. Po pierwsze, nie jest wcale jasne, czyciąg (xk) ma granicę. Co więcej, łatwo znaleźć niezdegenerowany przykład, żeby był on rozbieżny(patrz zadanie 12.4). Rozumiemy przez to, że funkcja przyjmuje minimum globalne w pewnympunkcie, lecz nieodpowiedni wybór punktu początkowego x0 może spowodować, że ciąg (xk)zbiega do nieskończoności. W poniższym lemacie pokazujemy warunek dostateczny, aby takiprzypadek nie miał miejsca. Co więcej, w lemacie tym podajemy warunki dostateczne tego, byzbieżność do minimum lokalnego była wykładniczo szybka.

Lemat 12.3. Załóżmy, że f jest funkcją klasy C2 na otoczeniu minimum lokalnego x orazf ′′(x) > 0. Wówczas istnieje δ > 0, taka że dla xk ∈ B(x, δ) mamy

|xk+1 − x| ¬12|xk − x|.

Dowód. Z ciągłości f ′′ na otoczeniu x oraz z tego, że f ′′(x) > 0 wynika istnienie δ > 0 onastępującej własności: ∣∣∣f ′′(x)− f ′′(y)

f ′′(x)

∣∣∣ ¬ 12

dla x, y ∈ B(x, δ). (12.1)

Załóżmy, że xk ∈ B(x, δ). Z definicji xk+1 dostajemy

xk+1 − x = xk − x−f ′(xk)f ′′(xk)

= xk − x−f ′(xk)− f ′(x)

f ′′(xk),

gdzie w ostatniej równości skorzystaliśmy z równości f ′(x) = 0. Sprowadzamy prawą stronę dowspólnego mianownika i stosujemy twierdzenie o wartości średniej do różnicy pochodnych:

xk+1 − x =1

f ′′(xk)[f ′′(xk)(xk − x)− f ′(xk)− f ′(x)

]=

1f ′′(xk)

[f ′′(xk)− f ′′(θk)

](xk − x),

Page 108: Optymalizacja II

108 12. Metody numeryczne. Optymalizacja bez ograniczeń

gdzie θk należy do przedziału o końcach w x i xk. Obkładamy obie strony wartością bezwzględnąi stosujemy oszacowanie (12.1) dla x = xk i y = θk.

Wniosek 12.1. Przy założeniach powyższego lematu, jeśli xk ∈ B(x, δ) to xl ∈ B(x, δ) dlawszystkich l ­ k.

Drugą bolączką metody Newtona jest to, iż zbiega ona do punktu krytycznego, który możerównież wyznaczać maksimum lokalne lub punkt przegięcia. Założenie pseudowypukłości funkcjif gwarantuje, że punkt krytyczny jest minimum. W pozostałych przypadkach należy zbadaćzachowanie funkcji w otoczeniu znalezionego numerycznie punktu krytycznego i na tej podstawieustalić, czy jest w nim minimum, maksimum lub punkt przegięcia.

Pozostaje jeszcze pytanie o warunek końca. Poniższy lemat podaje jego uzasadnienie.

Lemat 12.4. Niech x będzie minimum lokalnym funkcji f . Załóżmy, że na przedziale U zawie-rającym x w swoim wnętrzu funkcja f jest dwukrotnie różniczkowalna (niekoniecznie klasy C2)oraz

infx∈U

f ′′(x) =: m > 0.

Wówczas dla każdego x ∈ U mamy

|x− x| ¬ |f′(x)|m

, f(x)− f(x) ¬(f ′(x)

)2m

.

Dowód. Ustalmy x ∈ U . Stosujemy tw. Taylora, tw. 1.10, dwukrotnie (przypomnijmy, że f ′(x) =0):

f(x) = f(x) +12f ′′(θ1)(x− x)2,

f(x) = f(x) + f ′(x)(x− x) +12f ′′(θ2)(x− x)2,

gdzie θ1, θ2 leżą w przedziale o końcach x i x, a więc również w przedziale U . Podstawiamypierwsze równanie do drugiego:

−f ′(x)(x− x) =f ′′(θ1) + f ′′(θ2)

2(x− x)2.

Obkładamy obydwie strony modułem i dzielimy przez |x− x| dostając

|f ′(x)| = f ′′(θ1) + f ′′(θ2)2

|x− x|.

Przypomnijmy, że druga pochodna f ′′ jest ograniczona z dołu przez m na U . Zatem |f ′(x)| ­m|x− x|, skąd pierwsza część tezy wynika natychmiastowo.

Drugą nierówność lematu uzyskujemy znów ze wzoru Taylora:

f(x)− f(x) = f ′(x)(x− x) +12f ′′(θ2)(x− x)2 ­ f ′(x)(x− x) +

m

2(x− x)2 ­ f ′(x)(x− x),

gdzie ostatnia nierówność wynika z tego, że m ­ 0. Dowód kończymy mnożąc obie stronynierówności przez −1, obkładając modułem i wstawiając uzyskane wcześniej oszacowanie na|x− x|.

Zwróćmy uwagę, że wszystkie matematyczne wyniki dla metody Newtona zakładają dodat-niość drugiej pochodnej, a zatem ścisłą wypukłość. W pozostałych przypadkach ocena wynikówi dobór parametrów x0, ε pozostaje powierzyć intuicji i doświadczeniom. Nie przeszkadza towszakże w powszechnym stosowaniu metody Newtona i jej różnych modyfikacji. Zainteresowanyczytelnik znajdzie dużo więcej informacji w monografii D. Bertsekas’a [4].

Page 109: Optymalizacja II

12.3. Zadania 109

12.3. Zadania

Ćwiczenie 12.1. Udowodnij lemat 12.1

Ćwiczenie 12.2. Znajdź przykład funkcji ściśle quasi-wypukłej określonej na przedziale do-mkniętym, która nie przyjmuje swojego infimum, czyli zadanie minimalizacyjne nie ma rozwią-zania.

Ćwiczenie 12.3. Wykaż, że w metodzie optymalizacji bez użycia pochodnych długość prze-działu [xk, yk] zmniejsza się w sposób wykładniczy, tzn. istnieje stała c ∈ (0, 1), taka że

yk − xk ¬ (b− a)ck.

Ćwiczenie 12.4. Podaj przykład funkcji f : R → R oraz punktu startowego x0, takich żebyciąg generowany przez metodę Newtona nie miał granicy. Dodatkowo wymagamy, aby funkcjaf miała minimum globalne w 0.

Wskazówka. Rozważ funkcję malejącą przy x dążącym do nieskończoności.

Ćwiczenie 12.5. Udowodnij, że teza lematu 12.3 może zostać wzmocniona bez zmiany założeń:

f(x)− f(x) ¬(f ′(x)

)22m

.

Wskazówka. Przeprowadź dowód bez użycia oszacowania na |x − x|. Skorzystaj oczywiście ztwierdzenia Taylora.

Ćwiczenie 12.6. Opracuj szybki algorytm minimalizowania funkcji wypukłej f : R→ R klasyC1.

Page 110: Optymalizacja II

13. Metody spadkowe

W tym rozdziale przyjrzymy się wielowymiarowym metodom optymalizacji bez ograniczeń.Zakładamy, że f : Rn → R jest funkcją klasy C1. Naszym celem jest znalezienie jej minimum.Wszystkie opisywane metody zbudowane są w oparciu o następujący ogólny schemat. Startuje-my z punktu początkowego x0, który w naszym przekonaniu znajduje się blisko minimum. Wkolejnych krokach generujemy x1,x2, . . . w ten sposób, aby f(xk+1) < f(xk). Spodziewamy się,że w ten sposób dojdziemy aż do minimum f . Może się jednak okazać, że punkty skupienia ciągu(xk) nie będą rozwiązaniami. Na kolejnych stronach tego rozdziału zajmiemy się opisem różnychmetod konstrukcji ciągu (xk) i ich zbieżnością do rozwiązania. Wszystkie wyniki tego rozdziałuw oczywisty sposób przenoszą się na przypadek funkcji określonych na zbiorach otwartych wRn.

Sformułujmy ściśle problem optymalizacyjny:f(x)→ min,

x ∈ Rn.

Metodami spadkowymi nazywamy takie algorytmy, w których kolejny punkt xk+1 zadany jestwzorem

xk+1 = xk + αkdk,

gdzie αk > 0 oraz dk jest kierunkiem spadku, tzn.

Df(xk)dk < 0, jeśli Df(xk) 6= 0,

dk = 0, jeśli Df(xk) = 0.

Zauważmy, że dla dostatecznie małych αk mamy f(xk+1) < f(xk) (patrz zadanie 13.1). Możemywięc liczyć, że przy dobrym doborze αk ciąg punktów (xk) będzie zbiegał do minimum. Niestetynie możemy zagwarantować, że będzie to minimum globalne, ale będziemy starać się znaleźćsposób na zapewnienie zbieżności do minimum lokalnego.

W tym rozdziale skupimy się na metodach największego spadku, czyli takich że dk jestrównoległe do

(Df(xk)

)T . Metody spadkowe będą również grały pierwsze skrzypce w następnymrozdziale, przy optymalizacji numerycznej z ograniczeniami.

Algorytm opisujący metody największego spadku jest dość prosty:

Inicjalizacja: Wybierz punkt początkowy x0.Krok k-ty:1. Wybierz krok αk.2. Połóż xk+1 = xk − αk

(Df(xk)

)T.

Koniec: gdy ‖Df(xk+1)‖ ¬ ε.

Pozostaje doprecyzowanie reguł znajdowania kroku αk. Reguły te są stosowane dla dowol-nych kierunków spadku dk i w takiej formie je prezentujemy. Czytelnik powinien pamiętać, żew przypadku metod największego spadku dk = −

(Df(xk)

)T .— reguła minimalizacji : wybierz αk takie że

f(xk + αkdk) = minα­0

f(xk + αdk).

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 111: Optymalizacja II

13.1. Reguły minimalizacyjne 111

— reguła ograniczonej minimalizacji : ustalmy A > 0. Wybierz αk takie że

f(xk + αkdk) = minα∈[0,A]

f(xk + αdk).

— reguła Armijo: ustalmy s > 0 i β, σ ∈ (0, 1). Połóżmy αk = βmks, gdzie mk jest najmniejsząliczbą całkowitą nieujemną m spełniającą nierówność

f(xk)− f(xk + βmsdk) ­ −σβms Df(xk)dk.

Więcej szczegółów podajemy w poniższych podrozdziałach.

13.1. Reguły minimalizacyjne

Reguła minimalizacji jest dobrze określona, jeśli minimum po prawej stronie istnieje. Do jejimplementacji możemy zastosować wówczas metodę Newtona opisaną w poprzednim rozdziale.Ograniczenie przedziału poszukiwań kroku αk do [0, A] ma dwie zalety. Po pierwsze zadanie toma zawsze rozwiązanie, gdyż minimalizujemy funkcję ciągłą na zbiorze zwartym. Po drugie, mo-żemy zastosować szybsze metody poszukiwania minimum podobne do optymalizacji bez użyciapochodnych opisanej w poprzednim rozdziale.

W zadaniu 13.1 dowodzimy, że obie reguły minimalizacyjne wyznaczają krok o tej własności,że f(xk+1) < f(xk). Pozostają jednak dwa pytania: czy warunek końca jest poprawny i czy ciąg(xk) zbiega do minimum.

W poniższym twierdzeniu dowodzimy, że każdy punkt skupienia ciągu (xk) jest punktemkrytycznym, tzn. zeruje się w nim pochodna. Nie jest jednak w ogólności prawdą, że musi w nimbyć minimum lokalne. Dopiero założenie, że funkcja f jest pseudowypukła daje nam pewność,że w znalezionym punkcie jest minimum, które dodatkowo jest globalne.

Twierdzenie 13.1. Niech (xk) będzie ciągiem skonstruowanym przy pomocy metodynajwiększego spadku z regułą minimalizacji lub minimalizacji ograniczonej. Wówczaskażdy punkt skupienia tego ciągu jest punktem krytycznym.

Dowód. Dowód przeprowadzimy przez sprzeczność. Niech x będzie punktem skupienia, zaś (xkn)podciągiem do niego zbieżnym. Załóżmy, że Df(x) 6= 0T . Głównym pomysłem dowodu będziepokazanie, że istnieje stała γ > 0, taka że dla dostatecznie dużych n, tzn. dla xkn dostateczniebliskich x, zachodzi

f(xkn+1) ¬ f(xkn)− γ,

czyli możliwe jest zmniejszenie wartości funkcji f w kroku kn o co najmniej γ. Pamiętając, żefunkcja f maleje wzdłuż ciągu (xk) mamy

f(xkn+1) ¬ f(xkn+1) ¬ f(xkn)− γ.

Przechodząc do granicy z n→∞ i korzystając z ciągłości f dostajemy sprzeczność z dodatnio-ścią γ.

Do zakończenia dowodu pozostaje nam udowodnienie istnienia takiej stałej γ. Na mocyciągłości pochodnej (przypomnijmy, że w tym rozdziale zakładamy, że f jest klasy C1) istniejeotoczenie V punktu x, takie że

‖Df(x)−Df(y)‖‖Df(x)‖

¬ 12, ∀ x,y ∈ V. (13.1)

Page 112: Optymalizacja II

112 13. Metody spadkowe

Głównym spostrzeżeniem pozwalającym na uzasadnienie powyższej nierówności jest to, że napewnym otoczeniu x norma pochodnej f jest ściśle oddzielona od zera.

Weźmy δ > 0, takie że B(x, 2δ) ⊂ V oraz dodatkowo w przypadku reguły minimaliza-cji ograniczonej δ ¬ A infx∈V ‖Df(x)‖ (zauważmy, że infx∈V ‖Df(x)‖ > 0 na mocy (13.1)).Dla x ∈ B(x, δ) punkt x − δ

(Df(x)

)T/‖Df(x)‖ należy do B(x, 2δ), a więc również do V . Z

twierdzenia o wartości średniej dostajemy

f(x)− f(

x− δ(Df(x)

)T‖Df(x)‖

)= Df(θ)

(Df(x)

)T‖Df(x)‖

)=

δ

‖Df(x)‖Df(θ)

(Df(x)

)T,

gdzie θ jest punktem pośrednim, a więc należy do V . Zajmijmy się teraz produktem pochodnych:

Df(θ)(Df(x)

)T =(Df(x) +Df(θ)−Df(x)

)(Df(x)

)T= ‖Df(x)‖2 +

(Df(θ)−Df(x)

)(Df(x)

)T­ ‖Df(x)‖2 − ‖Df(θ)−Df(x)‖‖Df(x)‖.

Wstawiamy to oszacowanie do poprzedniego wzoru:

f(x)− f(

x− δ(Df(x)

)T‖Df(x)‖

)­ δ‖Df(x)‖ − δ‖Df(θ)−Df(x)‖

= δ‖Df(x)‖(

1− ‖Df(θ)−Df(x)‖‖Df(x)‖

)­ δ

2‖Df(x)‖,

gdzie ostatnia nierówność wynika z (13.1). Powyższe oszacowanie jest prawdziwe dla dowolnegox ∈ B(x, δ), a więc dla xkn dla dostatecznie dużych n. Możemy zatem przyjąć

γ =δ

2inf

x∈B(x,δ)‖Df(x)‖.

Powyższe twierdzenie dowodzi poprawności metody największego spadku, lecz nie mówi nico szybkości zbieżności i o warunku końca. Wzmacniając założenia będziemy mogli dowieść, żezbieżność jest wykładniczo szybka oraz, podobnie jak w lemacie 12.4, warunek końca jest po-prawny. Zdefiniujmy zbiór S = x ∈ Rn : f(x) ¬ f(x0), gdzie x0 jest punktem początkowym.Oznaczmy przez m(x) najmniejszą wartość własną macierzy drugich pochodnych D2f(x), zaśprzez M(x) – jej największą wartość własną.

Lemat 13.1. Załóżmy, że zbiór S jest wypukły, funkcja f jest klasy C2 na otoczeniu S orazm = infx∈Sm(x) > 0. Wówczas punkt minimum x należy do S oraz dla dowolnego x ∈ S

‖x− x‖ ¬ 1m‖Df(x)‖, f(x)− f(x) ¬ 1

m‖Df(x)‖2.

Dowód lematu 13.1 pozostawiamy jako ćwiczenie. Zauważmy, że założenie o wypukłości Sjest dość naturalne. Jeśli macierz D2f(x) jest dodatnio określona, to na pewnej kuli B o środkuw x funkcja f jest wypukła. Jeśli x jest jedynym minimum globalnym, to biorąc x0 dostateczniebliskie x dostajemy, że zbiór poziomicowy S jest zawarty w kuli B i wnioskujemy dalej, że jeston wypukły.

Page 113: Optymalizacja II

13.1. Reguły minimalizacyjne 113

Lemat 13.2. Załóżmy, że zbiór S jest wypukły, funkcja f jest klasy C2 na otoczeniu S orazm = infx∈Sm(x) > 0. Oznaczmy M = supx∈SM(x). Wówczas dla ciągu (xk) wygenerowanegoprzy pomocy metody największego spadku z regułą minimalizacji mamy

f(xk+1)− f(x) ¬(1− m

2M

)(f(xk)− f(x)

),

zaś dla reguły minimalizacji ograniczonej

f(xk+1)− f(x) ¬(1−mγ +

mMγ2

2

)(f(xk)− f(x)

),

gdzie

γ = min( 1M,A).

Dowód. Rozważmy przypadek reguły minimalizacji bez ograniczeń. Z faktu, że f(xk+1) ¬ f(xk)dla każdego k wynika, że (xk) ⊂ S. Na mocy wzoru Taylora, dla α ∈ [0, α], gdzie α = supα ­0 : xk − α

(Df(xk)

)T ∈ S, mamy

f(xk − α

(Df(xk)

)T ) ¬ f(xk) +Df(xk)(− α(Df(xk))T

)+ α2M

2‖Df(xk)‖2

= f(xk)− α‖Df(xk)‖2 + α2M

2‖Df(xk)‖2.

(13.2)

Minimum po prawej stronie przyjmowane jest dla α = 1/M. Przypomnijmy również, że xk+1

realizuje minimum po α ­ 0 z lewej strony. Zatem

f(xk+1) ¬ f(xk)−1

2M‖Df(xk)‖2.

Odejmijmy od obu stron f(x) i zastosujmy nierówność ‖Df(xk)‖2 ­ m(f(xk)− f(x)

)wynika-

jącą z lematu 13.1:

f(xk+1)− f(x) ¬ f(xk)− f(x)− m

2M(f(xk)− f(x)

).

Po prostym przekształceniu dostajemy tezę.

Rysunek 13.1. Wykres funkcji α 7→ M2 α

2 − α.

Zajmijmy się regułą minimalizacji ograniczonej. Wówczas xk+1 realizuje minimum po lewejstronie (13.2) dla α ∈ [0, A‖). Minimum po prawej stronie przy ograniczeniu α ¬ min(A, α)realizowane jest przez α = γ, patrz rys. 13.1. Postępując teraz identycznie jak powyżej dostajemytezę.

Page 114: Optymalizacja II

114 13. Metody spadkowe

Podsumujmy. Na mocy lematu 13.1 wiemy, że warunek końca sformułowany jako ograni-czenie na normę gradientu funkcji f jest poprawny i daje ograniczenia zarówno na odległośćprzybliżenia xk+1 od punktu minimum, jak i na dokładność wyznaczenia wartości minimalnejfunkcji. Zwróćmy uwagę, że czym ”bardziej” ściśle wypukła jest funkcja na otoczeniu x, tj. czymwiększe m, tym ostrzejsza zależność między normą gradientu a odległością od punktu x. Lemat13.2 sugeruje, że zbieżność wartości funkcji jest najszybsza, jeśli funkcja podobnie zachowuje sięwe wszystkich kierunkach, czyli wartości własne macierzy drugich pochodnych leżą dość bliskosiebie. Wówczas iloraz m/M jest największy, co korzystnie wpływa na współczynnik kontrakcji1 − m/(2M). A zatem algorytm największego spadku, podobnie jak wszystkie inne metodyspadkowe, będzie najlepiej pracował na takich funkcjach, które mają stosunkowo duży ilorazm/M , lub inaczej, m jest tego samego rzędu co M .

13.2. Reguła Armijo

Przypomnijmy regułę Armijo. Kładziemy αk = βmks, gdzie mk jest najmniejszą liczbącałkowitą nieujemną m spełniającą nierówność

f(xk)− f(xk + βmsdk) ­ −σβms Df(xk)dk.

Stała s > 0 nazywana jest krokiem, β reguluje szybkość zmniejszania kroku (czym mniejszawartość, tym szybciej krok się zmniejsza), zaś σ odpowiedzialna jest za ostrość warunku: mniej-sza wartość osłabia warunek. Zauważmy, że w przypadku metody największego spadku warunekpowyższy upraszcza się nieznacznie, ponieważ Df(xk)dk = −‖Df(xk)‖2:

f(xk)− f(xk − βms

(Df(xk)

)T ) ­ σβms‖Df(xk)‖2. (13.3)

Implementacja metody Armijo jest bardzo łatwa. Startujemy z punktu xk−s(Df(xk)

)T i spraw-dzamy, czy spełniony jest w nim warunek (13.3). Jeśli tak, to kończymy poszukiwanie. W prze-ciwnym przypadku, rozważamy punkty xk−βs

(Df(xk)

)T, xk−β2s

(Df(xk)

)T, . . . . W zadaniu

13.3 pokażemy, że w skończonej liczbie kroków znajdziemy punkt spełniający warunek (13.3),jeśli dk 6= 0. Z nierówności (13.3) wynika, że f(xk+1) < f(xk).

Twierdzenie 13.2. Niech (xk) będzie ciągiem punktów skonstruowanych przez zasto-sowanie metody najmniejszego spadku z regułą Armijo.

1. Jeśli istnieje punkt skupienia x tego ciągu, to jest on punktem krytycznym.2. Jeśli x jest punktem krytycznym i macierz D2f(x) jest dodatnio określona, toistnieje kula B(x, ε) o środku x i promieniu ε > 0, taka że gdy xk ∈ B(x, ε) dlapewnego k, to ciąg xk dąży do x. W szczególności, jeśli w punkcie skupienia xmacierz drugich pochodnych jest dodatnio określona, to cały ciąg zmierza do x.

Dowód. Dowód pierwszej tezy jest niemal identyczny jak dowód twierdzenia 13.1.Z faktu, że macierz D2f(x) jest dodatnio określona wynika, że istnieje kula otwarta B1 o

środku x, taka że f jest wypukła w B1. Możemy również znaleźć kulę otwartą B2 o środkuw x i mniejszym promieniu niż B1, taką że x − s

(Df(x)

)T ∈ B1, jeśli x ∈ B2. Wynika to zciągłości pochodnej Df wokół x i z tego, że się ona w x zeruje. Ciągłość funkcji f pozwalanam wywnioskować, że istnieje zbiór poziomicowy S = x ∈ B1 : f(x) ¬ α, dla pewnegoα > f(x), zawarty w B2 (zwróć uwagę, że do S wybieramy punkty z większego zbioru B1, leczwymagamy by po zastosowaniu warunktu poziomicowego S było zawarte w B2). Zbiór S ma

Page 115: Optymalizacja II

13.3. Zadania 115

niepuste wnętrze, bo funkcja f jest ciągła i α > f(x). Ponadto jest on oddzielony od brzeguB1, bo B2 ma mniejszy promień. Innymi słowy, jeśli odcinek łączy punkt w S z punktem spozaS, to na tym odcinku jest taki punkt y, że f(y) > α. Wykorzystamy to zaraz. Niech xk ∈ S.Wówczas xk+1 ∈ B1 (bo S ⊂ B2) oraz f(xk+1) < f(xk). Jeśli teraz xk+1 nie zawiera się wS, to, jak ustaliliśmy powyżej, na odcinku łączącym xk z xk+1 musi istnieć punkt y, taki żef(y) > α ­ f(xk) > f(xk+1). Ale cały ten odcinek leży w B1, na którym to zbiorze funkcja fjest wypukła. Nie może więc istnieć na tym odcinku punkt y, w którym wartość jest większaniż w obu jego końcach. Sprzeczność! Wykazaliśmy tym samym, że xk+1 ∈ S. Czyli od pewnegomiejsca ciąg (xk) pozostaje w S. Jako, że S jest zwarty, to każdy podciąg (xk) ma w nim punktskupienia. Z pierwszej częsci twierdzenia wynika, że jest to punkt krytyczny, a takowy może byćtylko jeden w B1 – jest nim x. Udowodniliśmy więc drugą część twierdzenia.

Poprawność warunku stopu algorytmu pozostaje w mocy, gdyż Lemat 13.1 nie zależy odmetody optymalizacyjnej. Teza lematu 13.2 wymaga pewnych zmian, pozostawiając jednakwykładniczą zbieżność (patrz zadanie 13.4).

Jakie zatem są zalety reguły Armijo? Otóż, jak wspomniane zostało wyżej, jest ona prosta wimplementacji i nie wymaga stosowania metod optymalizacji funkcji jednej zmiennej. Koszt tegouproszczenia nie jest zwykle również duży, lecz zależy od parametrów s, β, σ. Nie ma niestetyreguł doboru tych parametrów – pozostawia się to doświadczeniu i intuicji użytkownika.

13.3. Zadania

Ćwiczenie 13.1. Udowodnij, że jeśli d jest kierunkiem spadku w punkcie x, to istnieje δ > 0,taka że dla α ∈ (0, δ) mamy

f(x + αd) < f(x).

Ćwiczenie 13.2. Udowodnij lemat 13.1.

Wskazówka. Przyjrzyj się dokładnie dowodowi lematu 12.4.

Ćwiczenie 13.3. Wykaż, że jeśli dk 6= 0, to wartość αk z reguły Armijo można wyznaczyć wskończonej liczbie kroków (choć różnej dla każdego xk).

Wskazówka. Rozważ funkcję g(α) = f(x) − f(x − α

(Df(x)

)T ) − σα‖Df(x)‖2. Zastanów się,dlaczego teza nie jest poprawna dla σ ­ 1.

Ćwiczenie 13.4. Zmodyfikuj tezę i dowód lematu 13.2 tak, aby stosował się on do metodyArmijo.

Ćwiczenie 13.5. Udowodnij, że w metodzie największego spadku z regułą minimalizacji (bezograniczenia) kolejne kierunki dk są do siebie prostopadłe.

Page 116: Optymalizacja II

14. Metody optymalizacji z ograniczeniami

W tym rozdziale skupimy się na metodach numerycznych rozwiązywania problemów opty-malizacyjnych z ograniczeniami nierównościowymi. Pokażemy problemy z zastosowaniem meto-dy największego spadku i jej naiwnych modyfikacji oraz zaproponujemy skuteczne aczkolwiekbardziej skomplikowane podejście.

Problem optymalizacyjny na następującą postać:f(x)→ min,

gi(x) ¬ 0, i = 1, . . . ,m,

x ∈ Rn,

(14.1)

gdzie f, g1, . . . , gm : Rn → R. A zatem zbiór punktów dopuszczalnych jest zadany przez

W =x ∈ Rn : g1(x) ¬ 0, . . . , gm(x) ¬ 0

. (14.2)

W rozważaniach tego rozdziału będziemy odwoływać się często do pojęcia zbioru kierunkówdopuszczalnych zdefiniowanego następująco

A(x) = d ∈ Rn : d 6= 0 oraz istnieje λ∗ > 0 taka że x + λd ∈W ∀λ ∈ [0, λ∗].

14.1. Algorytm Zoutendijk’a dla ograniczeń liniowych

Rozważmy bardzo prostą modyfikację algorytmu największego spadku. Otóż jeśli punkt znaj-duje się wewnątrz zbioru W , to istnieje możliwość poruszania się wzdłuż kierunku największegospadku aż do uderzenia w brzeg. Jeśli punkt już jest na brzegu, to naturalne jest wybrać takikierunek ruchu, by pozwalał on na jak największy spadek wartości funkcji celu a jednocześniena ruch w jego kierunku. Kierunek taki nazywamy dopuszczalnym kierunkiem spadku w punkciex i definiujemy jako kierunek dopuszczalny d, taki że Df(x)d < 0.

Okazuje się, że pomysł ten działa całkiem dobrze, jeśli ograniczenia są liniowe i nosi nazwęalgorytm Zoutendijk’a. Przypomnijmy, że liniowość ograniczeń znacznie upraszcza problem,co pozwoli nam na rozszerzenie analizy w tym podrozdziale do zagadnień z ograniczeniaminierównościowymi i równościowymi, tzn.

f(x)→ min,

Ax ¬ b,

Qx = a,

x ∈ Rn.

(14.3)

Tutaj A jest macierzą m× n, Q jest macierzą l × n, zaś b ∈ Rm i a ∈ Rl. Poniższy lemat cha-rakteryzuje zbiór dopuszczalnych kierunków spadku. Jego dowód pozostawiamy jako ćwiczenie.

Lemat 14.1. Niech x będzie punktem dopuszczalnym dla zagadnienia (14.3) i załóżmy, żemacierz A i wektor b mogą być podzielone w zależności od aktywności ograniczeń na A1, A2 i

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.

Page 117: Optymalizacja II

14.1. Algorytm Zoutendijk’a dla ograniczeń liniowych 117

b1,b2 (z dokładnością do przenumerowania ograniczeń), tzn. A1x = b1 oraz A2x < b2. Wektord ∈ Rn jest kierunkiem dopuszczalnym w x, jeśli A1d ¬ b1 oraz Qd = 0. Jeśli, ponadto,Df(x)d < 0, to d jest dopuszczalnym kierunkiem spadku.

Jak wybrać najlepszy dopuszczalny kierunek spadku w punkcie x? Najprościej byłoby roz-wiązać zagadnienie

Df(x)d→ min, d ∈ A(x), ‖d‖ ¬ 1. (14.4)

Ograniczenie na normę wektora d jest konieczne. Jeśli byśmy je opuścili, to dla dowolnegodopuszczalnego kierunku spadku d jego wielokrotność λd, λ > 0, jest również kierunkiemspadku. Co więcej, Df(x)d < 0, czyli limλ→∞Df(x)λd = −∞ i problem powyższy nie majednoznacznego rozwiązania.

Korzystając z lematu 14.1 powyższe zagadnienie (14.4) można wyrazić jakoDf(x)d→ min,

A1d ¬ 0,

Qd = 0,

dTd ¬ 1.

Zauważmy, że jedyna nieliniowość związana jest z ograniczeniem na normę wektora d. W prak-tyce, bez większych strat dla jakości algorytmu, zamienia się ją na ograniczenia liniowe, którepozwalają skorzystać z szybkich metod optymalizacji liniowej (np. algorytmu sympleks – patrzmonografie Bazaraa, Jarvis’a, Shetty [2], Gass’a [8] lub Luenberger’a [9]). Najpopularniejsze sąnastępujące dwa zamienniki normy euklidesowej ‖d‖:— norma l∞, tzn. supi |di| ¬ 1, co zapisuje się jako

−1 ¬ di ¬ 1, i = 1, . . . , n.

— norma l1, tzn.∑i |di| ¬ 1, co zapisuje się jako∑n

i=1 ηi ¬ 1,

−ηi ¬ di ¬ ηi, i = 1, . . . , n,

gdzie η1, . . . , ηn są nowymi zmiennymi (pomocniczymi).Oto pełny algorytm:Inicjalizacja: Wybierz punkt początkowy x0.Krok k-ty:1. Wybierz kierunek ruchu dk jako rozwiązanie problemu optymalizacyjnego:

Df(x)d→ min,

A1d ¬ 0,

Qd = 0,

−1 ¬ di ¬ 1, i = 1, . . . , n.

(14.5)

2. Jeśli dk = 0, to zakończ działanie algorytmu. Punkt xk spełnia warunek koniecznypierwszego rzędu. W przeciwnym przypadku kontynuuj.

3. Połóż αk = argminα∈[0,Ak]f(xk + αdk), gdzie Ak jest największą liczbą o tej własności,że odcinek łączący xk i xk +Akdk zawarty jest w W .

4. Połóż xk+1 = xk + αkdk.Przyjrzyjmy się jeszcze raz wyborowi kierunku dk. Wektor d = 0 spełnia wszystkie ograniczenia,a zatem optymalna wartość funkcji celu Df(x)dk jest co najwyżej równa zeru. Wówczas punktxk spełnia warunek konieczny pierwszego rzędu, czego dowodzimy w poniższym lemacie.

Page 118: Optymalizacja II

118 14. Metody optymalizacji z ograniczeniami

Lemat 14.2. W xk spełniony jest warunek konieczny pierwszego rzędu wtw, gdy dk = 0.

Dowód. Przypomnijmy najpierw notację. Przez D(xk) oznaczamy stożek kierunków spadku,tzn.

D(xk) = d ∈ Rn : Df(xk)d < 0,

zaś przez Tlin(xk) – stożek kierunków stycznych dla ograniczeń zlinearyzowanych w punkcie xk,który dla ograniczeń liniowych danych jest wzorem

Tlin(xk) = d ∈ Rn : A1d ¬ 0, Qd = 0.

Zauważmy, że dk = 0 jest rozwiązaniem zagadnienia (14.5) wtw, gdy D(xk) ∩ Tlin(xk) = ∅.Postępując dalej jak w dowodzie twierdzenia 8.1 dostajemy implikację w lewo. Implikacja wdrugą stronę wynika faktu, że na mocy lematu Farkasa, lemat 5.3, istnienie rozwiązania (8.5)pociąga brak rozwiązania (8.4), co jest równoważne temu, że D(xk) ∩ Tlin(xk) = ∅.

14.2. Algorytm Zoutendijk’a dla ograniczeń nieliniowych

Zastanówmy się, czy algorytm Zoutendijk’a działa równie dobrze dla ograniczeń nielinio-wych:

Inicjalizacja: Wybierz punkt początkowy x0.Krok k-ty:1. Wybierz kierunek ruchu dk jako rozwiązanie problemu optymalizacyjnego:

Df(x)d→ min, d ∈ A(x), ‖d‖ ¬ 1.

2. Jeśli dk = 0, to zakończ działanie algorytmu. Punkt xk spełnia warunek koniecznypierwszego rzędu. W przeciwnym przypadku kontynuuj.

3. Połóż αk = argminα∈[0,Ak]f(xk + αdk), gdzie Ak jest największą liczbą o tej własności,że odcinek łączący xk i xk +Akdk zawarty jest w W .

4. Połóż xk+1 = xk + αkdk.

Rysunek 14.1. Ilustracja szybkiej zbieżności metody największego spadku.

W poniższych przykładach rozważamy minimalizowanie funkcji f(x1, x2) = −2x1 − x2 naróżnych zbiorach. Punkt minimum oznaczamy zawsze przez x. Na rysunku 14.1 widać, że już wkroku drugim osiągamy minimum. Jeśli zbiór W nie jest wypukły algorytm prowadzi nas w koziróg, z którego już nie możemy się uwolnić, patrz 14.2. Jest to niestety cecha wszystkich algoryt-mów tego typu, więc musimy zawsze wymagać, by zbiór punktów dopuszczalnych był wypukły.Czy to już wystarczy? Niestety nie. Na rysunku 14.3 możemy zobaczyć, że nawet w przypadku

Page 119: Optymalizacja II

14.2. Algorytm Zoutendijk’a dla ograniczeń nieliniowych 119

Rysunek 14.2. Ilustracja zakleszczenia metody największego spadku dla zbioru niewypukłego.

Rysunek 14.3. Ilustracja problemu ze znalezieniem kierunku dopuszczalnego największego spad-ku.

zbioru wypukłego algorytm nie działa. Problem wyboru kierunku d1 nie ma rozwiązania, gdyżzbiór D(x1) nie jest domknięty. Intuicyjnie łatwo jest podać rozwiązanie tego problemu. Należywybrać taki kierunek dk, aby nie tylko spadek był jak największy, ale również, żeby dość dużyfragment półprostej poprowadzonej w tym kierunku zawierał się w zbiorze W . Co więcej, zależynam na prostocie, czytaj liniowości, zagadnienia optymalizacyjnego wyznaczającego kierunekdk. Rozwiązanie podpowiada następujący lemat, którego dowód pozostawiamy jako ćwiczenie.

Lemat 14.3. Niech x będzie punktem dopuszczalnym. Jeśli f, gi, i ∈ I(x) są różniczkowalnew x i gi, i /∈ I(x) są ciągłe w x, to kierunek d ∈ Rn spełniający Df(x)d < 0 i Dgi(x)d < 0,i ∈ I(x), jest dopuszczalnym kierunkiem spadku.

Lemat powyższy podaje tylko warunek dostateczny. Łatwo znaleźć przykład zagadnieniaoptymalizacyjnego z ograniczeniami nierównościowymi, dla którego jeden z dopuszczalnym kie-runków spadku nie spełnia założeń lematu (ćwiczenie 14.5).

Page 120: Optymalizacja II

120 14. Metody optymalizacji z ograniczeniami

Znalezienie wektora d ∈ Rn spełniającego Df(x)d < 0 i Dgi(x)d < 0, i ∈ I(x) sprowadzasię do rozwiązania zagadnienia

maxDf(x)d, Dgi(x)d, i ∈ I(x)

→ min,

−1 ¬ dk ¬ 1, k = 1, . . . , n.

Trudną w implementacji funkcję celu można sprowadzić do znacznie prostszej formy problemuoptymalizacji liniowej:

η → min,

Df(x)d ¬ η,Dgi(x)d ¬ η, i ∈ I(x),

−1 ¬ dk ¬ 1, k = 1, . . . , n.

(14.6)

Optymalizacji dokonuje się tutaj względem dwóch zmiennych: d ∈ Rn oraz η ∈ R. Zauważmy,że η ¬ 0, gdyż para d = 0, η = 0 rozwiązuje powyższy układ. Jeśli wartość funkcji celu jestmniejsza od zera, to, na mocy lematu 14.1, rozwiązanie jest dopuszczalnym kierunkiem spadku.Jeśli η = 0 jest rozwiązaniem i w punkcie x spełniony jest warunek liniowej niezależnościograniczeń, to wówczas w x zachodzi warunek konieczny pierwszego rzędu. Prawdziwa jestrównież odwrotna implikacja.

Lemat 14.4. Jeśli w punkcie dopuszczalnym x spełniony jest warunek liniowej niezależnościograniczeń i rozwiązaniem problemu (14.6) jest η = 0, to w x zachodzi warunek koniecznypierwszego rzędu. I odwrotnie, jeśli w x spełniony jest warunek konieczny pierwszego rzędu, torozwiązaniem (14.6) jest η = 0 (nie jest tu konieczne założenie o regularności punktu x).

Dowód. Jeśli η = 0 jest rozwiązaniem, to układ Ad < 0, gdzie A składa się wierszowo z gradien-tów Df(x) i Dgi(x), i ∈ I(x), nie ma rozwiązania. Na mocy lematu 6.2 istnieje y ­ 0, y 6= 0,dla którego ATy = 0. Połóżmy (µ0, µi, i ∈ I(x)) = y i µi = 0, i /∈ I(x). Równość ATy = 0zapisać można w następujący sposób:

µ0Df(x) +∑i∈I(x)

µiDgi(x) = 0T .

Z założenia o liniowej niezależności gradientów ograniczeń aktywnych wnioskujemy, że µ0 6= 0.Kładąc µi = µi/µ0, i = 1, . . . ,m, dostajemy wektor mnożników Lagrange’a z warunku koniecz-nego pierwszego rzędu.

Aby dowieść implikacji odwrotnej, zauważmy, że jeśli w x spełniony jest warunek koniecznypierwszego rzędu, to y =

(1, µi, i ∈ I(x)

)spełnia następujące warunki: y ­ 0, y 6= 0 i ATy = 0.

Na mocy lematu 6.2 nie istnieje d ∈ Rn, dla którego Ad < 0. A zatem rozwiązaniem 14.6 jestη = 0.

Zapiszmy w pełni algorytm zaproponowany przez Zoutendijka dla problemów z nieliniowymiograniczeniami nierównościowymi:

Inicjalizacja: Wybierz punkt początkowy x0.Krok k-ty:1. Wybierz kierunek ruchu dk jako rozwiązanie problemu optymalizacyjnego (14.6)2. Jeśli η = 0, to zakończ działanie algorytmu. Punkt xk spełnia warunek konieczny pierw-

szego rzędu. W przeciwnym przypadku kontynuuj.3. Połóż αk = argminα∈[0,Ak]f(xk + αdk), gdzie Ak jest największą liczbą o tej własności,

że odcinek łączący xk i xk +Akdk zawarty jest w W .4. Połóż xk+1 = xk + αkdk.

Page 121: Optymalizacja II

14.2. Algorytm Zoutendijk’a dla ograniczeń nieliniowych 121

Przykład 14.1. Rozważmy problem optymalizacji z ograniczeniami nieliniowymi:

2x2

1 + 2x22 − 2x1x2 − 4x1 − 6x2 → min,

x1 + 5x2 ¬ 5,

2x21 − x2 ¬ 0,

x1 ­ 0, x2 ­ 0.

Pokażemy, w jaki sposób postępując iteracje metody Zoutendijka. Weźmy punkt startowy x0 =(0, 0.75)T . Dostajemy następujący ciąg punktów:

x1 = (0, 2083, 0.5477)T , x2 = (0.5555, 0.8889)T ,

x3 = (0.6479, 0.8397)T , x4 = (0.6302, 0.8740)T .

Widzimy, że ciąg ten dość znacznie oscyluje w zbiorze punktów dopuszczalnych, patrz rys. 14.4.Jest to charakterystyczne zachowanie metody kierunków spadku dla problemów z ograniczenia-mi.

Rysunek 14.4. Oscylacja ciągu generowanego przez metodę Zoutendijka.

Algorytm Zoutendijka może polec nawet na dość prostych prostych problemach optymaliza-cyjnych. Rozważmy minimalizowanie funkcji liniowej f(x) = −2x1−x2 na zbiorze zaznaczonymna rysunku 14.5. Minimum znajduje się w punkcie x = (1, 1)T . Rozpoczynając od punktux0 = (−1, 0)T , kolejne iteracje algorytmu Zoutendijka wygenerują ciąg punktów zbiegający do(1, 0)T . Algorytm ten nie pozwoli nam na przybliżenie właściwego rozwiązania x. Co więcej,wartość funkcji celu w punkcie (1, 0)T wynosi −2, w porównaniu do f(x) = −3. W następnympodrozdziale pokażemy jak mała modyfikacja pozwoli naprawić algorytm Zoutendijka.

Page 122: Optymalizacja II

122 14. Metody optymalizacji z ograniczeniami

Rysunek 14.5. Ilustracja zbieżności algorytmu Zoutendijka do punktu nie będącego rozwiąza-niem.

14.3. Modyfikacja Topkis’a-Veinott’a

Topkis i Veinott zaproponowali w roku 1967 niewielką modyfikację wyznaczania kierunkudk w algorytmie Zoutendijka:

η → min,

Df(x)d ¬ η,Dgi(x)d ¬ η − gi(x), i = 1, . . . ,m,

−1 ¬ dk ¬ 1, k = 1, . . . , n.

(14.7)

Linia dotycząca warunku na gradienty ograniczeń obejmuje teraz wszystkie ograniczenia. Dlaograniczeń aktywnych, i ∈ I(x), mamy gi(x) = 0, a więc warunki te są identyczne jak w (14.6).W przypadku ograniczeń nieaktywnych gi(x) < 0, czyli prawa strona jest większa niż η. Oile dla dużych wartości gi(x) ograniczenie takie jest prawie niezauważalne, to dla ograniczeń,które są ”prawie aktywne”, odgrywa znaczną rolę. Poza tym, z punktu widzenia implementacji,rozwiązuje to kwestię znajdowania zbioru ograniczeń aktywnych (ze względu na niedokładnościzapisu liczb, prawie nigdy nie będzie spełniony warunek gi(x) = 0).

O skuteczności modyfikacji (14.7) świadczy następujące twierdzenie, które podamy bez do-wodu:

Twierdzenie 14.1. Załóżmy, że f, gi, i = 1, . . . ,m, są klasy C1. Jeśli ciąg (xk)wygenerowany przez algorytm Zoutendijka z modyfikacją Topkis’a-Veinott’a posiadapunkt skupienia, w którym spełniony jest warunek liniowej niezależności, to zachodziw nim warunek konieczny pierwszego rzędu.

Page 123: Optymalizacja II

14.4. Podsumowanie 123

14.4. Podsumowanie

Metody numeryczne opisane w tym rozdziale pozwalają na znalezienie aproksymacji punk-tów, w których spełniony jest warunek konieczny pierwszego rzędu. Twierdzenie 7.6 zagwa-rantuje dopiero optymalność tych punktów. W szczególności, jeśli ograniczenia są liniowe, towystarczy założyć pseudowypukłość funkcji f . Zwróćmy uwagę, że wymagaliśmy podobnychzałożeń w poprzednim rozdziale, dla optymalizacji bez ograniczeń. Wymóg wypukłości okazujesię bardzo naturalnym i, co więcej, koniecznym dla sprawnego działania tych metod.

14.5. Zadania

Ćwiczenie 14.1. Znajdź graficznie zbiór dopuszczalnych kierunków spadku w punkcie x =(2, 3)T dla zagadnienia

(x1 − 6)2 + (x2 − 2)2 → min,

−x1 + 2x2 ¬ 4,

3x1 + 2x2 ¬ 12,

x1 ­ 0, x2 ­ 0.

Ćwiczenie 14.2. Udowodnij lemat 14.1.

Ćwiczenie 14.3. Rozwiąż następujące zagadnienie optymalizacyjne z ograniczeniami liniowy-mi:

2x21 + 2x2

2 − 2x1x2 − 4x1 − 6x2 → min,

x1 + x2 ¬ 2,

x1 + 5x2 ¬ 5,

x1 ­ 0, x2 ­ 0.

Zastosuj algorytm Zoutendijka i weź jako punkt początkowy x0 = 0.

Wskazówka. Algorytm kończy się w trzeciej iteracji (optymalna wartość funkcji celu w zagad-nieniu poszukiwania kierunku dk wynosi wówczas 0).

Ćwiczenie 14.4. Udowodnij lemat 14.3.

Ćwiczenie 14.5. Podaj przykład problemu optymalizacyjnego z ograniczeniami nierównościo-wymi, dla którego istnieje dopuszczalny kierunek spadku, który nie spełnia założeń lematu 14.3.

Page 124: Optymalizacja II

Literatura

[1] K.J. Arrow, A.C. Enthoven. Quasi-concave programming. Econometrica, 29:779–800, 1961.[2] M. Bazaraa, J. Jarvis, H. Sherali. Linear Programming and Network Flows. John Wiley and Sons,

1990.[3] M. Bazaraa, H. Sherali, C. Shetty. Nonlinear programming. John Wiley and Sons, wydanie 3, 2006.[4] D.P. Bertsekas. Constrained Optimization and Lagrange Multiplier Methods (Optimization and

Neural Computation Series). Athena Scientific, wydanie 1, 1996.[5] D.P. Bertsekas. Nonlinear programming. Athena Scientific, wydanie 2, 1999.[6] M.D. Canon, C.D. Cullum, E. Polak. Sterowanie optymalne i programowanie matematyczne. WNT,

1975.[7] W.F. Donoghue. Distributions and Fourier transforms. Academic Press, New York, 1969.[8] S. Gass. Programowanie liniowe. PWN, 1980.[9] D.G. Luenberger. Linear and Nonlinear Programming. Addison-Wesley, wydanie 2, 1984.

[10] A.W. Roberts, D. Varberg. Convex functions. Academic Press, New York, 1973.[11] R.T. Rockafellar. Convex Analysis. Princeton University Press, 1970.[12] W.I. Zangwill. Programowanie nieliniowe. WNT, 1974.

Optymalizacja II c© J. Palczewski, Uniwersytet Warszawski, 2014.