Ekstrema funkcji wielu zmiennych

Ekstrema funkcji wielu zmiennych.


Dowodzimy wzoru Taylora dla funkcji wielu zmiennych. Jego konsekwencją jest warunek wystarczający istnienia ekstremum. Pokazujemy szereg przykładów prowadzących do zastosowania wykazanego warunku wystarczającego oraz takich, w których nie jest to niezbędne.

Wzór Taylora dla funkcji wielu zmiennych

Niech \( \displaystyle f:X\mapsto Y \) będzie funkcją klasy \( \displaystyle C^{m+1} \) określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \) o wartościach w przestrzeni Banacha \( \displaystyle Y \). Podobnie jak w przypadku funkcji jednej zmiennej rzeczywistej zachodzi następujące

Twierdzenie 8.1. [twierdzenie Taylora]

Dla dowolnych punktów \( \displaystyle a \) oraz \( \displaystyle a+h \) zbioru \( \displaystyle U \) takich, że odcinek

\( \displaystyle \{a+th, \ t\in [0,1]\}\subset U, \)

zachodzi równość

\( \displaystyle f(a+h)=f(a)+d_a f(h)+\frac{1}{2!}d^2_a f(h,h)+\frac{1}{3!}d^3_a f(h,h,h)+\dots+\frac{1}{m!}d^m_a f\underbrace{(h,h,\dots, h)}_{m \text{ wektorów } h} +R_m f(a, h), \)

gdzie

\( \displaystyle \|R_m f(a,b)\|_{y}\leq \frac{1}{(m+1)!}\sup\{|d^{m+1} _{a+th}(h,h, \dots, h)|, \ t\in[0,1]\}. \)

Definicja 8.2.

Funkcję \( \displaystyle \begin{align*} X\in h\mapsto T_a^m f(h) & = f(a)+d_a f(h)+\frac{1}{2!}d^2 _a f(h,h)+\dots+\frac{1}{m!}d^m _a f\underbrace{(h, h, \dots, h)}_{m \text{ razy }} \\ & = \sum_{k=0}^m \frac{1}{k!}d^k_a\underbrace{(h, h, \dots, h)}_{k \text{ razy }}\in Y\end{align*} \)

nazywamy wielomianem Taylora rzędu \( \displaystyle m \) funkcji \( \displaystyle f \) o środku w punkcie \( \displaystyle a \).

Uwaga 8.3.

Zauważmy, że jeśli \( \displaystyle X=\mathbb{R}^n \) i \( \displaystyle Y=\mathbb{R} \), to wielomian Taylora funkcji \( \displaystyle f: \mathbb{R}^n\mapsto \mathbb{R} \) rzędu \( \displaystyle m \) o środku w punkcie \( \displaystyle a \) można wyrazić za pomocą pochodnych cząstkowych funkcji \( \displaystyle f \) w następujący sposób:

\( \displaystyle \begin{align*} T_a^m f(h) & =\sum_{k=0}^m \frac{1}{k!}\sum_{|\alpha|=k}\binom{k}{\alpha}\frac{\partial^k}{\partial x^\alpha}f(a)h^\alpha \\ & =\sum_{k=0}^m \sum_{|\alpha|=k}\frac{1}{\alpha!}\frac{\partial^k}{\partial x^\alpha}f(a)h^\alpha \\ & = \sum_{|\alpha|\leq m}\frac{1}{\alpha!}\frac{\partial^{|\alpha|}}{\partial x^\alpha}f(a)h^\alpha ,\end{align*} \)

gdzie \( \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n)\in \mathbb{N}_0^n \) jest \( \displaystyle n \)-wskaźnikiem o długości \( \displaystyle |\alpha|=\alpha_1+\alpha_2+\dots+\alpha_n \). (Oznaczenia: \( \displaystyle \alpha! \), \( \displaystyle h^\alpha \), \( \displaystyle \frac{\partial^k }{\partial x^\alpha} \) wprowadziliśmy przy omawianiu różniczek wyższego rzędu). W szczególnym (ale bardzo często spotykanym) przypadku funkcji \( \displaystyle f: \mathbb{R}^2\ni (x_1, x_2)\mapsto f(x_1, x_2)\in \mathbb{R} \) dwóch zmiennych \( \displaystyle x_1, x_2 \) wielomian Taylora o środku w punkcie \( \displaystyle a=(a_1, a_2)\in \mathbb{R}^2 \) przyjmuje postać

\( \displaystyle \begin{align*} T_a ^m f(h) & =\sum_{k=0}^m \sum_{\alpha_1+\alpha_2=k} \frac{1}{\alpha_1 !\alpha_2 !}\frac{\partial^k f(a)}{\partial x_1^{\alpha_1}\partial x_2^{\alpha_2}}h_1^{\alpha_1}h_2^{\alpha_2} \\ & =\sum_{\alpha_1+\alpha_2\leq m} \frac{1}{\alpha_1 !\alpha_2 !}\frac{\partial^{\alpha_1+\alpha_2} f(a)}{\partial x_1^{\alpha_1}\partial x_2^{\alpha_2}}h_1^{\alpha_1}h_2^{\alpha_2},\end{align*} \)

gdzie \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \).

Dowód 8.3.

Twierdzenie Taylora wykażemy w szczególnym przypadku, gdy \( \displaystyle f: X\supset U\mapsto \mathbb{R} \) jest funkcją o wartościach rzeczywistych, określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \). Niech, zgodnie z założeniem, \( \displaystyle a \) oraz \( \displaystyle a+h \) będą takimi

punktami zbioru \( \displaystyle U \), że odcinek \( \displaystyle \{a+th, 0\leq t\leq 1\}\subset U \). Rozważmy funkcję

\( \displaystyle g:(0-\epsilon, 1+\epsilon)\ni t\mapsto f(a+th)\in\mathbb{R} \)

określoną w pewnym otoczeniu otwartym odcinka \( \displaystyle [0,1] \). Funkcja \( \displaystyle g \) jest w tym zbiorze klasy \( \displaystyle C^{m+1} \), gdyż \( \displaystyle f \) jest tej klasy w otoczeniu odcinka \( \displaystyle \{a+th, \ 0\leq t\leq 1\}\subset U \). Ponadto z twierdzenia o różniczkowaniu złożenia funkcji mamy dla dowolnej liczby \( \displaystyle 0\leq t\leq 1 \) równość

\( \displaystyle \frac{d^k}{dt^k}g(0)=d^k_a f\circ \underbrace{(d_0 (a+th), d_0 (a+th), \dots, d_0 (a+th))}_{k \text{ razy}} =d^k_a f\underbrace{(h, h, \dots, h)}_{k \text{ razy}}. \)

Ze twierdzenia Taylora dla funkcji jednej zmiennej \( \displaystyle g \) oraz z powyższej równości mamy

\( \displaystyle \begin{align*} f(a+h)= & g(0+1) \\ & =g(0)+g'(0)1+\frac{1}{2!}g''(0)1^2+\dots+\frac{1}{m!}g^{(m)}(0)1^m+\frac{1}{(m+1)!}g^{(m+1)}(0+\theta \cdot 1)1^{m+1} \\ & =f(a)+d_a f(h)+\frac{1}{2!}d^2_a f(h,h)+\dots+\frac{1}{m!}d^m_a f(h,h,\dots, h)+\frac{1}{(m+1)!}d^{m+1}_{a+\theta h} f(h,h,\dots, h, h),\end{align*} \)

gdzie \( \displaystyle \theta\in (0,1) \) jest pewnym punktem pośrednim. Stąd mamy też oszacowanie reszty we wzorze Taylora:

\( \displaystyle |R_m f (a,h)|=\bigg|\frac{1}{(m+1)!}d^{m+1}_{a+\theta h} f(h,h,\dots, h, h\bigg|\leq \frac{1}{(m+1)!}\sup\{|d^{m+1}_{a+\theta h} f(h,h,\dots, h, h)|, 0\leq \theta\leq 1\}. \)

Ekstrema funkcji wielu zmiennych

Pamiętamy, że dowolna przestrzeń unormowana \( \displaystyle X \) jest przestrzenią metryczną z metryką \( \displaystyle d(x,y)=\|x-y\| \) zadaną przez normę \( \displaystyle \|\cdot \| \) przestrzeni \( \displaystyle X \). Stąd też definicja ekstremum funkcji \( \displaystyle f: X\mapsto \mathbb{R} \) o wartościach rzeczywistych określonej na przestrzeni unormowanej jest taka sama jak w przypadku przestrzeni metrycznej, czyli funkcja \( \displaystyle f \) przyjmuje w punkcie \( \displaystyle a\in \mathrm{dom}\, f \) minimum lokalne (odpowiednio: maksimum lokalne, ścisłe minimum lokalne, ścisłe maksimum lokalne), jeśli istnieje liczba \( \displaystyle \delta >0 \) taka, że zachodzą odpowiednio implikacje:

\( \displaystyle d(x, a) < \delta\Longrightarrow f(x)\geq f(a) \)

\( \displaystyle d(x, a) < \delta \Longrightarrow f(x)\leq f(a) \)

\( \displaystyle 0 < d(x,a) < \delta\Longrightarrow f(x)>f(a) \)

\( \displaystyle 0 < d(x,a) < \delta \Longrightarrow f(x) < f(a). \)

Minimum funkcji w punkcie \( \displaystyle a \) nazywamy globalnym, jeśli \( \displaystyle f \) osiąga w punkcie \( \displaystyle a \) kres dolny wartości. Jeśli zaś w punkcie \( \displaystyle a \) funkcja osiąga kres górny, to mówimy, że osiąga w punkcie \( \displaystyle a \) maksimum globalne.

Sformułujmy wpierw warunek konieczny istnienia ekstremum funkcji \( \displaystyle f \).

Twierdzenie 8.4.

Jeśli funkcja różniczkowalna \( \displaystyle f: X\subset U\mapsto \mathbb{R} \) osiąga ekstremum w punkcie \( \displaystyle a \) zbioru otwartego \( \displaystyle U \), to w punkcie tym zeruje się różniczka funkcji \( \displaystyle f \), tzn. \( \displaystyle d_a f(h)=0 \), gdzie \( \displaystyle h\in X \) jest dowolnym wektorem przestrzeni \( \displaystyle X \).

Dowód 8.4.

Załóżmy, że funkcja \( \displaystyle f \) osiąga maksimum lokalne w punkcie \( \displaystyle a\in U \). Ustalmy pewien wektor \( \displaystyle h\in X \), \( \displaystyle \|h\|=1 \) i rozważmy

zacieśnienie funkcji \( \displaystyle f \) do prostej

\( \displaystyle \{a+th, t\in\mathbb{R}\} \)

o kierunku \( \displaystyle h \) przechodzącej przez punkt \( \displaystyle a \). Zacieśnienie to

\( \displaystyle \mathbb{R}\ni t\to f(a+th)\in \mathbb{R} \)

jest funkcją jednej zmiennej, osiągającą maksimum w \( \displaystyle t=0 \). Stąd pochodna w zerze funkcji \( \displaystyle t\mapsto f(a+th) \) jest równa zeru. Ale pochodna ta jest tożsama z pochodną kierunkową funkcji \( \displaystyle f \) w kierunku wektora \( \displaystyle h \). Wobec dowolności \( \displaystyle h \) różniczka \( \displaystyle d_a f=0 \).

Uwaga 8.5.

Zwróćmy uwagę, że funkcja może osiągać ekstremum w punkcie, w którym nie jest różniczkowalna. Na przykład \( \displaystyle f(x,y)=|x|+|y| \) osiąga wartość minimalną w punkcie \( \displaystyle (0,0) \), w którym nie jest różniczkowalna.

wykres

Wykres funkcji \( \displaystyle f(x,y)=|x|+|y| \)

Przyjmijmy wobec tego następującą definicję.

Definicja 8.6.

Mówimy, że \( \displaystyle a\in \mathrm{dom}\, f \) jest punktem krytycznym funkcji \( \displaystyle f \), jeśli \( \displaystyle a \) należy do dziedziny różniczki funkcji \( \displaystyle f \) i różniczka zeruje się w tym punkcie, bądź też punkt \( \displaystyle a \) należy do dziedziny funkcji i nie istnieje różniczka \( \displaystyle d_a f \).

Wniosek 8.7.

Jeśli funkcja \( \displaystyle f \) osiąga ekstremum w punkcie \( \displaystyle a\in \mathrm{dom}\, f \), to punkt ten jest krytyczny.

Implikacja te stanowi warunek konieczny istnienia ekstremum także w przypadku funkcji, od których nie żądamy różniczkowalności w otoczeniu wszystkich punktów dziedziny.

Wzór Taylora umożliwia, podobnie jak w przypadku jednowymiarowym, sformułowanie warunku wystarczającego istnienia ekstremum.

Definicja 8.8.

Niech \( \displaystyle A\in L^2(X, \mathbb{R}) \) będzie odwzorowaniem dwuliniowym symetrycznym określonym na \( \displaystyle X\times X \), gdzie \( \displaystyle X \) jest pewną przestrzenią Banacha. Mówimy, że forma

kwadratowa

\( \displaystyle X\ni h\mapsto A(h,h) \)

jest

  • dodatnio określona, jeśli istnieje stała \( \displaystyle C>0 \) taka, że

\( \displaystyle A(h,h)\geq C\|h\|^2, \text{ dla dowolnego wektora } h \in X, \)

  • ujemnie określona, jeśli istnieje stała \( \displaystyle C>0 \) taka, że

\( \displaystyle A(h,h)\leq - C\|h\|^2, \text{ dla dowolnego wektora } h \in X, \)

  • nieujemnie określona, jeśli

\( \displaystyle A(h,h)\geq 0, \text{ dla dowolnego wektora } h \in X, \)

  • niedodatnio określona, jeśli

\( \displaystyle A(h,h)\leq 0, \text{ dla dowolnego wektora } h \in X, \)

  • nieokreślona, jeśli nie jest ani dodatnio, ani ujemnie,

ani nieujemnie, ani niedodatnio określona.

Często mówimy też, że odwzorowanie dwuliniowe symetryczne \( \displaystyle A\in L^2 (X, \mathbb{R}) \) jest dodatnio określone (odpowiednio: ujemnie określone, nieujemnie określone, niedodatnio określone, nieokreślone), jeśli forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest określona dodatnio (odpowiednio: określona ujemnie, określona nieujemnie, określona niedodatnio, bądź jest nieokreślona).

Uwaga 8.9.

a) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest dodatnio określona wtedy i tylko wtedy, gdy forma \( \displaystyle h\mapsto -A(h,h) \) jest ujemnie określona.

b) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest nieujemnie określona wtedy i tylko wtedy, gdy forma \( \displaystyle h\mapsto -A(h,h) \) jest niedodatnio określona.

c) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest nieokreślona wtedy i tylko wtedy, gdy nieokreślona jest forma \( \displaystyle h\mapsto -A(h,h) \).

Korzystając ze wzoru Taylora, wykażemy warunek wystarczający istnienia ekstremum funkcji wielu zmiennych.

Twierdzenie 8.10.

Niech \( \displaystyle f \) będzie funkcją klasy \( \displaystyle C^2 \) w otwartym otoczeniu \( \displaystyle U \) punktu \( \displaystyle a \). Załóżmy, że różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) jest równa zeru.

a) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest dodatnio określona, funkcja \( \displaystyle f \) osiąga ścisłe minimum lokalne w punkcie \( \displaystyle a \).

b) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest ujemnie określona, funkcja \( \displaystyle f \) osiąga ścisłe maksimum lokalne w punkcie \( \displaystyle a \).

c) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest nieokreślona, funkcja \( \displaystyle f \)

nie osiąga ekstremum w punkcie \( \displaystyle a \).

Dowód 8.10.

a) Ze wzoru Taylora (wobec założenia o pierwszej różniczce: \( \displaystyle d_a f=0 \)) dostajemy równość prawdziwą w otoczeniu punktu \( \displaystyle a \) na tyle małym, aby odcinek \( \displaystyle \{a+th, 0\leq t\leq 1\} \) był w nim zawarty.

\( \displaystyle \begin{align*} f(a+h) & =f(a)+d_a f (h)+\frac{1}{2}d^2_{a+\theta h} f(h,h) \\ & =f(a)+0+\frac{1}{2}d^2_{a+\theta h} f(h,h),\end{align*} \)

czyli \( \displaystyle f(a+h)-f(a)=\frac{1}{2}d^2_{a+\theta h} f(h,h), \)

gdzie

\( \displaystyle 0 < \theta < 1 \) jest pewną liczbą. Jeśli forma \( \displaystyle h\mapsto d^2_{a} f(h,h) \) jest dodatnio określona, to wobec ciągłości drugiej różniczki, również w pewnym małym otoczeniu punktu \( \displaystyle a \) w punkcie \( \displaystyle a+\theta h \) forma \( \displaystyle h\mapsto d^2_{a+\theta h} f(h,h) \) jest dodatnio określona. Wobec tego

\( \displaystyle f(a+h)-f(a)=\frac{1}{2}d^2_{a+\theta h} f(h,h)>0, \)

czyli \( \displaystyle f(a+h)>f(a) \) dla dowolnego niezerowego wektora \( \displaystyle h \) z pewnego małego otoczenia punktu \( \displaystyle 0 \). Oznacza to, że funkcja \( \displaystyle f \) osiąga w tym punkcie ścisłe minimum lokalne.

b) Podobnie jak w punkcie a) wykazujemy, że funkcja \( \displaystyle f \) osiąga ścisłe maksimum lokalne, gdy druga różniczka jest ujemnie określona w punkcie, w którym zeruje się jej pierwsza różniczka.

c) Jeśli druga różniczka \( \displaystyle d^2_a f \) jest nieokreślona, to istnieją dwa wektory \( \displaystyle h, k\in X \) takie, że \( \displaystyle d^2_a f(h,h)>0 \) natomiast \( \displaystyle d^2_a f(k,k) < 0 \). Jeśli więc zacieśnimy funkcję \( \displaystyle f \) do prostej o

kierunku \( \displaystyle h \):

\( \displaystyle a+\mathbb{R} h=\{a+th, t\in\mathbb{R}\}\subset X, \) to na prostej tej w pewnym małym otoczeniu punktu \( \displaystyle a \) (dla \( \displaystyle t \) bliskich zeru) otrzymamy nierówność:

\( \displaystyle f(a+th)-f(a)=\frac{1}{2}d^2_{a+\theta th} f(th,th)>0, \)

natomiast na prostej o kierunku \( \displaystyle k \):

\( \displaystyle a+\mathbb{R} k=\{a+tk, t\in\mathbb{R}\}\subset X, \)

dostaniemy, podobnie w małym otoczeniu punktu \( \displaystyle a \), nierówność przeciwną:

\( \displaystyle f(a+tk)-f(a)=\frac{1}{2}d^2_{a+\theta tk} f(tk,tk) < 0. \)

Stąd funkcja \( \displaystyle f \) nie osiąga w punkcie \( \displaystyle a \) żadnego ekstremum, gdyż w dowolnie małym otoczeniu punktu \( \displaystyle a \) przyjmuje zarówno wartości mniejsze, jak i większe od \( \displaystyle f(a) \).

Uwaga 8.11.

Twierdzenie nie rozstrzyga o istnieniu ekstremum ani o jego typie, gdy druga różniczka \( \displaystyle d^2 _a f \) jest niedodatnio lub nieujemnie określona. Rozważmy trzy proste przykłady.

Przykład 8.12.

Funkcja \( \displaystyle f(x,y)=x^4+y^4 \) osiąga w punkcie \( \displaystyle (0,0) \) ścisłe minimum lokalne równe zeru, gdyż dla dowolnego punktu \( \displaystyle (x,y)\neq (0,0) \) mamy \( \displaystyle f(x,y)>0 \).

Zwróćmy uwagę, że zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle (0,0) \) zerują się. W szczególności druga różniczka jest nieujemnie określona w każdym punkcie płaszczyzny \( \displaystyle \mathbb{R}^2 \), gdyż dla dowolnego wektora \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \) mamy

\( \displaystyle d^2_{(x,y)}(h,h)=12(x^2 h_1^2+y^2 h_2^2)\geq 0. \)

W szczególności

\( \displaystyle d^2_{(0,0)}(h,h)=12(0^2 h_1^2+0^2 h_2^2)=0\geq 0. \)

wykres

Przykład 8.13.

Funkcja \( \displaystyle f(x,y)=-x^4-y^4 \) osiąga w punkcie \( \displaystyle (0,0) \) ścisłe maksimum lokalne równe zeru, gdyż dla dowolnego punktu \( \displaystyle (x,y)\neq (0,0) \) mamy \( \displaystyle f(x,y) < 0 \).

Zwróćmy uwagę, że podobnie jak w poprzednim przykładzie zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle (0,0) \) zerują się. W szczególności druga różniczka jest niedodatnio określona w każdym punkcie płaszczyzny \( \displaystyle \mathbb{R}^2 \), gdyż dla dowolnego wektora \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \) mamy

\( \displaystyle d^2_{(x,y)}(h,h)=-12(x^2 h_1^2+y^2 h_2^2)\leq 0. \)

W szczególności

\( \displaystyle d^2_{(0,0)}(h,h)=-12(0^2 h_1^2+0^2 h_2^2)=0\leq 0. \)

wykres

Przykład 8.14.

Funkcja \( \displaystyle f(x,y)=x^4-y^4 \) nie osiąga w punkcie \( \displaystyle (0,0) \) żadnego ekstremum, gdyż dla dowolnego punktu \( \displaystyle (x,0)\neq (0,0) \) mamy \( \displaystyle f(x,0)>0 \), natomiast w punktach \( \displaystyle (0,y)\neq (0,0) \) mamy z kolei \( \displaystyle f(0,y) < 0. \)

Zwróćmy uwagę, że podobnie jak w obu poprzednich przykładach zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) zerują się w punkcie \( \displaystyle (0,0) \). W punktach \( \displaystyle h=(h_1,h_2)\neq (0,0) \), tj. poza początkiem układu współrzędnych, druga różniczka

\( \displaystyle d^2_{(x,y)}(h,h)=12(x^2 h_1^2-y^2 h_2^2) \)

jest nieokreślona, bo w punktach \( \displaystyle (x,0)\neq (0,0) \) forma kwadratowa \( \displaystyle h\mapsto d^2_{(x,y)}f \) jest dodatnia, a w punktach

\( \displaystyle (0,y)\neq (0,0) \) jest ujemna. W samym zaś punkcie \( \displaystyle (0,0) \) forma kwadratowa

\( \displaystyle d^2_{(0,0)}(h,h)=12(0^2 h_1^2-0^2 h_2^2)=0 \)

jest zerowa. Analiza formy kwadratowej w otoczeniu punktu \( \displaystyle (0,0) \) pozwala nam jednak dostrzec, że zacieśnienie funkcji \( \displaystyle f \) do prostej \( \displaystyle y=0 \) (tj. w punktach postaci \( \displaystyle (x,0) \)) jest funkcją \( \displaystyle f(x,0)=x^4 \), która na tej prostej osiąga minimum lokalne. Z kolei zacieśnienie do prostej \( \displaystyle x=0 \) (czyli w punktach postaci \( \displaystyle (0,y) \)) funkcja \( \displaystyle f(0,y)=-y^4 \) osiąga maksimum w punkcie \( \displaystyle y=0 \). Stąd funkcja \( \displaystyle (x,y)\mapsto f(x,y) \) nie osiąga żadnego ekstremum w punkcie \( \displaystyle (0,0) \).

wykres

Wykres funkcji \( \displaystyle f(x,y)=x^4-y^4 \)

Kolejne twierdzenie, które nazywamy kryterium Sylvestera, bardzo usprawnia badanie określoności drugiej różniczki w przpadku funkcji wielu zmiennych.

Niech \( \displaystyle A=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), będzie macierzą kwadratową symetryczną (tzn. \( \displaystyle a_{ij}=a_{ji} \) dla dowolnych \( \displaystyle i,j \)). Niech

\( \displaystyle A_k :=\det \left[\begin{array}{rrr} a_{11} & \dots & a_{1k} \\ \dots & \dots & \dots \\ a_{k1} & \dots & a_{kk}\end{array}\right ] \)

będzie minorem głównym rzędu \( \displaystyle k \) macierzy \( \displaystyle A \), \( \displaystyle k\in\{1,2,\dots, n\} \).

Twierdzenie 8.15. [twierdzenie Sylvestera]

Forma kwadratowa \( \displaystyle \mathbb{R}^n\in h\mapsto \sum_{i=1}^n\sum_{j=1}^n a_{ij}h_i h_j \) zadana przez symetryczną macierz kwadratową \( \displaystyle A=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), jest dodatnio określona wtedy i tylko wtedy, gdy wszystkie minory główne macierzy \( \displaystyle A \) są dodatnie, tzn. \( \displaystyle A_k>0 \)

dla dowolnego \( \displaystyle k\in\{1,2,\dots, n\} \).

Dowód 8.15.

Twierdzenia dowodzi się indukcyjnie. Niech wpierw macierz \( \displaystyle A \) będzie złożona z jednej liczby \( \displaystyle [a_{11}] \). Należy zauważyć, że forma \( \displaystyle h\mapsto a_{11} h^2 \) jest dodatnio określona wtedy i tylko wtedy, gdy \( \displaystyle a_{11}>0 \). Następnie dowodzi się implikacji, że z dodatniej określoności formy zadanej przez macierz \( \displaystyle \tilde{A}=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n-1 \) wobec założenia o dodatniości minora \( \displaystyle A_n =\det[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), wynika dodatnia określoność formy kwadratowej zadanej przez macierz \( \displaystyle A=[a_{ij}],\displaystyle i,j=1,2,\dots, n \). Szczegóły (które pomijamy) można znaleźć w podręcznikach algebry liniowej (np. Jacek Komorowski, Od liczb zespolonych do tensorów, spinorów, algebr Liego i kwadryk,

Państwowe Wydawnictwo Naukowe, Warszawa 1978 r.)

Ponieważ forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest ujemnie określona wtedy i tylko wtedy, gdy \( \displaystyle h\mapsto -A(h,h) \) jest dodatnio określona, twierdzenie Sylvestera pozwala nam również stwierdzić, kiedy macierz kwadratowa zadaje formę ujemnie określoną. Mamy mianowicie

Wniosek 8.16.

Jeśli \( \displaystyle A=[a_{ij}],\displaystyle i,j=1,2,\dots, n \), jest symetryczną macierzą kwadratową, to forma kwadratowa

\( \displaystyle \mathbb{R}^n\ni h\mapsto \sum_{i=1}^n\sum_{j=1}^n a_{ij}h_i h_j\in \mathbb{R} \)

jest ujemnie określona wtedy i tylko wtedy, gdy wszystkie minory rzędu nieparzystego są ujemne, a wszystkie rzędu parzystego są dodatnie, tzn. gdy

\( \displaystyle (-1)^k A_k>0, \ \ \ k\in\{1,2,\dots, n\}. \)

Przykład 8.17.

Wyznaczmy ekstrema funkcji

\( \displaystyle \mathbb{R}^3\ni (x,y,z)\mapsto f(x,y,z)=(x^2+y^2+z^2)^2-3xyz\in \mathbb{R}. \)

wykres

Różniczka tej funkcji zeruje się w punktach, których współrzędne spełniają układ równań

\( \displaystyle \left\{\begin{align*} \frac{\partial f}{\partial x} & =0 \\ \frac{\partial f}{\partial y} & =0 \\ \frac{\partial f}{\partial z} & =0,\end{align*}\right. \text{ czyli } \left\{\begin{align*} 4(x^2+y^2+z^2)x & =3yz \\ 4(x^2+y^2+z^2)y & =3xz \\ 4(x^2+y^2+z^2)z & =3xy. \end{align*} \right. \)

Układ ten spełniają współrzędne pięciu punktów

\( \displaystyle \begin{align*} P_0 & =(0,0,0), \\ P_1 & =\big(\frac{1}{4},\frac{1}{4},\frac{1}{4}\big), \\ P_2 & =\big(\frac{1}{4},-\frac{1}{4},-\frac{1}{4}\big), \\ P_3 & =\big(-\frac{1}{4},\frac{1}{4},-\frac{1}{4}\big), \\ P_4 & =\big(-\frac{1}{4},-\frac{1}{4},\frac{1}{4}\big). \end{align*} \)

Łatwo zauważyć, że w punkcie \( \displaystyle P_0 \) funkcja nie osiąga ekstremum, gdyż w dowolnie małym otoczeniu tego punktu przyjmuje zarówno wartości mniejsze jak i większe od \( \displaystyle f(P_0)=0 \). Na przykład na prostej o kierunku (1,1,1) przechodzącej przez punkt

\( \displaystyle P_0=(0,0,0) \), tj. na zbiorze

\( \displaystyle P_0 +\mathbb{R}(1,1,1)=\{(t,t,t), t\in\mathbb{R}\}, \)

funkcja

\( \displaystyle f(t,t,t)=(t^2+t^2+t^2)^2-3t^3=3t^3(3t-1) \)

przyjmuje w otoczeniu zera zarówno dodatnie wartości (np. gdy \( \displaystyle t < 0 \)) jak i ujemne (np. gdy \( \displaystyle 0 < t < \frac{1}{3} \)). W pozostałych czterech punktach macierz drugich pochodnych cząstkowych, która zadaje drugą różniczkę

\( \displaystyle \left[ \begin{array}{lll} 4(3x^2+y^2+z^2) & 8xy-3z & 8xz-3y \\ 8xy-3z & 4(x^2+3y^2+z^2) & 8yz-3x \\ 8xz-3y & 8yz-3x & 4(x^2+y^2+3z^2) \end{array} \right] \)

jest dodatnio określona. Na przykład w punkcie \( \displaystyle P_1=\big(\frac{1}{4}, \frac{1}{4}, \frac{1}{4}\big) \) macierz drugich pochodnych cząstkowych funkcji \( \displaystyle f \)

\( \displaystyle \left[\begin{array}{rrr} \frac{5}{4} & -\frac{1}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & -\frac{1}{4} & \frac{5}{4}\end{array} \right] \)

ma wszystkie minory główne dodatnie:

\( \displaystyle \begin{align*} A_1 & =\det\left[\frac{5}{4}\right]=\frac{5}{4}>0 \\ A_2 & =\det\left[\begin{array}{rr} \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4}\end{array}\right ] =\frac{1}{4^2}\det\left[\begin{array}{rr} 5 & -1 \\ -1 & 5\end{array} \right]=\frac{24}{16}>0 \\ \\ A_3 & =\det \left[\begin{array}{rrr} \frac{5}{4} & -\frac{1}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & -\frac{1}{4} & \frac{5}{4}\end{array} \right]= \frac{1}{4^3}\det\left[\begin{array}{rrr} 5 & -1 & -1 \\ -1 & 5 & -1 \\ -1 & -1 & 5\end{array}\right ]=\frac{108}{64}>0.\end{align*} \)

Stąd w punkcie \( \displaystyle P_1 \) funkcja osiąga minimum lokalne równe \( \displaystyle f(P_1)=-\frac{3}{256} \). Podobne uzasadnienie prowadzi do wniosku, że także w pozostałych punktach \( \displaystyle P_2 \), \( \displaystyle P_3 \) oraz \( \displaystyle P_4 \) funkcja osiąga minima lokalne.

Należy jednak wyraźnie zaznaczyć, że można w tym przykładzie zrezygnować z analizy określoności drugiej różniczki. Punkty \( \displaystyle A_1, A_2, A_3, A_4 \) leżą we wnętrzu zbioru ograniczonego poziomicą zerową funkcji \( \displaystyle f \), precyzyjniej: leżą w obszarze, gdzie funkcja

\( \displaystyle f \) jest ujemna. Ponieważ zbiór

\( \displaystyle \{(x,y,z)\in \mathbb{R}^3 : f(x,y,z)\leq 0\} \)

jest zwarty (gdyż jest domknięty i ograniczony), funkcja \( \displaystyle f \), na mocy twierdzenia Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym, musi w tych czterech punktach osiągać minima lokalne.

Uwagi o wyznaczaniu ekstremów funkcji wielu zmiennych

Badanie funkcji wielu zmiennych (w szczególności znajdywanie punktów ekstremalnych) w wielu przypadkach nie wymaga wyznaczania ani pierwszej, ani drugiej różniczki funkcji. Można bowiem sprowadzić ich badanie do badania funkcji jednej zmiennej.

Rozważmy kilka przykładów, w których funkcja dwóch zmiennych jest w istocie funkcją jednej zmiennej, a mianowicie: jest funkcją odległości od początku układu współrzędnych.

Przykład 8.18.

Funkcja \( \displaystyle f(x,y)=\exp(-x^2-y^2) \) jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \), gdyż \( \displaystyle f(x,y)=e^{-r^2} \), gdzie \( \displaystyle r=\sqrt{x^2+y^2} \). Ponieważ funkcja \( \displaystyle r\mapsto e^{-r^2} \) osiąga wartość największą w punkcie \( \displaystyle r=0 \) i nie osiąga żadnych więcej ekstremów na półprostej \( \displaystyle 0\leq r < \infty \), więc jedynym ekstremum funkcji \( \displaystyle f(x,y)=\exp(-x^2-y^2) \) jest maksimum lokalne osiągane w punkcie \( \displaystyle (0,0) \) (tj. \( \displaystyle r=0 \)). Wówczas \( \displaystyle f(0,0)=1 \).

wykres

Przykład 8.19.

Funkcja \( \displaystyle f(x,y)=\sin(x^2+y^2) \) także jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \). Zauważmy bowiem, że

\( \displaystyle f(x,y)=\sin(x^2+y^2)=\sin(r^2\cos^2\varphi+r^2\sin^2\varphi)=\sin(r^2) \)

osiąga ekstrema w tych samych punktach, co funkcja \( \displaystyle r\mapsto \sin (r^2) \), a więc osiąga maksima w punktach \( \displaystyle r^2=\frac{\pi}{2}+2k\pi \) i minima w punktach \( \displaystyle r^2=\frac{3\pi}{2}+2k\pi \), gdzie \( \displaystyle k=0, 1,2,\dots \). Innymi słowy funkcja \( \displaystyle (x,y)\mapsto f(x,y) \) osiąga maksima w punktach należących do okręgów o równaniach

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=\frac{\pi}{2}+2k\pi\} \)

oraz w punkcie \( \displaystyle (0,0) \) (wtedy \( \displaystyle r=0 \)), a minima w punktach należących do okręgów

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=\frac{3\pi}{2}+2k\pi\}, \)

gdzie \( \displaystyle k \) jest dowolną liczbą całkowitą nieujemną.

wykres

Wykres funkcji \( \displaystyle f(x,y)=\sin(x^2+y^2) \)

Przykład 8.20.

Podobnie jak w poprzednim przykładzie funkcja \( \displaystyle f(x,y)=\cos(x^2+y^2)=\cos (r^2) \), \( \displaystyle r=\sqrt{x^2+y^2} \), osiąga maksima na okręgach o promieniach \( \displaystyle r \) takich, ze \( \displaystyle r^2=0+2k\pi \), czyli na okręgach

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=2k\pi\}, \)

natomiast minima na okręgach, których promień \( \displaystyle r \) spełnia równanie \( \displaystyle r^2=\pi+2k\pi \), tj. na okręgach

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=(2k+1)\pi\}, \)

gdzie \( \displaystyle k=0,1,2,\dots \) jest nieujemną liczbą całkowitą.

Przykład 8.21.

Także funkcja \( \displaystyle f(x,y)=\ln (x^2+y^2+1)=\ln(r^2 +1) \) jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \). Ponieważ funkcja \( \displaystyle [0, \infty)\ni r\mapsto r^2+1\in \mathbb{R} \) jest ściśle rosnąca, osiąga minimum w punkcie \( \displaystyle r=0 \). Stąd także funkcja \( \displaystyle f(x,y)=\ln (x^2+y^2+1) \) osiąga minimum w punkcie \( \displaystyle (x,y)=(0,0) \) (wówczas \( \displaystyle r=0 \)).

wykres

Również w wielu innych przykładach, gdy funkcja \( \displaystyle f \) nie jest funkcją promienia, można uniknąć stosowania rachunku różniczkowego do wyznaczenia ekstremów.

Przykład 8.22.

Funkcja \( \displaystyle f(x,y)=\sin(x^2-y^2) \) osiąga maksima w punktach hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=\frac{\pi}{2}+2k\pi\}, \) a minima w punktach drugiej rodziny hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=\frac{3\pi}{2}+2k\pi\}, \)

gdzie \( \displaystyle k \) jest liczbą całkowitą.

wykres

Przykład 8.23.

Z kolei funkcja \( \displaystyle f(x,y)=\cos(x^2-y^2) \) osiąga maksima w punktach hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=2k\pi\}, \)

a minima w punktach drugiej rodziny hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=(2k+1)\pi\}, \)

gdzie \( \displaystyle k \) jest liczbą całkowitą.

wykres

Uwaga 8.24.

Przypomnijmy także, że prosta obserwacja przebiegu poziomic pozwala stwierdzić, że

(a) funkcja \( \displaystyle f_1(x,y)=x^2+y^2 \) osiąga w punkcie \( \displaystyle (0,0) \) minimum

wykres

(b) w tym samym punkcie funkcja \( \displaystyle f_2(x,y)=-x^2-y^2 \) osiąga maksimum

wykres

(c) a funkcja \( \displaystyle f_3(x,y)=x^2-y^2 \) nie osiąga w punkcie \( \displaystyle (0,0) \) żadnego ekstremum, gdyż ma w tym punkcie wartość zero, a w dowolnie małym otoczeniu tego punktu osiąga wartości mniejsze jak i większe od zera.

Przykład 8.25.

Zauważmy, że każda z trzech funkcji a, b, c ma w punkcie \( \displaystyle (0,0) \) zerową zarówno pierwszą jak i drugą różniczkę. Żadna z nich nie ma jednak w tym punkcie ekstremum, gdyż przyjmują w dowolnie małym otoczeniu punktu \( \displaystyle (0,0) \) zarówno wartości mniejsze jak i większe od zera.

(a) \( \displaystyle f_2(x,y)=-x^3-y^3 \)

wykres

(b) \( \displaystyle f_3(x,y)=x^3-y^3 \)

wykres

(c) \( \displaystyle f_1(x,y)=x^3+y^3 \)

wykres

Należy pamiętać o analizowaniu otoczenia punktów krytycznych funkcji, w których o istnieniu ekstremów nie rozstrzyga warunek wystarczający.

Przykład 8.26.

Funkcja \( \displaystyle f(x,y)=|x|^\frac{2}{3}+|y|^\frac{2}{3} \) jest ciągła na całej płaszczyźnie, nie jest jednak różniczkowalna w punktach należących do dwóch prostych: \( \displaystyle x=0 \) oraz \( \displaystyle y=0 \). Różniczka tej funkcji nie zeruje się w żadnym punkcie swojej dziedziny, tj. poza obiema prostymi \( \displaystyle x=0 \), \( \displaystyle y=0 \). Stąd zbiorem punktów krytycznych jest suma obu prostych:

\( \displaystyle \{(x,y)\in\mathbb{R}^2 : x=0 \text{ lub } y=0 \}. \)

Łatwo zauważyć, że jedynie w punkcie \( \displaystyle (0,0) \) tego zbioru funkcja \( \displaystyle f \) osiąga ekstremum, a mianowicie minimum \( \displaystyle f(0,0)=0 \).

wykres