Dowodzimy wzoru Taylora dla funkcji wielu zmiennych. Jego konsekwencją jest warunek wystarczający istnienia ekstremum. Pokazujemy szereg przykładów prowadzących do zastosowania wykazanego warunku wystarczającego oraz takich, w których nie jest to niezbędne.
Niech \( \displaystyle f:X\mapsto Y \) będzie funkcją klasy \( \displaystyle C^{m+1} \) określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \) o wartościach w przestrzeni Banacha \( \displaystyle Y \). Podobnie jak w przypadku funkcji jednej zmiennej rzeczywistej zachodzi następujące
Twierdzenie 8.1. [twierdzenie Taylora]
Dla dowolnych punktów \( \displaystyle a \) oraz \( \displaystyle a+h \) zbioru \( \displaystyle U \) takich, że odcinek
\( \displaystyle \{a+th, \ t\in [0,1]\}\subset U, \)
zachodzi równość
\( \displaystyle f(a+h)=f(a)+d_a f(h)+\frac{1}{2!}d^2_a f(h,h)+\frac{1}{3!}d^3_a f(h,h,h)+\dots+\frac{1}{m!}d^m_a f\underbrace{(h,h,\dots, h)}_{m \text{ wektorów } h} +R_m f(a, h), \)
gdzie
\( \displaystyle \|R_m f(a,b)\|_{y}\leq \frac{1}{(m+1)!}\sup\{|d^{m+1} _{a+th}(h,h, \dots, h)|, \ t\in[0,1]\}. \)
Definicja 8.2.
Funkcję \( \displaystyle \begin{align*} X\in h\mapsto T_a^m f(h) & = f(a)+d_a f(h)+\frac{1}{2!}d^2 _a f(h,h)+\dots+\frac{1}{m!}d^m _a f\underbrace{(h, h, \dots, h)}_{m \text{ razy }} \\ & = \sum_{k=0}^m \frac{1}{k!}d^k_a\underbrace{(h, h, \dots, h)}_{k \text{ razy }}\in Y\end{align*} \)
nazywamy wielomianem Taylora rzędu \( \displaystyle m \) funkcji \( \displaystyle f \) o środku w punkcie \( \displaystyle a \).
Uwaga 8.3.
Zauważmy, że jeśli \( \displaystyle X=\mathbb{R}^n \) i \( \displaystyle Y=\mathbb{R} \), to wielomian Taylora funkcji \( \displaystyle f: \mathbb{R}^n\mapsto \mathbb{R} \) rzędu \( \displaystyle m \) o środku w punkcie \( \displaystyle a \) można wyrazić za pomocą pochodnych cząstkowych funkcji \( \displaystyle f \) w następujący sposób:
\( \displaystyle \begin{align*} T_a^m f(h) & =\sum_{k=0}^m \frac{1}{k!}\sum_{|\alpha|=k}\binom{k}{\alpha}\frac{\partial^k}{\partial x^\alpha}f(a)h^\alpha \\ & =\sum_{k=0}^m \sum_{|\alpha|=k}\frac{1}{\alpha!}\frac{\partial^k}{\partial x^\alpha}f(a)h^\alpha \\ & = \sum_{|\alpha|\leq m}\frac{1}{\alpha!}\frac{\partial^{|\alpha|}}{\partial x^\alpha}f(a)h^\alpha ,\end{align*} \)
gdzie \( \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n)\in \mathbb{N}_0^n \) jest \( \displaystyle n \)-wskaźnikiem o długości \( \displaystyle |\alpha|=\alpha_1+\alpha_2+\dots+\alpha_n \). (Oznaczenia: \( \displaystyle \alpha! \), \( \displaystyle h^\alpha \), \( \displaystyle \frac{\partial^k }{\partial x^\alpha} \) wprowadziliśmy przy omawianiu różniczek wyższego rzędu). W szczególnym (ale bardzo często spotykanym) przypadku funkcji \( \displaystyle f: \mathbb{R}^2\ni (x_1, x_2)\mapsto f(x_1, x_2)\in \mathbb{R} \) dwóch zmiennych \( \displaystyle x_1, x_2 \) wielomian Taylora o środku w punkcie \( \displaystyle a=(a_1, a_2)\in \mathbb{R}^2 \) przyjmuje postać
\( \displaystyle \begin{align*} T_a ^m f(h) & =\sum_{k=0}^m \sum_{\alpha_1+\alpha_2=k} \frac{1}{\alpha_1 !\alpha_2 !}\frac{\partial^k f(a)}{\partial x_1^{\alpha_1}\partial x_2^{\alpha_2}}h_1^{\alpha_1}h_2^{\alpha_2} \\ & =\sum_{\alpha_1+\alpha_2\leq m} \frac{1}{\alpha_1 !\alpha_2 !}\frac{\partial^{\alpha_1+\alpha_2} f(a)}{\partial x_1^{\alpha_1}\partial x_2^{\alpha_2}}h_1^{\alpha_1}h_2^{\alpha_2},\end{align*} \)
gdzie \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \).
Dowód 8.3.
Twierdzenie Taylora wykażemy w szczególnym przypadku, gdy \( \displaystyle f: X\supset U\mapsto \mathbb{R} \) jest funkcją o wartościach rzeczywistych, określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \). Niech, zgodnie z założeniem, \( \displaystyle a \) oraz \( \displaystyle a+h \) będą takimi
punktami zbioru \( \displaystyle U \), że odcinek \( \displaystyle \{a+th, 0\leq t\leq 1\}\subset U \). Rozważmy funkcję
\( \displaystyle g:(0-\epsilon, 1+\epsilon)\ni t\mapsto f(a+th)\in\mathbb{R} \)
określoną w pewnym otoczeniu otwartym odcinka \( \displaystyle [0,1] \). Funkcja \( \displaystyle g \) jest w tym zbiorze klasy \( \displaystyle C^{m+1} \), gdyż \( \displaystyle f \) jest tej klasy w otoczeniu odcinka \( \displaystyle \{a+th, \ 0\leq t\leq 1\}\subset U \). Ponadto z twierdzenia o różniczkowaniu złożenia funkcji mamy dla dowolnej liczby \( \displaystyle 0\leq t\leq 1 \) równość
\( \displaystyle \frac{d^k}{dt^k}g(0)=d^k_a f\circ \underbrace{(d_0 (a+th), d_0 (a+th), \dots, d_0 (a+th))}_{k \text{ razy}} =d^k_a f\underbrace{(h, h, \dots, h)}_{k \text{ razy}}. \)
Ze twierdzenia Taylora dla funkcji jednej zmiennej \( \displaystyle g \) oraz z powyższej równości mamy
\( \displaystyle \begin{align*} f(a+h)= & g(0+1) \\ & =g(0)+g'(0)1+\frac{1}{2!}g''(0)1^2+\dots+\frac{1}{m!}g^{(m)}(0)1^m+\frac{1}{(m+1)!}g^{(m+1)}(0+\theta \cdot 1)1^{m+1} \\ & =f(a)+d_a f(h)+\frac{1}{2!}d^2_a f(h,h)+\dots+\frac{1}{m!}d^m_a f(h,h,\dots, h)+\frac{1}{(m+1)!}d^{m+1}_{a+\theta h} f(h,h,\dots, h, h),\end{align*} \)
gdzie \( \displaystyle \theta\in (0,1) \) jest pewnym punktem pośrednim. Stąd mamy też oszacowanie reszty we wzorze Taylora:
\( \displaystyle |R_m f (a,h)|=\bigg|\frac{1}{(m+1)!}d^{m+1}_{a+\theta h} f(h,h,\dots, h, h\bigg|\leq \frac{1}{(m+1)!}\sup\{|d^{m+1}_{a+\theta h} f(h,h,\dots, h, h)|, 0\leq \theta\leq 1\}. \)
Pamiętamy, że dowolna przestrzeń unormowana \( \displaystyle X \) jest przestrzenią metryczną z metryką \( \displaystyle d(x,y)=\|x-y\| \) zadaną przez normę \( \displaystyle \|\cdot \| \) przestrzeni \( \displaystyle X \). Stąd też definicja ekstremum funkcji \( \displaystyle f: X\mapsto \mathbb{R} \) o wartościach rzeczywistych określonej na przestrzeni unormowanej jest taka sama jak w przypadku przestrzeni metrycznej, czyli funkcja \( \displaystyle f \) przyjmuje w punkcie \( \displaystyle a\in \mathrm{dom}\, f \) minimum lokalne (odpowiednio: maksimum lokalne, ścisłe minimum lokalne, ścisłe maksimum lokalne), jeśli istnieje liczba \( \displaystyle \delta >0 \) taka, że zachodzą odpowiednio implikacje:
\( \displaystyle d(x, a) < \delta\Longrightarrow f(x)\geq f(a) \)
\( \displaystyle d(x, a) < \delta \Longrightarrow f(x)\leq f(a) \)
\( \displaystyle 0 < d(x,a) < \delta\Longrightarrow f(x)>f(a) \)
\( \displaystyle 0 < d(x,a) < \delta \Longrightarrow f(x) < f(a). \)
Minimum funkcji w punkcie \( \displaystyle a \) nazywamy globalnym, jeśli \( \displaystyle f \) osiąga w punkcie \( \displaystyle a \) kres dolny wartości. Jeśli zaś w punkcie \( \displaystyle a \) funkcja osiąga kres górny, to mówimy, że osiąga w punkcie \( \displaystyle a \) maksimum globalne.
Sformułujmy wpierw warunek konieczny istnienia ekstremum funkcji \( \displaystyle f \).
Twierdzenie 8.4.
Jeśli funkcja różniczkowalna \( \displaystyle f: X\subset U\mapsto \mathbb{R} \) osiąga ekstremum w punkcie \( \displaystyle a \) zbioru otwartego \( \displaystyle U \), to w punkcie tym zeruje się różniczka funkcji \( \displaystyle f \), tzn. \( \displaystyle d_a f(h)=0 \), gdzie \( \displaystyle h\in X \) jest dowolnym wektorem przestrzeni \( \displaystyle X \).
Dowód 8.4.
Załóżmy, że funkcja \( \displaystyle f \) osiąga maksimum lokalne w punkcie \( \displaystyle a\in U \). Ustalmy pewien wektor \( \displaystyle h\in X \), \( \displaystyle \|h\|=1 \) i rozważmy
zacieśnienie funkcji \( \displaystyle f \) do prostej
\( \displaystyle \{a+th, t\in\mathbb{R}\} \)
o kierunku \( \displaystyle h \) przechodzącej przez punkt \( \displaystyle a \). Zacieśnienie to
\( \displaystyle \mathbb{R}\ni t\to f(a+th)\in \mathbb{R} \)
jest funkcją jednej zmiennej, osiągającą maksimum w \( \displaystyle t=0 \). Stąd pochodna w zerze funkcji \( \displaystyle t\mapsto f(a+th) \) jest równa zeru. Ale pochodna ta jest tożsama z pochodną kierunkową funkcji \( \displaystyle f \) w kierunku wektora \( \displaystyle h \). Wobec dowolności \( \displaystyle h \) różniczka \( \displaystyle d_a f=0 \).
Uwaga 8.5.
Zwróćmy uwagę, że funkcja może osiągać ekstremum w punkcie, w którym nie jest różniczkowalna. Na przykład \( \displaystyle f(x,y)=|x|+|y| \) osiąga wartość minimalną w punkcie \( \displaystyle (0,0) \), w którym nie jest różniczkowalna.
Wykres funkcji \( \displaystyle f(x,y)=|x|+|y| \)
Przyjmijmy wobec tego następującą definicję.
Definicja 8.6.
Mówimy, że \( \displaystyle a\in \mathrm{dom}\, f \) jest punktem krytycznym funkcji \( \displaystyle f \), jeśli \( \displaystyle a \) należy do dziedziny różniczki funkcji \( \displaystyle f \) i różniczka zeruje się w tym punkcie, bądź też punkt \( \displaystyle a \) należy do dziedziny funkcji i nie istnieje różniczka \( \displaystyle d_a f \).
Wniosek 8.7.
Jeśli funkcja \( \displaystyle f \) osiąga ekstremum w punkcie \( \displaystyle a\in \mathrm{dom}\, f \), to punkt ten jest krytyczny.
Implikacja te stanowi warunek konieczny istnienia ekstremum także w przypadku funkcji, od których nie żądamy różniczkowalności w otoczeniu wszystkich punktów dziedziny.
Wzór Taylora umożliwia, podobnie jak w przypadku jednowymiarowym, sformułowanie warunku wystarczającego istnienia ekstremum.
Definicja 8.8.
Niech \( \displaystyle A\in L^2(X, \mathbb{R}) \) będzie odwzorowaniem dwuliniowym symetrycznym określonym na \( \displaystyle X\times X \), gdzie \( \displaystyle X \) jest pewną przestrzenią Banacha. Mówimy, że forma
kwadratowa
\( \displaystyle X\ni h\mapsto A(h,h) \)
jest
\( \displaystyle A(h,h)\geq C\|h\|^2, \text{ dla dowolnego wektora } h \in X, \)
\( \displaystyle A(h,h)\leq - C\|h\|^2, \text{ dla dowolnego wektora } h \in X, \)
\( \displaystyle A(h,h)\geq 0, \text{ dla dowolnego wektora } h \in X, \)
\( \displaystyle A(h,h)\leq 0, \text{ dla dowolnego wektora } h \in X, \)
ani nieujemnie, ani niedodatnio określona.
Często mówimy też, że odwzorowanie dwuliniowe symetryczne \( \displaystyle A\in L^2 (X, \mathbb{R}) \) jest dodatnio określone (odpowiednio: ujemnie określone, nieujemnie określone, niedodatnio określone, nieokreślone), jeśli forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest określona dodatnio (odpowiednio: określona ujemnie, określona nieujemnie, określona niedodatnio, bądź jest nieokreślona).
Uwaga 8.9.
a) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest dodatnio określona wtedy i tylko wtedy, gdy forma \( \displaystyle h\mapsto -A(h,h) \) jest ujemnie określona.
b) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest nieujemnie określona wtedy i tylko wtedy, gdy forma \( \displaystyle h\mapsto -A(h,h) \) jest niedodatnio określona.
c) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest nieokreślona wtedy i tylko wtedy, gdy nieokreślona jest forma \( \displaystyle h\mapsto -A(h,h) \).
Korzystając ze wzoru Taylora, wykażemy warunek wystarczający istnienia ekstremum funkcji wielu zmiennych.
Twierdzenie 8.10.
Niech \( \displaystyle f \) będzie funkcją klasy \( \displaystyle C^2 \) w otwartym otoczeniu \( \displaystyle U \) punktu \( \displaystyle a \). Załóżmy, że różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) jest równa zeru.
a) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest dodatnio określona, funkcja \( \displaystyle f \) osiąga ścisłe minimum lokalne w punkcie \( \displaystyle a \).
b) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest ujemnie określona, funkcja \( \displaystyle f \) osiąga ścisłe maksimum lokalne w punkcie \( \displaystyle a \).
c) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest nieokreślona, funkcja \( \displaystyle f \)
nie osiąga ekstremum w punkcie \( \displaystyle a \).
Dowód 8.10.
a) Ze wzoru Taylora (wobec założenia o pierwszej różniczce: \( \displaystyle d_a f=0 \)) dostajemy równość prawdziwą w otoczeniu punktu \( \displaystyle a \) na tyle małym, aby odcinek \( \displaystyle \{a+th, 0\leq t\leq 1\} \) był w nim zawarty.
\( \displaystyle \begin{align*} f(a+h) & =f(a)+d_a f (h)+\frac{1}{2}d^2_{a+\theta h} f(h,h) \\ & =f(a)+0+\frac{1}{2}d^2_{a+\theta h} f(h,h),\end{align*} \)
czyli \( \displaystyle f(a+h)-f(a)=\frac{1}{2}d^2_{a+\theta h} f(h,h), \)
gdzie
\( \displaystyle 0 < \theta < 1 \) jest pewną liczbą. Jeśli forma \( \displaystyle h\mapsto d^2_{a} f(h,h) \) jest dodatnio określona, to wobec ciągłości drugiej różniczki, również w pewnym małym otoczeniu punktu \( \displaystyle a \) w punkcie \( \displaystyle a+\theta h \) forma \( \displaystyle h\mapsto d^2_{a+\theta h} f(h,h) \) jest dodatnio określona. Wobec tego
\( \displaystyle f(a+h)-f(a)=\frac{1}{2}d^2_{a+\theta h} f(h,h)>0, \)
czyli \( \displaystyle f(a+h)>f(a) \) dla dowolnego niezerowego wektora \( \displaystyle h \) z pewnego małego otoczenia punktu \( \displaystyle 0 \). Oznacza to, że funkcja \( \displaystyle f \) osiąga w tym punkcie ścisłe minimum lokalne.
b) Podobnie jak w punkcie a) wykazujemy, że funkcja \( \displaystyle f \) osiąga ścisłe maksimum lokalne, gdy druga różniczka jest ujemnie określona w punkcie, w którym zeruje się jej pierwsza różniczka.
c) Jeśli druga różniczka \( \displaystyle d^2_a f \) jest nieokreślona, to istnieją dwa wektory \( \displaystyle h, k\in X \) takie, że \( \displaystyle d^2_a f(h,h)>0 \) natomiast \( \displaystyle d^2_a f(k,k) < 0 \). Jeśli więc zacieśnimy funkcję \( \displaystyle f \) do prostej o
kierunku \( \displaystyle h \):
\( \displaystyle a+\mathbb{R} h=\{a+th, t\in\mathbb{R}\}\subset X, \) to na prostej tej w pewnym małym otoczeniu punktu \( \displaystyle a \) (dla \( \displaystyle t \) bliskich zeru) otrzymamy nierówność:
\( \displaystyle f(a+th)-f(a)=\frac{1}{2}d^2_{a+\theta th} f(th,th)>0, \)
natomiast na prostej o kierunku \( \displaystyle k \):
\( \displaystyle a+\mathbb{R} k=\{a+tk, t\in\mathbb{R}\}\subset X, \)
dostaniemy, podobnie w małym otoczeniu punktu \( \displaystyle a \), nierówność przeciwną:
\( \displaystyle f(a+tk)-f(a)=\frac{1}{2}d^2_{a+\theta tk} f(tk,tk) < 0. \)
Stąd funkcja \( \displaystyle f \) nie osiąga w punkcie \( \displaystyle a \) żadnego ekstremum, gdyż w dowolnie małym otoczeniu punktu \( \displaystyle a \) przyjmuje zarówno wartości mniejsze, jak i większe od \( \displaystyle f(a) \).
Uwaga 8.11.
Twierdzenie nie rozstrzyga o istnieniu ekstremum ani o jego typie, gdy druga różniczka \( \displaystyle d^2 _a f \) jest niedodatnio lub nieujemnie określona. Rozważmy trzy proste przykłady.
Przykład 8.12.
Funkcja \( \displaystyle f(x,y)=x^4+y^4 \) osiąga w punkcie \( \displaystyle (0,0) \) ścisłe minimum lokalne równe zeru, gdyż dla dowolnego punktu \( \displaystyle (x,y)\neq (0,0) \) mamy \( \displaystyle f(x,y)>0 \).
Zwróćmy uwagę, że zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle (0,0) \) zerują się. W szczególności druga różniczka jest nieujemnie określona w każdym punkcie płaszczyzny \( \displaystyle \mathbb{R}^2 \), gdyż dla dowolnego wektora \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \) mamy
\( \displaystyle d^2_{(x,y)}(h,h)=12(x^2 h_1^2+y^2 h_2^2)\geq 0. \)
W szczególności
\( \displaystyle d^2_{(0,0)}(h,h)=12(0^2 h_1^2+0^2 h_2^2)=0\geq 0. \)
Przykład 8.13.
Funkcja \( \displaystyle f(x,y)=-x^4-y^4 \) osiąga w punkcie \( \displaystyle (0,0) \) ścisłe maksimum lokalne równe zeru, gdyż dla dowolnego punktu \( \displaystyle (x,y)\neq (0,0) \) mamy \( \displaystyle f(x,y) < 0 \).
Zwróćmy uwagę, że podobnie jak w poprzednim przykładzie zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle (0,0) \) zerują się. W szczególności druga różniczka jest niedodatnio określona w każdym punkcie płaszczyzny \( \displaystyle \mathbb{R}^2 \), gdyż dla dowolnego wektora \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \) mamy
\( \displaystyle d^2_{(x,y)}(h,h)=-12(x^2 h_1^2+y^2 h_2^2)\leq 0. \)
W szczególności
\( \displaystyle d^2_{(0,0)}(h,h)=-12(0^2 h_1^2+0^2 h_2^2)=0\leq 0. \)
Przykład 8.14.
Funkcja \( \displaystyle f(x,y)=x^4-y^4 \) nie osiąga w punkcie \( \displaystyle (0,0) \) żadnego ekstremum, gdyż dla dowolnego punktu \( \displaystyle (x,0)\neq (0,0) \) mamy \( \displaystyle f(x,0)>0 \), natomiast w punktach \( \displaystyle (0,y)\neq (0,0) \) mamy z kolei \( \displaystyle f(0,y) < 0. \)
Zwróćmy uwagę, że podobnie jak w obu poprzednich przykładach zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) zerują się w punkcie \( \displaystyle (0,0) \). W punktach \( \displaystyle h=(h_1,h_2)\neq (0,0) \), tj. poza początkiem układu współrzędnych, druga różniczka
\( \displaystyle d^2_{(x,y)}(h,h)=12(x^2 h_1^2-y^2 h_2^2) \)
jest nieokreślona, bo w punktach \( \displaystyle (x,0)\neq (0,0) \) forma kwadratowa \( \displaystyle h\mapsto d^2_{(x,y)}f \) jest dodatnia, a w punktach
\( \displaystyle (0,y)\neq (0,0) \) jest ujemna. W samym zaś punkcie \( \displaystyle (0,0) \) forma kwadratowa
\( \displaystyle d^2_{(0,0)}(h,h)=12(0^2 h_1^2-0^2 h_2^2)=0 \)
jest zerowa. Analiza formy kwadratowej w otoczeniu punktu \( \displaystyle (0,0) \) pozwala nam jednak dostrzec, że zacieśnienie funkcji \( \displaystyle f \) do prostej \( \displaystyle y=0 \) (tj. w punktach postaci \( \displaystyle (x,0) \)) jest funkcją \( \displaystyle f(x,0)=x^4 \), która na tej prostej osiąga minimum lokalne. Z kolei zacieśnienie do prostej \( \displaystyle x=0 \) (czyli w punktach postaci \( \displaystyle (0,y) \)) funkcja \( \displaystyle f(0,y)=-y^4 \) osiąga maksimum w punkcie \( \displaystyle y=0 \). Stąd funkcja \( \displaystyle (x,y)\mapsto f(x,y) \) nie osiąga żadnego ekstremum w punkcie \( \displaystyle (0,0) \).
Wykres funkcji \( \displaystyle f(x,y)=x^4-y^4 \)
Kolejne twierdzenie, które nazywamy kryterium Sylvestera, bardzo usprawnia badanie określoności drugiej różniczki w przpadku funkcji wielu zmiennych.
Niech \( \displaystyle A=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), będzie macierzą kwadratową symetryczną (tzn. \( \displaystyle a_{ij}=a_{ji} \) dla dowolnych \( \displaystyle i,j \)). Niech
\( \displaystyle A_k :=\det \left[\begin{array}{rrr} a_{11} & \dots & a_{1k} \\ \dots & \dots & \dots \\ a_{k1} & \dots & a_{kk}\end{array}\right ] \)
będzie minorem głównym rzędu \( \displaystyle k \) macierzy \( \displaystyle A \), \( \displaystyle k\in\{1,2,\dots, n\} \).
Twierdzenie 8.15. [twierdzenie Sylvestera]
Forma kwadratowa \( \displaystyle \mathbb{R}^n\in h\mapsto \sum_{i=1}^n\sum_{j=1}^n a_{ij}h_i h_j \) zadana przez symetryczną macierz kwadratową \( \displaystyle A=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), jest dodatnio określona wtedy i tylko wtedy, gdy wszystkie minory główne macierzy \( \displaystyle A \) są dodatnie, tzn. \( \displaystyle A_k>0 \)
dla dowolnego \( \displaystyle k\in\{1,2,\dots, n\} \).
Dowód 8.15.
Twierdzenia dowodzi się indukcyjnie. Niech wpierw macierz \( \displaystyle A \) będzie złożona z jednej liczby \( \displaystyle [a_{11}] \). Należy zauważyć, że forma \( \displaystyle h\mapsto a_{11} h^2 \) jest dodatnio określona wtedy i tylko wtedy, gdy \( \displaystyle a_{11}>0 \). Następnie dowodzi się implikacji, że z dodatniej określoności formy zadanej przez macierz \( \displaystyle \tilde{A}=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n-1 \) wobec założenia o dodatniości minora \( \displaystyle A_n =\det[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), wynika dodatnia określoność formy kwadratowej zadanej przez macierz \( \displaystyle A=[a_{ij}],\displaystyle i,j=1,2,\dots, n \). Szczegóły (które pomijamy) można znaleźć w podręcznikach algebry liniowej (np. Jacek Komorowski, Od liczb zespolonych do tensorów, spinorów, algebr Liego i kwadryk,
Państwowe Wydawnictwo Naukowe, Warszawa 1978 r.)
Ponieważ forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest ujemnie określona wtedy i tylko wtedy, gdy \( \displaystyle h\mapsto -A(h,h) \) jest dodatnio określona, twierdzenie Sylvestera pozwala nam również stwierdzić, kiedy macierz kwadratowa zadaje formę ujemnie określoną. Mamy mianowicie
Wniosek 8.16.
Jeśli \( \displaystyle A=[a_{ij}],\displaystyle i,j=1,2,\dots, n \), jest symetryczną macierzą kwadratową, to forma kwadratowa
\( \displaystyle \mathbb{R}^n\ni h\mapsto \sum_{i=1}^n\sum_{j=1}^n a_{ij}h_i h_j\in \mathbb{R} \)
jest ujemnie określona wtedy i tylko wtedy, gdy wszystkie minory rzędu nieparzystego są ujemne, a wszystkie rzędu parzystego są dodatnie, tzn. gdy
\( \displaystyle (-1)^k A_k>0, \ \ \ k\in\{1,2,\dots, n\}. \)
Przykład 8.17.
Wyznaczmy ekstrema funkcji
\( \displaystyle \mathbb{R}^3\ni (x,y,z)\mapsto f(x,y,z)=(x^2+y^2+z^2)^2-3xyz\in \mathbb{R}. \)
Różniczka tej funkcji zeruje się w punktach, których współrzędne spełniają układ równań
\( \displaystyle \left\{\begin{align*} \frac{\partial f}{\partial x} & =0 \\ \frac{\partial f}{\partial y} & =0 \\ \frac{\partial f}{\partial z} & =0,\end{align*}\right. \text{ czyli } \left\{\begin{align*} 4(x^2+y^2+z^2)x & =3yz \\ 4(x^2+y^2+z^2)y & =3xz \\ 4(x^2+y^2+z^2)z & =3xy. \end{align*} \right. \)
Układ ten spełniają współrzędne pięciu punktów
\( \displaystyle \begin{align*} P_0 & =(0,0,0), \\ P_1 & =\big(\frac{1}{4},\frac{1}{4},\frac{1}{4}\big), \\ P_2 & =\big(\frac{1}{4},-\frac{1}{4},-\frac{1}{4}\big), \\ P_3 & =\big(-\frac{1}{4},\frac{1}{4},-\frac{1}{4}\big), \\ P_4 & =\big(-\frac{1}{4},-\frac{1}{4},\frac{1}{4}\big). \end{align*} \)
Łatwo zauważyć, że w punkcie \( \displaystyle P_0 \) funkcja nie osiąga ekstremum, gdyż w dowolnie małym otoczeniu tego punktu przyjmuje zarówno wartości mniejsze jak i większe od \( \displaystyle f(P_0)=0 \). Na przykład na prostej o kierunku (1,1,1) przechodzącej przez punkt
\( \displaystyle P_0=(0,0,0) \), tj. na zbiorze
\( \displaystyle P_0 +\mathbb{R}(1,1,1)=\{(t,t,t), t\in\mathbb{R}\}, \)
funkcja
\( \displaystyle f(t,t,t)=(t^2+t^2+t^2)^2-3t^3=3t^3(3t-1) \)
przyjmuje w otoczeniu zera zarówno dodatnie wartości (np. gdy \( \displaystyle t < 0 \)) jak i ujemne (np. gdy \( \displaystyle 0 < t < \frac{1}{3} \)). W pozostałych czterech punktach macierz drugich pochodnych cząstkowych, która zadaje drugą różniczkę
\( \displaystyle \left[ \begin{array}{lll} 4(3x^2+y^2+z^2) & 8xy-3z & 8xz-3y \\ 8xy-3z & 4(x^2+3y^2+z^2) & 8yz-3x \\ 8xz-3y & 8yz-3x & 4(x^2+y^2+3z^2) \end{array} \right] \)
jest dodatnio określona. Na przykład w punkcie \( \displaystyle P_1=\big(\frac{1}{4}, \frac{1}{4}, \frac{1}{4}\big) \) macierz drugich pochodnych cząstkowych funkcji \( \displaystyle f \)
\( \displaystyle \left[\begin{array}{rrr} \frac{5}{4} & -\frac{1}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & -\frac{1}{4} & \frac{5}{4}\end{array} \right] \)
ma wszystkie minory główne dodatnie:
\( \displaystyle \begin{align*} A_1 & =\det\left[\frac{5}{4}\right]=\frac{5}{4}>0 \\ A_2 & =\det\left[\begin{array}{rr} \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4}\end{array}\right ] =\frac{1}{4^2}\det\left[\begin{array}{rr} 5 & -1 \\ -1 & 5\end{array} \right]=\frac{24}{16}>0 \\ \\ A_3 & =\det \left[\begin{array}{rrr} \frac{5}{4} & -\frac{1}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & -\frac{1}{4} & \frac{5}{4}\end{array} \right]= \frac{1}{4^3}\det\left[\begin{array}{rrr} 5 & -1 & -1 \\ -1 & 5 & -1 \\ -1 & -1 & 5\end{array}\right ]=\frac{108}{64}>0.\end{align*} \)
Stąd w punkcie \( \displaystyle P_1 \) funkcja osiąga minimum lokalne równe \( \displaystyle f(P_1)=-\frac{3}{256} \). Podobne uzasadnienie prowadzi do wniosku, że także w pozostałych punktach \( \displaystyle P_2 \), \( \displaystyle P_3 \) oraz \( \displaystyle P_4 \) funkcja osiąga minima lokalne.
Należy jednak wyraźnie zaznaczyć, że można w tym przykładzie zrezygnować z analizy określoności drugiej różniczki. Punkty \( \displaystyle A_1, A_2, A_3, A_4 \) leżą we wnętrzu zbioru ograniczonego poziomicą zerową funkcji \( \displaystyle f \), precyzyjniej: leżą w obszarze, gdzie funkcja
\( \displaystyle f \) jest ujemna. Ponieważ zbiór
\( \displaystyle \{(x,y,z)\in \mathbb{R}^3 : f(x,y,z)\leq 0\} \)
jest zwarty (gdyż jest domknięty i ograniczony), funkcja \( \displaystyle f \), na mocy twierdzenia Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym, musi w tych czterech punktach osiągać minima lokalne.
Badanie funkcji wielu zmiennych (w szczególności znajdywanie punktów ekstremalnych) w wielu przypadkach nie wymaga wyznaczania ani pierwszej, ani drugiej różniczki funkcji. Można bowiem sprowadzić ich badanie do badania funkcji jednej zmiennej.
Rozważmy kilka przykładów, w których funkcja dwóch zmiennych jest w istocie funkcją jednej zmiennej, a mianowicie: jest funkcją odległości od początku układu współrzędnych.
Przykład 8.18.
Funkcja \( \displaystyle f(x,y)=\exp(-x^2-y^2) \) jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \), gdyż \( \displaystyle f(x,y)=e^{-r^2} \), gdzie \( \displaystyle r=\sqrt{x^2+y^2} \). Ponieważ funkcja \( \displaystyle r\mapsto e^{-r^2} \) osiąga wartość największą w punkcie \( \displaystyle r=0 \) i nie osiąga żadnych więcej ekstremów na półprostej \( \displaystyle 0\leq r < \infty \), więc jedynym ekstremum funkcji \( \displaystyle f(x,y)=\exp(-x^2-y^2) \) jest maksimum lokalne osiągane w punkcie \( \displaystyle (0,0) \) (tj. \( \displaystyle r=0 \)). Wówczas \( \displaystyle f(0,0)=1 \).
Przykład 8.19.
Funkcja \( \displaystyle f(x,y)=\sin(x^2+y^2) \) także jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \). Zauważmy bowiem, że
\( \displaystyle f(x,y)=\sin(x^2+y^2)=\sin(r^2\cos^2\varphi+r^2\sin^2\varphi)=\sin(r^2) \)
osiąga ekstrema w tych samych punktach, co funkcja \( \displaystyle r\mapsto \sin (r^2) \), a więc osiąga maksima w punktach \( \displaystyle r^2=\frac{\pi}{2}+2k\pi \) i minima w punktach \( \displaystyle r^2=\frac{3\pi}{2}+2k\pi \), gdzie \( \displaystyle k=0, 1,2,\dots \). Innymi słowy funkcja \( \displaystyle (x,y)\mapsto f(x,y) \) osiąga maksima w punktach należących do okręgów o równaniach
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=\frac{\pi}{2}+2k\pi\} \)
oraz w punkcie \( \displaystyle (0,0) \) (wtedy \( \displaystyle r=0 \)), a minima w punktach należących do okręgów
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=\frac{3\pi}{2}+2k\pi\}, \)
gdzie \( \displaystyle k \) jest dowolną liczbą całkowitą nieujemną.
Wykres funkcji \( \displaystyle f(x,y)=\sin(x^2+y^2) \)
Przykład 8.20.
Podobnie jak w poprzednim przykładzie funkcja \( \displaystyle f(x,y)=\cos(x^2+y^2)=\cos (r^2) \), \( \displaystyle r=\sqrt{x^2+y^2} \), osiąga maksima na okręgach o promieniach \( \displaystyle r \) takich, ze \( \displaystyle r^2=0+2k\pi \), czyli na okręgach
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=2k\pi\}, \)
natomiast minima na okręgach, których promień \( \displaystyle r \) spełnia równanie \( \displaystyle r^2=\pi+2k\pi \), tj. na okręgach
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=(2k+1)\pi\}, \)
gdzie \( \displaystyle k=0,1,2,\dots \) jest nieujemną liczbą całkowitą.
Przykład 8.21.
Także funkcja \( \displaystyle f(x,y)=\ln (x^2+y^2+1)=\ln(r^2 +1) \) jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \). Ponieważ funkcja \( \displaystyle [0, \infty)\ni r\mapsto r^2+1\in \mathbb{R} \) jest ściśle rosnąca, osiąga minimum w punkcie \( \displaystyle r=0 \). Stąd także funkcja \( \displaystyle f(x,y)=\ln (x^2+y^2+1) \) osiąga minimum w punkcie \( \displaystyle (x,y)=(0,0) \) (wówczas \( \displaystyle r=0 \)).
Również w wielu innych przykładach, gdy funkcja \( \displaystyle f \) nie jest funkcją promienia, można uniknąć stosowania rachunku różniczkowego do wyznaczenia ekstremów.
Przykład 8.22.
Funkcja \( \displaystyle f(x,y)=\sin(x^2-y^2) \) osiąga maksima w punktach hiperbol
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=\frac{\pi}{2}+2k\pi\}, \) a minima w punktach drugiej rodziny hiperbol
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=\frac{3\pi}{2}+2k\pi\}, \)
gdzie \( \displaystyle k \) jest liczbą całkowitą.
Przykład 8.23.
Z kolei funkcja \( \displaystyle f(x,y)=\cos(x^2-y^2) \) osiąga maksima w punktach hiperbol
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=2k\pi\}, \)
a minima w punktach drugiej rodziny hiperbol
\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=(2k+1)\pi\}, \)
gdzie \( \displaystyle k \) jest liczbą całkowitą.
Uwaga 8.24.
Przypomnijmy także, że prosta obserwacja przebiegu poziomic pozwala stwierdzić, że
(a) funkcja \( \displaystyle f_1(x,y)=x^2+y^2 \) osiąga w punkcie \( \displaystyle (0,0) \) minimum
(b) w tym samym punkcie funkcja \( \displaystyle f_2(x,y)=-x^2-y^2 \) osiąga maksimum
(c) a funkcja \( \displaystyle f_3(x,y)=x^2-y^2 \) nie osiąga w punkcie \( \displaystyle (0,0) \) żadnego ekstremum, gdyż ma w tym punkcie wartość zero, a w dowolnie małym otoczeniu tego punktu osiąga wartości mniejsze jak i większe od zera.
Przykład 8.25.
Zauważmy, że każda z trzech funkcji a, b, c ma w punkcie \( \displaystyle (0,0) \) zerową zarówno pierwszą jak i drugą różniczkę. Żadna z nich nie ma jednak w tym punkcie ekstremum, gdyż przyjmują w dowolnie małym otoczeniu punktu \( \displaystyle (0,0) \) zarówno wartości mniejsze jak i większe od zera.
(a) \( \displaystyle f_2(x,y)=-x^3-y^3 \)
(b) \( \displaystyle f_3(x,y)=x^3-y^3 \)
(c) \( \displaystyle f_1(x,y)=x^3+y^3 \)
Należy pamiętać o analizowaniu otoczenia punktów krytycznych funkcji, w których o istnieniu ekstremów nie rozstrzyga warunek wystarczający.
Przykład 8.26.
Funkcja \( \displaystyle f(x,y)=|x|^\frac{2}{3}+|y|^\frac{2}{3} \) jest ciągła na całej płaszczyźnie, nie jest jednak różniczkowalna w punktach należących do dwóch prostych: \( \displaystyle x=0 \) oraz \( \displaystyle y=0 \). Różniczka tej funkcji nie zeruje się w żadnym punkcie swojej dziedziny, tj. poza obiema prostymi \( \displaystyle x=0 \), \( \displaystyle y=0 \). Stąd zbiorem punktów krytycznych jest suma obu prostych:
\( \displaystyle \{(x,y)\in\mathbb{R}^2 : x=0 \text{ lub } y=0 \}. \)
Łatwo zauważyć, że jedynie w punkcie \( \displaystyle (0,0) \) tego zbioru funkcja \( \displaystyle f \) osiąga ekstremum, a mianowicie minimum \( \displaystyle f(0,0)=0 \).