Różniczka. Różniczki wyższych rzędów. Wzór Taylora

Uogólniamy znane z Analizy matematycznej I pojęcie pochodnej na przypadek funkcji wielu zmiennych. Definiujemy pochodną funkcji o wartościach wektorowych oraz różniczkę zupełną w sensie Frecheta. Dowodzimy własności różniczki zupełnej i wyrażamy ją za pomocą pochodnych cząstkowych. Definiujemy także różniczki wyższych rzędów.

Pochodna funkcji jednej zmiennej o wartościach wektorowych

Wprowadzenie pojęcia pochodnej funkcji poprzedziliśmy przypomnieniem dwóch wielkości fizycznych: prędkości średniej i prędkości chwilowej w ruchu prostoliniowym. Zwróćmy uwagę na to, że w otaczającym nas świecie ruch po prostej jest rzadkością, gdyż większość obiektów, które obserwujemy, porusza się po drodze na płaszczyźnie dwuwymiarowej, bądź w przestrzeni trójwymiarowej. Wprowadźmy więc pojęcie pochodnej, które odpowiada m.in. potrzebie opisu ruchu w realnym świecie.

Niech \( \displaystyle f: (a,b)\ni t\mapsto f(t)\in Y \) będzie funkcją określoną na przedziale otwartym o wartościach w przestrzeni unormowanej \( \displaystyle Y \). Możemy mieć na myśli na przykład przestrzeń unormowaną \( \displaystyle Y=\mathbb{R}^n \), w której długość wektora \( \displaystyle y=(y_1, y_2, \dots, y_n) \) wyraża norma \( \displaystyle \|y\|=\sqrt{|y_1|^2+|y_2|^2+\dots+|y_n|^2} \).

Definicja 7.1.

Mówimy, że funkcja \( \displaystyle f: (a,b)\mapsto Y \) jest różniczkowalna w punkcie \( \displaystyle t_0\in (a,b) \), jeśli istnieje wektor \( \displaystyle y_0\in Y \) taki, że iloraz różnicowy \( \displaystyle \frac{1}{h}\big(f(t_0+h)-f(t_0)\big) \) zmierza do \( \displaystyle y_0 \) w normie przestrzeni \( \displaystyle Y \), to znaczy

\( \displaystyle \bigg\|\frac{1}{h}\big(f(t_0+h)-f(t_0)\big)-y_0\bigg\|\to 0, \text{ gdy }h\to 0 . \) Wektor \( \displaystyle y_0\in Y \) nazywamy pochodną funkcji \( \displaystyle f \) w punkcie \( \displaystyle t_0 \) i oznaczamy symbolem \( \displaystyle \frac{d}{dt}f(t_0) \) lub \( \displaystyle f'(t_0) \).

Uwaga 7.2.

W szczególnym przypadku, gdy \( \displaystyle Y=\mathbb{R}^n \), funkcja

\( \displaystyle f:(a,b)\ni t \mapsto f(t)=\big(f_1 (t), f_2(t), \dots, f_n(t)\big)\in \mathbb{R}^n \)

jest zestawieniem \( \displaystyle n \) funkcji \( \displaystyle f_k : (a,b) \ni t\mapsto f_k(t)\in \mathbb{R} \) o wartościach liczbowych. Stąd istnienie pochodnej \( \displaystyle \frac{d}{dt}f(t_0) \) jest równoważne istnieniu pochodnych wszystkich składowych funkcji \( \displaystyle f \) w punkcie \( \displaystyle t_0 \). Wówczas też pochodna \( \displaystyle f \) jest zestawieniem pochodnych swoich składowych, tzn.

\( \displaystyle \frac{d}{dt}f(t_0)=\big(\frac{d}{dt}f_1(t_0), \frac{d}{dt}f_2(t_0), \dots, \frac{d}{dt}f_n(t_0)\big). \)

Przykład 7.3.

Rozważmy ruch punktu materialnego opisany równaniami:

\( \displaystyle \left\{\begin{align*} x(t)=a\cos t \\ y(t)=b \sin t\end{align*} \right. \ \ \ \ \text{ gdzie }a\geq b>0. \)

Jak łatwo zauważyć punkt porusza się po elipsie o równaniu

\( \displaystyle \frac{x^2}{a^2}+ \frac{y^2}{b^2}=1, \)

gdyż (na podstawie jedynki trygonometrycznej) mamy równość

\( \displaystyle \displaystyle \frac{x(t)^2}{a^2}+ \frac{y(t)^2}{b^2}=\cos^2 t+\sin^2 t=1. \)

Ruch ten jest okresowy, wystarczy więc ograniczyć zbiór wartości parametru \( \displaystyle t \) do przedziału \( \displaystyle [0, 2\pi] \). Prędkość w tym ruchu jest wektorem o dwóch składowych

\( \displaystyle v(t)=\big(\frac{d}{dt} x(t) , \frac{d}{dt}y(t)\big) =(-a \sin t, b\cos t). \)

Długość wektora prędkości \( \displaystyle v(t) \) jest pierwiastkiem z sumy kwadratów składowych tego wektora:

\( \displaystyle |v(t)|=\sqrt{a^2 \sin^2 t+b^2\cos^2 t}=\sqrt{(a^2-b^2) \sin^2 t+b^2} \)

i jest największa wówczas, gdy funkcja \( \displaystyle t\mapsto \sin^2 t \) przyjmuje wartość największą (równą jedności), a więc w przedziale \( \displaystyle 0\leq t\leq 2\pi \) w chwili \( \displaystyle t=\frac{\pi}{2} \) oraz \( \displaystyle t=\frac{3\pi}{2} \), tj. w punktach \( \displaystyle (0,b) \) oraz \( \displaystyle (0, -b) \) elipsy. Z kolei prędkość \( \displaystyle |v(t)| \) jest najmniejsza wówczas, gdy funkcja \( \displaystyle t\mapsto \sin^2 t \) osiąga wartość najmniejszą (równą zeru). W przedziale \( \displaystyle 0\leq t\leq 2\pi \) zachodzi to w chwili \( \displaystyle t=0 \) oraz \( \displaystyle t=\pi \), co odpowiada położeniu w punktach \( \displaystyle (a,0) \) oraz \( \displaystyle (-a,0) \). Rozwiązanie zadania jest intuicyjnie oczywiste: chcąc bezpiecznie pokonać ostrzejszy zakręt, musimy zwolnić. Na łagodnym łuku (na łuku o małej krzywiźnie) można przyśpieszyć.

Przykład 7.4.

Rozważmy ruch punktu materialnego opisany równaniami:

\( \displaystyle \left\{\begin{align*} x(t)=\cos^3 t \\ y(t)= \sin^3 t\end{align*} \right.\ . \)

Punkt ten porusza się po krzywej zwanej asteroidą o równaniu

\( \displaystyle |x|^\frac{2}{3}+|y|^\frac{2}{3}=1, \)

gdyż (na mocy jedynki trygonometrycznej) mamy równość \( \displaystyle \displaystyle |x(t)|^\frac{2}{3}+|y(t)|^\frac{2}{3}=\cos^2 t+\sin^2 t=1 \). Prędkość w tym ruchu jest wektorem o dwóch składowych

\( \displaystyle v(t)=\big(\frac{d}{dt} x(t) , \frac{d}{dt}y(t)\big) =(-3\cos^2 t \sin t, 3\sin^2 t\cos t). \)

Długość wektora prędkości \( \displaystyle v(t) \) jest pierwiastkiem z sumy kwadratów jego składowych:

\( \displaystyle \begin{align*} |v(t)| & =\sqrt{9\cos^4 t\sin^2 t+9\sin^4 \cos^2t} \\ & =\sqrt{9\cos^2 t\sin^2 t(\cos^2 t+\sin^2 t)}=3|\cos t\sin t|=\frac{3}{2}|\sin 2t|.\end{align*} \)

Podobnie jak w poprzednim przykładzie ruch ten jest okresowy o okresie \( \displaystyle 2\pi \), wystarczy więc zbadać go w przedziale \( \displaystyle 0\leq t\leq 2\pi \). Zauważmy, że w opisanym ruchu prędkość jest największa wówczas, gdy \( \displaystyle t\mapsto |\sin 2t| \) przyjmuje największą wartość (równą jedności), co w przedziale \( \displaystyle 0\leq t\leq 2\pi \) ma miejsce w czterech chwilach: gdy \( \displaystyle t=\frac{\pi}{4} \), \( \displaystyle t=\frac{3\pi}{4} \), \( \displaystyle t=\frac{5\pi}{4} \), \( \displaystyle t=\frac{7\pi}{4} \). Punkt materialny znajduje się wówczas w jednym z punktów \( \displaystyle (a,a) \), \( \displaystyle (-a,a) \), \( \displaystyle (-a,-a) \), \( \displaystyle (a, -a) \), gdzie \( \displaystyle a=\frac{1}{2\sqrt{2}} \), które -- jak nietrudno zauważyć -- leżą w środku łagodnego łuku asteroidy. Z kolei w chwili \( \displaystyle t=0 \), \( \displaystyle t=\frac{\pi}{2} \), \( \displaystyle t={\pi} \), \( \displaystyle t=\frac{3\pi}{2} \) funkcja \( \displaystyle t\mapsto |\sin 2t| \) osiąga wartość najmniejszą równą zeru. Punkt materialny znajduje się wówczas w jednym z ostrzy asteroidy: w punkcie \( \displaystyle (1,0) \), \( \displaystyle (0,1) \), \( \displaystyle (-1,0) \) lub \( \displaystyle (0, -1) \). Zerowa prędkość punktu w tych położeniach jest również intuicyjnie oczywista: chcąc gładko pokonać tak ostry zakręt, na którym wręcz trzeba zawrócić, należy się na chwilę zatrzymać.

W ramach kursu Analizy matematycznej I określiliśmy pojęcie pochodnej w punkcie \( \displaystyle a \) funkcji \( \displaystyle f \) jednej zmiennej o wartościach rzeczywistych, a na początku tego wykładu rozszerzyliśmy pojęcie pochodnej na przypadek funkcji jednej zmiennej o wartościach w dowolnej przestrzeni wektorowej \( \displaystyle Y \) za pomocą granicy ilorazu różnicowego

\( \displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h}, \)

którą (o ile istnieje) oznaczamy symbolem \( \displaystyle f'(x_0) \) lub \( \displaystyle \frac{d}{dt}f(x_0) \). Zwróćmy uwagę, że w przypadku, gdy funkcja \( \displaystyle f:\mathbb{R}\supset (a,b)\mapsto Y \) osiąga wartości w przestrzeni wektorowej \( \displaystyle Y \), pochodna \( \displaystyle f'(x_0)\in Y \) jest wektorem.

Różniczka zupełna

Uwaga 7.5.

Funkcja \( \displaystyle f: (a,b)\mapsto Y \) o wartościach w przestrzeni unormowanej \( \displaystyle Y \) ma pochodną w punkcie \( \displaystyle x_0\in (a,b) \) wtedy i tylko wtedy, gdy istnieje wektor \( \displaystyle y_0\in Y \) taki, że

\( \displaystyle \|f(x_0+h)-f(x_0)-hy_0\|=o(|h|) \), czyli

\( \displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}=0. \)

Dowód 7.5.

Jeśli iloraz różnicowy

\( \displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h} \)

zmierza do \( \displaystyle f'(a)\in Y \) w normie przestrzeni \( \displaystyle Y \), to

\( \displaystyle \bigg\|\frac{f(x_0+h)-f(x_0)}{h}-f'(x_0)\bigg\|\to 0, \text{ gdy } h\to 0, \)

czyli

\( \displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}=0, \)

gdy \( \displaystyle y_0=f'(x_0 ) \). Z kolei z istnienia wektora \( \displaystyle y_0\in Y \) takiego, że istnieje

\( \displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}= 0 \)

wynika, że istnieje granica ilorazu różnicowego

\( \displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h}, \)

i jest równa \( \displaystyle y_0 \), a więc \( \displaystyle f'(x_0)=y_0 \), gdyż ciąg zbieżny w przestrzeni unormowanej ma granicę określoną jednoznacznie.

Zauważmy, że funkcja

\( \displaystyle \mathbb{R} \ni h\mapsto h y_0\in Y \)

jest liniowa. Spostrzeżenie to prowadzi do uogólnienia pojęcia pochodnej funkcji jednej zmiennej na przypadek funkcji określonej na przestrzeni unormowanej \( \displaystyle X \) o wartościach w przestrzeni unormowanej \( \displaystyle Y \).

Niech \( \displaystyle X \) oraz \( \displaystyle Y \) będą przestrzeniami Banacha, tj. zupełnymi przestrzeniami unormowanymi z normami odpowiednio \( \displaystyle \|\cdot\|_X \) oraz \( \displaystyle \|\cdot\|_Y \). Niech \( \displaystyle U \) będzie podzbiorem otwartym przestrzeni \( \displaystyle X \).

Definicja 7.6.

Mówimy, że funkcja \( \displaystyle f: U\mapsto Y \) jest różniczkowalna w sensie Frecheta w punkcie \( \displaystyle a\in U \) (lub krótko: jest różniczkowalna w punkcie \( \displaystyle a \)), jeśli istnieje odwzorowanie \( \displaystyle L \) liniowe i ciągłe przestrzeni \( \displaystyle X \) w \( \displaystyle Y \) takie, że \( \displaystyle \|f(a+h)-f(a)-L(h)\|_{Y}=o(\|h\|_X) \), to znaczy

\( \displaystyle \frac{\|f(a+h)-f(a)-L(h)\|_{Y}}{\|h\|_X}\to 0, \text{ gdy }\to 0. \)

Odwzorowanie liniowe i ciągłe \( \displaystyle L \) nazywamy różniczką zupełną (lub różniczką (w sensie) Frecheta, bądź pochodną (w sensie) Frecheta) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) i oznaczamy symbolem \( \displaystyle d_a f \) bądź \( \displaystyle f'(a) \). Wartość różniczki funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) na wektorze \( \displaystyle h\in X \) oznaczamy symbolem \( \displaystyle d_a f(h) \) lub \( \displaystyle d_a f.h \) albo też \( \displaystyle f'(a).h \)

Do tej pory studiując odwzorowania liniowe w ramach algebry liniowej z geometrią w przypadku skończenie wymiarowym, przywykliśmy do faktu, że

Uwaga 7.7.

Każde odwzorowanie liniowe \( \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^m \) określone na przestrzeni o skończonym wymiarze jest ciągłe.

Może więc zastanawiać żądanie ciągłości odwzorowania liniowego \( \displaystyle L \) w definicji różniczki Frecheta. Zanim podamy przykład odwzorowania liniowego, które nie jest ciągłe, sformułujemy warunki równoważne ciągłości odwzorowania liniowego.

Uwaga 7.8.

Niech \( \displaystyle X,Y \) będą przestrzeniami unormowanymi. Niech \( \displaystyle L: X\mapsto Y \) będzie odwzorowaniem liniowym (tj. addytywnym i jednorodnym). Następujące warunki są równoważne

1) \( \displaystyle L \) jest ciągłe,

2) \( \displaystyle L \) jest ciągłe w zerze,

3) \( \displaystyle L \) jest ograniczone, tzn. \( \displaystyle \sup_{x\neq 0}\frac{\|L x\|}{\|x\|} < \infty. \)

Wobec tych uwag przykład odwzorowania liniowego, które nie jest ciągłe, musimy podać na przestrzeni unormowanej o nieskończonym wymiarze.

Przykład 7.9.

Zbiór \( \displaystyle X \) wszystkich funkcji ciągłych określonych na przedziale domkniętym \( \displaystyle [0,1] \) o wartościach w \( \displaystyle \mathbb{R} \) z normą

\( \displaystyle \|x\|=\sup \{|x(t)|, t\in [0,1]\} \)

stanowi przestrzeń Banacha, gdyż jest przestrzenią unormowaną z normą \( \displaystyle \|\cdot \| \) (co łatwo sprawdzić) i jest zupełna, ponieważ granica (w podanej normie) ciągu funkcji ciągłych jest funkcją ciągłą. Rozważmy odwzorowanie \( \displaystyle L: f\mapsto f' \), które funkcji ciągłej \( \displaystyle f \) i różniczkowalnej w \( \displaystyle X \) przyporządkowuje jej pochodną \( \displaystyle f' \). Z własności pochodnej wynika, że odwzorowanie \( \displaystyle L \) jest

-- addytywne, tj. \( \displaystyle L(f_1+f_2)=Lf_1 +Lf_2 \), dla dowolnych funkcji różniczkowalnych \( \displaystyle f_1 \), \( \displaystyle f_2 \),

-- jednorodne, tj. \( \displaystyle L(\lambda f)=\lambda L(f) \), dla dowolnej funkcji różniczkowalnej \( \displaystyle f \) i stałej \( \displaystyle \lambda \),

jest więc liniowe. Nie jest jednak ciągłe, gdyż nie jest ograniczone. Weźmy na przykład ciąg jednomianów \( \displaystyle x^n \):

\( \displaystyle \forall n\in \mathbb{N} : \|x^n\|=1. \)

Jednomiany te mają normę ograniczoną z góry przez \( \displaystyle 1 \). Gdyby odwzorowanie \( \displaystyle L \) było ciągłe, normy \( \displaystyle L(x^n ) \) byłyby ograniczone,

lecz nie są gdyż

\( \displaystyle \|L(x^n)\|=\|nx^{n-1}\|=n\to\infty, \text{ gdy }n\to\infty. \)

Wynika stąd, że \( \displaystyle L: f\mapsto f' \) nie jest ograniczone. Nie jest więc ciągłe, mimo że jest liniowe.

Kolejne twierdzenie podaje podstawowe własności różniczki Frecheta.

Twierdzenie 7.10.

Niech \( \displaystyle X, Y \) będą przestrzeniami Banacha.

a) Odwzorowanie afiniczne

\( \displaystyle F: X\ni x\mapsto x_0 +\Lambda(x)\in Y, \ \text{ gdzie } \Lambda \in L(X,Y), \)

jest różniczkowalne w sensie Frecheta w dowolnym punkcie \( \displaystyle x\in X \), a jego różniczką w każdym punkcie jest cześć liniowa odwzorowania afinicznego \( \displaystyle F \), tzn.

\( \displaystyle \forall x\in X \ \exists d_x F=\Lambda. \)

W szczególności różniczka odwzorowania liniowego i ciągłego jest tym samym odwzorowaniem:

\( \displaystyle d_x \Lambda =\Lambda, \ \Lambda \in L(X, Y). \)

b) Zestawienie funkcji

\( \displaystyle F: X\ni x\mapsto F(x)=\big(f_1(x), f_2(x)\big)\in Y_1\times Y_2 \)

jest różniczkowalne w punkcie \( \displaystyle a\in X \) wtedy i tylko wtedy, gdy różniczkowalne w punkcie \( \displaystyle a \) są składowe \( \displaystyle f_1: X\mapsto Y_1 \) oraz \( \displaystyle f_2: X\mapsto Y_2 \). Zachodzi wówczas równość

\( \displaystyle d_a F=(d_a f_1, d_a f_2). \) Innymi słowy różniczka zestawienia funkcji jest zestawieniem różniczek składowych odwzorowania. W szczególnym przypadku, gdy

\( \displaystyle F: X\ni x\mapsto \big(f_1(x), f_2(x), \dots, f_n(x)\big)\in \mathbb{R}^n, \)

mamy równość

\( \displaystyle d_a F=(d_a f_1, d_a f_2, \dots, d_a f_n). \)

c) Suma funkcji różniczkowalnych \( \displaystyle f: X\mapsto Y \), \( \displaystyle g:X\mapsto Y \) w punkcie \( \displaystyle a \) jest funkcją różniczkowalną. Różniczką sumy jest suma różniczek, tzn.

\( \displaystyle d_a(f+g)=d_a f+d_a g. \)

d) Iloczyn stałej \( \displaystyle C \) i funkcji różniczkowalnej \( \displaystyle f: X\mapsto Y \) w punkcie \( \displaystyle a\in X \) jest funkcją różniczkowalną w tym punkcie, przy czym

\( \displaystyle d_a (C\,f)=C \, d_a f. \)

Innymi słowy, stałą można wyłączyć przed różniczkę.

e) Jeśli funkcja \( \displaystyle f: X\mapsto Y \) jest różniczkowalna w sensie Frecheta w punkcie \( \displaystyle a \), to w tym punkcie jest ciągła.

Dowód 7.10.

Podane własności różniczki wynikają bezpośrednio z definicji.

Szczegółowe uzasadnienia pomijamy.

Kolejne twierdzenie dotyczy istnienia różniczki złożenia funkcji.

Twierdzenie 7.11.

Niech \( \displaystyle X, Y, Z \) będą przestrzeniami Banacha. Jeśli funkcja \( \displaystyle f: X\mapsto Y \) jest różniczkowalna w punkcie \( \displaystyle a \), a funkcja \( \displaystyle g:Y\mapsto Y \) jest różniczkowalna w punkcie \( \displaystyle f(a) \), to złożenie \( \displaystyle g\circ f : X\mapsto Z \) jest różniczkowalne w punkcie \( \displaystyle a \) i zachodzi równość:

\( \displaystyle d_a (g\circ f)=d_{f(a)}g \circ d_a f. \)

Innymi słowy, różniczka złożenia funkcji jest złożeniem ich różniczek.

Dowód 7.11.

Funkcja \( \displaystyle f \) jest różniczkowalna w punkcie \( \displaystyle a \), a funkcja \( \displaystyle g \) -- w punkcie \( \displaystyle y=f(a) \), więc

\( \displaystyle \begin{align*} & \|f(a+h)-f(a)-d_a f(h)\|_Y & =o(\|h\|_X) \\ & \|g(y+k)-g(y)-d_y g(k)\|_Z & =o(\|k\|_Y). \end{align*} \)

Stąd wobec ograniczoności różniczek \( \displaystyle d_a f \) oraz \( \displaystyle d_y g \) dostajemy

\( \displaystyle \|g(f(a+h))-g(f(a))-(d_y g\circ d_a f)(h)\|_Z=o(\|h\|_X), \text{ gdzie }y=f(a), \)

co dowodzi różniczkowalności złożenia \( \displaystyle g\circ f \) w punkcie \( \displaystyle a \) oraz równości \( \displaystyle d_a (g\circ f)=d_{f(a)}g \circ d_a f. \) Szczegółowe przekształcenia pomijamy (można je znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977).

Ważnym twierdzeniem w teorii różniczki Frecheta jest twierdzenie o różniczce odwzorowania odwrotnego.

Twierdzenie 7.12.

Niech \( \displaystyle f:X\supset U\ni x\mapsto f(x) \in Y \) będzie funkcją określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \) o wartościach w przestrzeni Banacha \( \displaystyle Y \).

Jeśli w pewnym otoczeniu \( \displaystyle U_1 \) punktu \( \displaystyle a\in X \) funkcja \( \displaystyle f \) ma ciągłą różniczkę

\( \displaystyle U_1\ni x\mapsto d_x f\in L(X, Y) \)

oraz różniczka \( \displaystyle d_a f\in L(X,Y) \) jest izomorfizmem przestrzeni \( \displaystyle X \) i \( \displaystyle Y \), to

1) w pewnym otoczeniu \( \displaystyle U_2\subset U_1 \) punktu \( \displaystyle a \) funkcja \( \displaystyle f: U_2\mapsto Y \) jest różnowartościowa;

2) funkcja odwrotna \( \displaystyle g: Y\supset f(U_2)\mapsto U_2\subset X \) do funkcji \( \displaystyle f \) (zacieśnionej do zbioru \( \displaystyle U_2 \)) jest ciągła;

3) funkcja odwrotna \( \displaystyle g \) jest różniczkowalna w punkcie \( \displaystyle f(a) \) i zachodzi równość

\( \displaystyle d_{f(a)}g=(d_a f)^{-1}. \)

Innymi słowy, różniczka funkcji odwrotnej jest odwrotnością różniczki.

Dowód 7.12.

(szkic) Szczegóły dowodu (które pomijamy) można znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977. Zauważmy, że jeśli funkcja \( \displaystyle g \) jest odwrotna do \( \displaystyle f \), to złożenie \( \displaystyle g(f(x))=x \), dla każdego \( \displaystyle x\in X \), tzn. \( \displaystyle g\circ f: X \mapsto X \) jest identycznością na przestrzeni \( \displaystyle X \). Ponieważ \( \displaystyle \mathrm{id}\,: X\mapsto X \) odwzorowaniem liniowym i ciągłym, więc jest różniczkowalne i jego różniczką jest \( \displaystyle \mathrm{id}\, \). Stąd na mocy twierdzenia o różniczce złożenia mamy

\( \displaystyle d_{f(a)}g\circ d_a f = d_a (g\circ f)=d_a\mathrm{id}\, =\mathrm{id}\,. \)

Wobec założenia o izomorficzności \( \displaystyle d_a f\in L(X,Y) \) istnieje odwzorowanie odwrotne \( \displaystyle (d_a f)^{-1} \in L(Y,X) \), które jest różniczką funkcji odwrotnej \( \displaystyle g \) w punkcie \( \displaystyle f(a) \), czyli \( \displaystyle d_{f(a)}g=(d_a f)^{-1} \).

Twierdzenie, które sformułowaliśmy, nazywa się twierdzeniem o lokalnej odwracalności odwzorowania lub twierdzeniem o lokalnym dyfeomorfizmie.

Wyrażenie różniczki Frecheta za pomocą pochodnych cząstkowych

W poprzednim module zdefiniowaliśmy pochodną kierunkową funkcji \( \displaystyle f:X\mapsto \mathbb{R} \) w punkcie \( \displaystyle a \) w kierunku \( \displaystyle v\neq 0 \). Możemy tę samą definicję powtórzyć również w przypadku funkcji \( \displaystyle f:X\mapsto Y \), w przypadku, gdy zbiorem wartości funkcji \( \displaystyle f:X\mapsto Y \), jest dowolna przestrzeń unormowana \( \displaystyle Y \):

\( \displaystyle \partial_v f(a)=\lim_{t\to 0}\frac{f(a+tv)-f(a)}{t}, \)

gdzie \( \displaystyle t\in \mathbb{R} \), a zbieżność ilorazów różnicowych do granicy \( \displaystyle \partial_v f(a)\in Y \) przy \( \displaystyle t\to 0 \) rozumiemy w sensie zbieżności w normie przestrzeni \( \displaystyle Y \).

Uwaga 7.13.

Niech \( \displaystyle v\in X \) będzie dowolnym wektorem jednostkowym z przestrzeni \( \displaystyle X \), tzn. \( \displaystyle \|v\|=1 \). Jeśli funkcja \( \displaystyle f: X\mapsto Y \) jest różniczkowalna w sensie Frecheta w punkcie \( \displaystyle a \), to istnieje pochodna kierunkowa \( \displaystyle \partial_v f(a) \) w dowolnym kierunku \( \displaystyle v \),

przy czym zachodzi równość

\( \displaystyle \partial_v f(a)=d_a f(v) \text{ dla } \|v\|=1. \)

Ponadto funkcja \( \displaystyle v\mapsto \partial_v f(a) \) jest liniowa i ciągła.

Dowód 7.13.

Skoro

\( \displaystyle \displaystyle \frac{\|f(a+h)-f(a)-d_a f (h)\|}{\|h\|}\to 0, \text{ przy }\|h\|\to 0, \)

więc w szczególności dla \( \displaystyle h=tv \) mamy

\( \displaystyle \frac{\|f(a+tv)-f(a)-d_a f (tv)\|}{\|tv\|}\to 0. \)

Wobec liniowości różniczki \( \displaystyle d_a f(tv)=t d_a f(v) \) oraz faktu, że \( \displaystyle \|tv \|=|t| \), mamy

\( \displaystyle \bigg\|\frac{f(a+tv)-f(a)}{t}-d_a f (v)\bigg\|\to 0, \)

czyli iloraz różnicowy \( \displaystyle \frac{f(a+tv)-f(a)}{t} \) zmierza przy \( \displaystyle t\to 0 \) do granicy \( \displaystyle d_a f(v) \), więc istnieje pochodna kierunkowa \( \displaystyle \partial_v f(a) \) i jest równa wartości różniczki zupełnej funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) na wektorze \( \displaystyle v \). Stąd funkcja \( \displaystyle v\mapsto \partial_v f(a)=d_a f (v) \) jest liniowa i ciągła.

Uwaga 7.14.

Niech \( \displaystyle f:X\mapsto Y \) będzie funkcją różniczkowalną w punkcie \( \displaystyle a\in X \). Wówczas \( \displaystyle d_a f=0 \) wtedy i tylko wtedy, gdy zeruje się

pochodna kierunkowa \( \displaystyle \partial_v f(a)=0 \) w dowolnym kierunku.

Powstaje pytanie o istnienie różniczki Frecheta funkcji \( \displaystyle f: X\mapsto Y \) w punkcie, w którym istnieją pochodne kierunkowe w dowolnym kierunku. Negatywną odpowiedź na to pytanie podaje

Przykład 7.15.

Funkcja \( \displaystyle f(x,y)=\root{3}\of{x^3+y^3} \) ma w punkcie \( \displaystyle 0\in \mathbb{R}^2 \) pochodne kierunkowe \( \displaystyle \partial_v f(0) \) w dowolnym kierunku \( \displaystyle \|v\|=1 \), nie jest jednak różniczkowalna w sensie Frecheta w tym punkcie. Zauważmy, że dowolny wektor \( \displaystyle \|v\|=1 \) można na płaszczyźnie \( \displaystyle \mathbb{R}^2 \) jednoznacznie przedstawić w postaci \( \displaystyle v=(\cos\varphi, \sin\varphi) \), gdzie \( \displaystyle 0\leq \varphi < 2\pi \). Stąd \( \displaystyle \lim_{t\to 0}\frac{f(0+tv)-f(0)}{t}=\sqrt{\cos^3\varphi+\sin^3\varphi} \).

Jednak funkcja \( \displaystyle v\mapsto \partial_v f(0) \) nie jest liniowa.

Przykład 7.16.

Funkcja

\( \displaystyle f(x,y)=\left\{\begin{align*} \frac{x^2 y}{x^2+y^2}, \text{ dla } (x,y)\neq 0 \\ 0, \text{ dla } (x,y)=0\end{align*} \right. \)

ma w punkcie \( \displaystyle 0 \) pochodną kierunkową w każdym kierunku, nie ma jednak różniczki Frecheta w tym punkcie.

Z praktycznego punktu widzenia w zastosowaniach najważniejsza jest możliwość wyrażenia różniczki w sensie Frecheta za pomocą pochodnych cząstkowych.

Twierdzenie 7.17.

Niech \( \displaystyle f=(f_1, f_2, \dots, f_m):\mathbb{R}^n \supset U\mapsto \mathbb{R}^m \) będzie funkcją różniczkowalną w sensie Frecheta w punkcie \( \displaystyle a\in U \). Istnieją wówczas pochodne cząstkowe

\( \displaystyle \begin{align*} & \frac{\partial f_1}{\partial x_1}(a), & \frac{\partial f_1}{\partial x_2}(a), & \dots, & \frac{\partial f_1}{\partial x_n}(a) \\ & \frac{\partial f_2}{\partial x_1}(a), & \frac{\partial f_2}{\partial x_2}(a), & \dots, & \frac{\partial f_2}{\partial x_n}(a) \\ & \vdots & \vdots \quad & \dots & \vdots \\ & \frac{\partial f_m}{\partial x_1}(a), & \frac{\partial f_m}{\partial x_2}(a), & \dots, & \frac{\partial f_m}{\partial x_n}(a)\end{align*} \)

i są one wyrazami macierzy odwzorowania liniowego \( \displaystyle d_a f\in L(\mathbb{R}^n, \mathbb{R}^m) \) w bazie kanonicznej, to znaczy, dla dowolnego wektora \( \displaystyle h\in \mathbb{R}^n \) wartość \( \displaystyle d_a f(h) \) odwzorowania \( \displaystyle d_a f \) na wektorze \( \displaystyle h \) jest wektorem z \( \displaystyle \mathbb{R}^m \) o współrzędnych

\( \displaystyle \bigg(\sum_{j=1}^n \frac{\partial f_1}{\partial x_j}(a) h_j, \sum_{j=1}^n \frac{\partial f_2}{\partial x_j}(a) h_j,\dots, \sum_{j=1}^n \frac{\partial f_m}{\partial x_j}(a) h_j\bigg). \)

Dowód 7.17.

Wykazaliśmy, że zachodzi równość \( \displaystyle \partial_v f(a)=d_a f (v) \). Ponieważ \( \displaystyle d_a f =(d_a f_1, d_a f_2, \dots, d_a f_m) \), więc wystarczy wykazać twierdzenie dla składowych odwzorowania \( \displaystyle f \), tj. dla funkcji \( \displaystyle f_i: \mathbb{R}^n\mapsto \mathbb{R} \). W dalszym ciągu dowodu będziemy pomijać indeks dolny \( \displaystyle i \), zakładając, że \( \displaystyle f_i=f \) jest funkcją o wartościach w zbiorze liczb rzeczywistych. Dla dowolnego wektora \( \displaystyle e_i \), \( \displaystyle i=1,2,\dots, n \) bazy kanonicznej przestrzeni \( \displaystyle \mathbb{R}^n \) mamy (z definicji pochodnej cząstkowej) równość \( \displaystyle \partial_{e_i} f(a)=\frac{\partial f}{\partial x_i}(a) \), więc dla dowolnego wektora \( \displaystyle h=h_1e_1+h_2e_2+\dots+h_ne_n \) mamy

\( \displaystyle \begin{align*} d_a f(h) & =d_a f(h_1e_1+h_2e_2+\dots+h_ne_n) \\ & =h_1 d_a f(e_1)+h_2 d_a f(e_2)+\dots+h_n d_a f(e_n) \\ & =h_1\frac{\partial f}{\partial x_1}(a)+h_2\frac{\partial f}{\partial x_2}(a)+\dots+h_n\frac{\partial f}{\partial x_n}(a).\end{align*} \)

Uwaga 7.18.

W ramach kursu algebry liniowej zwykliśmy zapisywać wektory \( \displaystyle h=(h_1, h_2, \dots, h_n)\in \mathbb{R}^n \) w postaci macierzy kolumnowej:

\( \displaystyle \left[\begin{array}{r} h_1 \\ h_2 \\ \vdots \\ h_n\end{array} \right]. \)

Jeśli w taki sam sposób zapiszemy również zestawienie różniczek funkcji \( \displaystyle f=(f_1, f_2, \dots, f_m) \):

\( \displaystyle \left[\begin{array}{r} d_a f_1 \\ d_a f_2 \\ \vdots \\ d_a f_m\end{array} \right], \)

to macierz pochodnych cząstkowych \( \displaystyle \frac{\partial f_i}{\partial x_j}(a) \), \( \displaystyle i=1,2,\dots, m \), \( \displaystyle j=1,2,\dots, n \), powinniśmy zapisać następująco:

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

aby móc stosować algorytm mnożenia (składania) macierzy:

\( \displaystyle \left[\begin{array}{r} d_a f_1 \\ d_a f_2 \\ \vdots \\ d_a f_m\end{array} \right]= \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right]\, \left[\begin{array}{r} h_1 \\ h_2 \\ \vdots \\ h_n\end{array} \right], \)

który w tym przypadku prowadzi do uzyskanego przez nas wzoru:

\( \displaystyle \begin{align*} d_a f_i(h) & =\frac{\partial f_i}{\partial x_1}(a)h_1+\frac{\partial f_i}{\partial x_2}(a)h_2+\dots+\frac{\partial f_i}{\partial x_n}(a)h_n \\ & =\sum_{k=1}^n \frac{\partial f_i}{\partial x_k}(a)h_k, \end{align*} \)

gdzie \( \displaystyle i=1,2,\dots, m \).

Definicja 7.19.

Macierz \( \displaystyle \left[\frac{\partial f_i }{\partial x_j}(a)\right] \), \( \displaystyle i=1,2,\dots, m \), \( \displaystyle j=1,2,\dots, n \), tj. macierz

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

nazywamy macierzą Jacobiego funkcji (odwzorowania) \( \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^m \) w punkcie \( \displaystyle a\in\mathbb{R}^n \). Zwróćmy uwagę, że macierz Jacobiego jest macierzą prostokątną o \( \displaystyle n \) kolumnach i \( \displaystyle m \) wierszach. W szczególnym przypadku, gdy \( \displaystyle n=m \) (tj: \( \displaystyle f: \mathbb{R}^n\mapsto \mathbb{R}^n \)) możemy policzyć wyznacznik macierzy Jacobiego

\( \displaystyle \text{jac}_a f: =\det \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

który nazywamy jakobianem funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) i oznaczamy symbolami \( \displaystyle \text{jac}_a f \), \( \displaystyle \text{jac} f(a) \), \( \displaystyle J_a f \), \( \displaystyle |f'(a)| \), \( \displaystyle |d_a f| \) lub \( \displaystyle \det d_a f \).

Uwaga 7.20.

Autorzy podręczników używają wielu różnych (często niejednolitych) oznaczeń na oznaczenie macierzy Jacobiego i jakobianu. Pamiętajmy jednak, że jakobian jest liczbą równą wyznacznikowi macierzy Jacobiego, tj. macierzy

pochodnych cząstkowych funkcji \( \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^n \).

Kolejny wniosek dotyczy wyrażenia różniczki złożenia dwóch funkcji. Jest bardzo często wykorzystywany w praktycznych obliczeniach

Wniosek 7.21.

Niech \( \displaystyle f=(f_1, f_2, \dots, f_m): \mathbb{R}^n\mapsto \mathbb{R}^m \) będzie funkcją różniczkowalną w punkcie \( \displaystyle a\in \mathbb{R}^n \) i niech \( \displaystyle g=(g_1, g_2, \dots, g_k) : \mathbb{R}^m\mapsto \mathbb{R}^k \) będzie funkcją różniczkowalną w punkcie \( \displaystyle f(a) \). Wiemy już, że istnieje różniczka złożenia \( \displaystyle g\circ f: \mathbb{R}^n\mapsto \mathbb{R}^k \) w punkcie \( \displaystyle a \) i jest złożeniem różniczek \( \displaystyle d_{f(a)}g \) oraz \( \displaystyle d_a f \). Różniczkę \( \displaystyle d_a f \) reprezentuje macierz pochodnych cząstkowych:

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array}\right], \)

a różniczkę \( \displaystyle d_{f(a)}g \) macierz

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial g_1}{\partial x_1}(b) & \displaystyle\frac{\partial g_1}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_1}{\partial x_n}(b) \\ \displaystyle \frac{\partial g_2}{\partial x_1}(b) & \displaystyle\frac{\partial g_2}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_2}{\partial x_n}(b) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial g_m}{\partial x_1}(b) & \displaystyle\frac{\partial g_m}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_m}{\partial x_n}(b) \end{array} \right], \)

gdzie \( \displaystyle b=f(a) \). Złożenie odwzorowań liniowych \( \displaystyle d_{f(a)}g\circ d_a f \) reprezentuje iloczyn podanych macierzy:

\( \displaystyle \left [ \begin{array}{rrrr} \displaystyle \frac{\partial g_1}{\partial x_1}(b) & \displaystyle\frac{\partial g_1}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_1}{\partial x_n}(b) \\ \displaystyle \frac{\partial g_2}{\partial x_1}(b) & \displaystyle\frac{\partial g_2}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_2}{\partial x_n}(b) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial g_m}{\partial x_1}(b) & \displaystyle\frac{\partial g_m}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_m}{\partial x_n}(b) \end{array} \right], \)

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

Stąd pochodną cząstkową \( \displaystyle i \)-tej składowej złożenia \( \displaystyle g\circ f \) wyraża suma

\( \displaystyle \frac{\partial (g\circ f)_i}{\partial x_j}(a)=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} (f(a))\cdot \frac{\partial f_r}{\partial x_j}(a). \)

Uwaga 7.22.

Otrzymany wzór na pochodne cząstkowe złożenia często zapisuje się bez wyszczególniania argumentów w postaci

\( \displaystyle \frac{\partial (g\circ f)_i}{\partial x_j}=\sum_{r=1}^m \bigg(\frac{\partial g_i}{\partial y_r}\circ f\bigg)\cdot \frac{\partial f_r}{\partial x_j}. \)

Czasem też wzór ten upraszcza się (gdy nie ma obawy nieporozumienia)

\( \displaystyle \frac{\partial g_i}{\partial x_j}=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} \cdot \frac{\partial f_r}{\partial x_j}. \)

lub jeszcze prościej

\( \displaystyle \frac{\partial g_i}{\partial x_j}=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} \cdot \frac{\partial y_r}{\partial x_j}, \)

gdzie przez \( \displaystyle y=(y_1, \dots, y_r, \dots, y_m) \) rozumie się zmienną niezależną (po której różniczkuje się funkcję \( \displaystyle g_i \) w pierwszym czynniku), a równocześnie \( \displaystyle (y_1, \dots, y_r, \dots, y_m)=f \) oznacza składowe funkcji \( \displaystyle f \).

Uwaga 7.23.

W wielu klasycznych podręcznikach symbolem \( \displaystyle dx_i : \mathbb{R}^n \ni (x_1, x_2, \dots, x_i, \dots, x_n)\mapsto x_i\in \mathbb{R} \) oznacza się rzutowanie na \( \displaystyle i \)-tą współrzędną. Zwróćmy uwagę, że każde z rzutowań \( \displaystyle dx_1, dx_2, \dots, dx_n \) jest odwzorowaniem liniowym i ciągłym z \( \displaystyle \mathbb{R}^n \) do \( \displaystyle \mathbb{R} \). Wobec tego zamiast przedstawiać

wartość różniczki na wektorze \( \displaystyle h=(h_1, h_2, \dots, h_n) \) za pomocą sumy

\( \displaystyle d_a f(h)=h_1\frac{\partial f(a)}{\partial x_1}+h_2\frac{\partial f(a)}{\partial x_2}+\dots+h_n\frac{\partial f(a)}{\partial x_n} \)

możemy zapisać bezargumentowo jako kombinację liniową rzutowań \( \displaystyle dx_i \) o współczynnikach liczbowych \( \displaystyle \frac{\partial f(a)}{\partial x_i} \), czyli

\( \displaystyle d_a f=\frac{\partial f(a)}{\partial x_1}dx_1+\frac{\partial f(a)}{\partial x_2}dx_2 +\dots+\frac{\partial f(a)}{\partial x_n}dx_n. \)

Wówczas wartość różniczki \( \displaystyle d_a f \) na wektorze \( \displaystyle h=(h_1, h_2, \dots, h_n) \) wyraża się tym samym wzorem, co poprzednio:

\( \displaystyle \begin{align*} d_a f(h) & =\bigg(\frac{\partial f(a)}{\partial x_1}dx_1+\frac{\partial f(a)}{\partial x_2}dx_2 +\dots+\frac{\partial f(a)}{\partial x_n}dx\bigg)(h) \\ & =\frac{\partial f(a)}{\partial x_1}dx_1(h)+\frac{\partial f(a)}{\partial x_2}dx_2(h) +\dots+\frac{\partial f(a)}{\partial x_n}dx_n(h) \\ & =\frac{\partial f(a)}{\partial x_1 } h_1+\frac{\partial f(a)}{\partial x_2 } h_2 + \dots + \frac{\partial f(a)}{\partial x_n} h_n .\end{align*} \)

Wniosek 7.24.

Jeśli \( \displaystyle f : \mathbb{R}^n \supset U\mapsto \mathbb{R} \) jest funkcją różniczkowalną w punkcie \( \displaystyle a\in U \), to dla dowolnego wektora \( \displaystyle h\in \mathbb{R}^n \) wartość różniczki \( \displaystyle d_a f \) na wektorze \( \displaystyle h \) jest iloczynem skalarnym gradientu \( \displaystyle \mathrm{grad}\, f(a) \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) i wektora \( \displaystyle h \), tj.

\( \displaystyle d_a f(h)=(\mathrm{grad}\, f(a) | h)=\frac{\partial f(a)}{\partial x_1 } h_1+\frac{\partial f(a)}{\partial x_2 } h_2 + \dots + \frac{\partial f(a)}{\partial x_n} h_n, \)

gdzie \( \displaystyle (x | y)=x_1 y_1+x_2y_2+\dots+x_n y_n \) oznacza iloczyn skalarny wektorów \( \displaystyle x=(x_1, x_2, \dots, x_n) \) i \( \displaystyle y=(y_1, y_2, \dots, y_n) \) w przestrzeni \( \displaystyle \mathbb{R}^n \).

Ponieważ iloczyn skalarny wektorów \( \displaystyle x \) oraz \( \displaystyle y \) oznacza się także często za pomocą kropki: \( \displaystyle x.y \) albo \( \displaystyle x\cdot y \), stąd wartość różniczki \( \displaystyle d_a f \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) na wektorze \( \displaystyle h \) oznacza się też czasem symbolem: \( \displaystyle d_a f.h \) zamiast \( \displaystyle d_a f(h) \).

Pamiętamy, że dla dowolnych wektorów \( \displaystyle x=(x_1, x_2, \dots, x_n) \) oraz \( \displaystyle y=(y_1, y_2, \dots, y_n) \) zachodzi nierówność Schwarza:

\( \displaystyle |(x|y)|\leq \|x\| \ \|y\|, \)

czyli

\( \displaystyle |x_1 y_1+x_2y_2+\dots+x_n y_n|\leq \sqrt{|x_1|^2+|x_2|^2+\dots+|x_n|^2} \ \sqrt{|y_1|^2+|y_2|^2+\dots+|y_n|^2}, \)

przy czym równość w tej nierówności zachodzi wówczas, gdy wektory \( \displaystyle x \) oraz \( \displaystyle y \) są liniowo zależne. Wnioskiem z nierówności Schwarza jest więc

Uwaga 7.25.

Niech \( \displaystyle \|v\|=1 \) będzie wektorem o jednostkowej długości w \( \displaystyle \mathbb{R}^n \). Pochodna kierunkowa \( \displaystyle \partial_v f(a) \) osiąga największą wartość (co do wartości bezwzględnej) w kierunku wektora gradientu.

Dowód 7.25.

Skoro \( \displaystyle d_a f (v)=\partial_v f(a) \) oraz \( \displaystyle d_a f(v)=\sum_{k=1}^n \frac{\partial f(a)}{\partial x_k}v_k=(\mathrm{grad}\, f(a) | v) \), więc \( \displaystyle \partial_v f(a)=(\mathrm{grad}\, f(a) | v) \). Stąd na mocy nierówności Schwarza:

\( \displaystyle |\partial_v f(a)|=|(\mathrm{grad}\, f (a) |v )|\leq \|\mathrm{grad}\, f (a)\| \ \|v\|, \)

przy czym funkcja \( \displaystyle S^{n-1}\supset v\mapsto |\partial_v f (a)| \) osiąga wartość największą na sferze jednostkowej \( \displaystyle S^{n-1}=\{v\in \mathbb{R}^n: (v|v)=1\} \), gdy wektor \( \displaystyle v \) jest równoległy do wektora gradientu \( \displaystyle \mathrm{grad}\, f(a) \).

Powstaje naturalne pytanie o warunki, jakie powinny spełniać pochodne cząstkowe, aby istniała różniczka. Warunek taki podaje

Twierdzenie 7.26.

(twierdzenie o istnieniu różniczki) Niech \( \displaystyle f=(f_1, f_2, \dots, f_m ):\mathbb{R}^n\mapsto \mathbb{R}^m \) będzie funkcją określoną w pewnym

otwartym otoczeniu \( \displaystyle U\subset \mathbb{R}^n \) punktu \( \displaystyle \alpha \). Jeśli pochodne cząstkowe \( \displaystyle \frac{\partial f_i}{\partial x_j}(\alpha) \) istnieją i są ciągłe w otoczeniu punktu \( \displaystyle \alpha \), to istnieje różniczka \( \displaystyle d_\alpha f \).

Dowód twierdzenia pomijamy (można go znaleźć np. na stronie 175. podręcznika Ryszarda Rudnickiego, Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001).

Interpretacja geometryczna różniczki

Pamiętamy, że jeśli funkcja jednej zmiennej \( \displaystyle f:\mathbb{R}\mapsto \mathbb{R} \) jest różniczkowalna w punkcie \( \displaystyle a \), to jej wykres ma styczną w punkcie \( \displaystyle (a, f(a)) \) o równaniu \( \displaystyle y-f(a)=f'(a)(x-a) \). Innymi słowy pochodna funkcji jednej zmiennej jest współczynnikiem kierunkowym stycznej do wykresu funkcji w punkcie \( \displaystyle (a, f(a)) \).

Uwaga 7.27.

Jeśli \( \displaystyle f:\mathbb{R}^2\mapsto \mathbb{R} \) jest funkcją różniczkowalną w sensie Frecheta w punkcie \( \displaystyle (a,b)\in \mathbb{R}^2 \), to powierzchnia o równaniu \( \displaystyle z=f(x,y) \), która jest wykresem funkcji \( \displaystyle f \), ma płaszczyznę styczną w punkcie \( \displaystyle (a,b, f(a,b)) \) o równaniu

\( \displaystyle z-f(a,b)=\frac{\partial f(a,b)}{\partial x}(x-a)+\frac{\partial f(a,b)}{\partial y}(y-b). \)

Przykład 7.28.

Płaszczyzna styczna do paraboloidy

\( \displaystyle P=\{(x,y,z)\in \mathbb{R}^3 : z=x^2+y^2\} \)

w punkcie \( \displaystyle (a,b, a^2+b^2)\in P \) ma równanie

\( \displaystyle z-(a^2+b^2) = 2(x-a)+2(y-b). \)

Różniczki wyższych rzędów

rycina

Niech \( \displaystyle X, Y \) będą przestrzeniami Banacha i niech \( \displaystyle f: U\mapsto Y \) będzie funkcją określoną na zbiorze otwartym \( \displaystyle U\subset X \). Załóżmy, że w każdym punkcie \( \displaystyle a\in U \) istnieje różniczka \( \displaystyle d_a f\in L(X,Y) \), która -- przypomnijmy -- jest odwzorowaniem liniowym i ciągłym z \( \displaystyle X \) do \( \displaystyle Y \).

Definicja 7.29.

Mówimy, że funkcja \( \displaystyle f: U\mapsto Y \) jest dwukrotnie różniczkowalna w punkcie \( \displaystyle a \), jeśli różniczkowalna jest w punkcie \( \displaystyle a \) funkcja \( \displaystyle d. f: U\ni x\mapsto d_x f\in L(X, Y) \). Różniczkę funkcji \( \displaystyle d. f \) w punkcie \( \displaystyle a \), która jest elementem przestrzeni \( \displaystyle L(X, L(X, Y)) \), nazywamy drugą różniczką funkcji \( \displaystyle f \) (lub różniczką rzędu drugiego funkcji \( \displaystyle f \)) w punkcie \( \displaystyle a \) i oznaczamy symbolem \( \displaystyle d_a ^2 f \).

Uwaga 7.30.

W ramach algebry liniowej dowodzi się, że przestrzenie \( \displaystyle L(X, L(X,Y)) \) oraz \( \displaystyle L^2 (X,Y) \) (czyli przestrzeń odwzorowań dwuliniowych ciągłych na \( \displaystyle X \) o wartościach w \( \displaystyle Y \)) są izomorficzne. Stąd też często mówimy, że różniczka rzędu drugiego jest odwzorowaniem dwuliniowym ciągłym na \( \displaystyle X \) o wartościach w \( \displaystyle Y \).

Podobnie jak w przypadku funkcji jednej zmiennej, nazwijmy różniczką rzędu zerowego funkcji \( \displaystyle f \) samą funkcję \( \displaystyle f \), tzn. \( \displaystyle d^0 f=f \). Ponadto, aby uprościć zapis i wypowiedzi twierdzeń, przyjmijmy, że \( \displaystyle L^0 (X,Y):=Y \).
Załóżmy, że w każdym punkcie \( \displaystyle a\in U \) istnieje \( \displaystyle d^k _a f \) różniczka rzędu \( \displaystyle k \) funkcji \( \displaystyle f: U\mapsto Y \), \( \displaystyle k\geq 0 \), która jest elementem przestrzeni \( \displaystyle L^k (X, Y) \) odwzorowań \( \displaystyle k \) liniowych ciągłych na \( \displaystyle X \) o wartościach w przestrzeni \( \displaystyle Y \).

>Definicja 7.31.

Mówimy, że funkcja \( \displaystyle f \) jest \( \displaystyle k+1 \) krotnie różniczkowalna w punkcie \( \displaystyle a\in U \), jeśli w punkcie tym różniczkowalna jest funkcja \( \displaystyle d.^{k}f : U\ni x\mapsto d^{k}_x f\in L^k (X, Y) \). Różniczkę funkcji \( \displaystyle d.^k f \) w punkcie \( \displaystyle a \), która jest elementem przestrzeni (izomorficznej w przestrzenią) \( \displaystyle L(X, L^k (X, Y)) \), będziemy oznaczać symbolem \( \displaystyle d^{k+1} _a f \) i będziemy nazywać różniczką rzędu \( \displaystyle k+1 \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) (lub krócej:

\( \displaystyle k+1 \) różniczką funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \)).

Uwaga 7.32.

Dowodzi się, że także przestrzenie \( \displaystyle L(X, L^k (X, Y)) \) oraz \( \displaystyle L^{k+1} (X, Y) \) (czyli przestrzeń odwzorowań \( \displaystyle k+1 \) liniowych i ciągłych na \( \displaystyle X \) o wartościach w przestrzeni \( \displaystyle Y \)) są izomorficzne, więc często różniczkę rzędu \( \displaystyle k+1 \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) będziemy nazywać odwzorowaniem \( \displaystyle k+1 \) liniowym i ciągłym na \( \displaystyle X \) o wartościach w \( \displaystyle Y \).

Pamiętamy, że jeśli \( \displaystyle X=\mathbb{R}^n \) i \( \displaystyle Y=\mathbb{R} \), to wartość różniczki \( \displaystyle d_a f\in L(\mathbb{R}^n, \mathbb{R}) \) na wektorze \( \displaystyle h=(h_1, h_2, \dots, h_n)\in\mathbb{R}^n \) wyraża suma

\( \displaystyle d_a f(h)=\frac{\partial f(a)}{\partial x_1} h_1 + \frac{\partial f(a)}{\partial x_2} h_2+ \dots +\frac{\partial f(a)} {\partial x_n} h_n. \)

Sumę tę można także wyrazić bez argumentu \( \displaystyle h \)

\( \displaystyle d_a f=\frac{\partial f(a)}{\partial x_1} dx_1 + \frac{\partial f(a)}{\partial x_2} dx_2+ \dots +\frac{\partial f(a)} {\partial x_n} dx_n, \)

gdzie

\( \displaystyle dx_i :\mathbb{R}^n \ni h=(h_1, h_2, \dots, h_n)\mapsto dx_i (h)=h_i\in\mathbb{R} \)

jest rzutowaniem na \( \displaystyle i \)-tą współrzędną.

Podobnie jak w przypadku funkcji jednej zmiennej definiujemy funkcje klasy \( \displaystyle C^k \).

Definicja 7.33.

Mówimy, że \( \displaystyle f: X\supset U\mapsto Y \) jest klasy \( \displaystyle C^k \) w zbiorze \( \displaystyle U \) (\( \displaystyle k=0,1,2,\dots \)), jeśli w każdym punkcie \( \displaystyle a\in U \) istnieje różniczka rzędu \( \displaystyle k \) funkcji \( \displaystyle f \) i odwzorowanie \( \displaystyle U\ni a\mapsto d^k _a f\in L^k (X,Y) \) jest ciągłe.

Wniosek 7.34.

Jeśli \( \displaystyle f \) jest klasy \( \displaystyle C^2 (U) \), to w każdym punkcie tego zbioru pochodne cząstkowe mieszane są równe, tzn. zachodzi równość

\( \displaystyle \frac{\partial }{\partial x_j }\frac{\partial }{\partial x_i }f (a)= \frac{\partial }{\partial x_i }\frac{\partial }{\partial x_j }f(a) \)

dla dowolnych \( \displaystyle i, j\in\{1,2,\dots, n\} \) w dowolnym punkcie \( \displaystyle a\in U \).

Innymi słowy: druga różniczka \( \displaystyle d^2 _a f \) jest odwzorowaniem dwuliniowym symetrycznym.

Załóżmy, że \( \displaystyle f\in C^m (U) \), gdzie \( \displaystyle U\subset \mathbb{R}^n \) jest podzbiorem otwartym przestrzeni skończenie wymiarowej \( \displaystyle \mathbb{R}^n \). Wówczas różniczkę rzędu \( \displaystyle m \) można wyrazić efektywnie za pomocą pochodnych cząstkowych rzędu \( \displaystyle m \).

Twierdzenie 7.35.

Jeśli \( \displaystyle f\in C^m (U) \), to w dowolnym punkcie \( \displaystyle a\in U \) wartość różniczki rzędu \( \displaystyle m \) na \( \displaystyle m \)-ce jednakowych wektorów \( \displaystyle h=(h_1, h_2, \dots, h_n)\in \mathbb{R}^n \) wyraża suma

\( \displaystyle d^m _a f\underbrace{(h,h, \dots, h)}_{m \text{ wektorów }h} =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m}{\partial x^\alpha} f(a)h^\alpha, \)

gdzie sumowanie przebiega po wszystkich

możliwych wielowskaźnikach (\( \displaystyle n \)-wskaźnikach)

\( \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n)\in \mathbb{N}_0^n \)

o długości

\( \displaystyle |\alpha|=\alpha_1+\alpha_2+\dots+\alpha_n= m, \)

natomiast

\( \displaystyle {m \choose \alpha}:=\frac{m!}{(m-|\alpha|)!\,\alpha!}, \)

jest uogólnieniem symbolu Newtona, w którym silnię wielowskaźnika \( \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n) \) definiujemy za pomocą iloczynu silni jego współrzędnych, tj.

\( \displaystyle \alpha !=\alpha_1 !\, \alpha_2 ! \dots \alpha_n ! \)

oraz

\( \displaystyle h^\alpha =h_1 ^{\alpha_1} \, h_2 ^{\alpha_2} \dots h_n ^{\alpha_n}. \)

Uwaga 7.36.

Wzór \( \displaystyle d^m _a f(h, h, \dots, h) =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m}{\partial x^\alpha} f(a)h^\alpha, \)

który podaliśmy w tezie twierdzenia czasem zapisuje się bez wyszczególniania argumentów w następującej postaci

\( \displaystyle d^m _a f =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m f(a)}{\partial x^\alpha} dx^\alpha \)

lub

\( \displaystyle d^m_. f =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m f}{\partial x^\alpha} dx^\alpha, \)

gdzie \( \displaystyle dx^\alpha : \mathbb{R}^n\mapsto \mathbb{R} \)

definiujemy na wektorze \( \displaystyle h\in \mathbb{R}^n \) wzorem

\( \displaystyle dx^\alpha (h):=h^\alpha=h_1^{\alpha_1} h_2^{\alpha_2} \dots h_n^{\alpha_n} \in \mathbb{R}. \)

Dowód 7.36.

Wykażemy podany wzór w przypadku funkcji dwóch zmiennych, aby uprościć notację. W ogólnym przypadku uzasadnienie jest podobne. Jeśli \( \displaystyle f:\mathbb{R}^2 \supset U\ni (x_1, x_2)\mapsto f(x_1, x_2) \) jest różniczkowalna, to wartość jej różniczki w punkcie \( \displaystyle a\in U \) na wektorze \( \displaystyle h=(h_1, h_2) \) wyraża suma

\( \displaystyle d_a f (h)=\frac{\partial }{\partial x_1} f(a) h_1+\frac{\partial }{\partial x_2} f(a)h_2. \)

Jeśli \( \displaystyle f \) jest dwukrotnie różniczkowalna, to

\( \displaystyle \begin{align*} d^2 f & =d\bigg(\frac{\partial f}{\partial x_1}dx_1+ \frac{\partial f}{\partial x_2}dx_2\bigg) \\ & =\frac{\partial }{\partial x_1} \bigg(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\bigg)dx_1 +\frac{\partial }{\partial x_2}\big(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\big)dx_2 \\ & = \frac{\partial ^2 f}{\partial x_1\partial x_1}dx_1dx_1+\frac{\partial ^2 f}{\partial x_2\partial x_1}dx_2dx_1+\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2\partial x_2}dx_2dx_2 \\ & = \frac{\partial ^2 f}{\partial x_1^2}dx_1^2+2\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2^2}dx_2^2 \\ & = \binom{2}{0}\frac{\partial ^2 f}{\partial x_1^2}dx_1^2+\binom{2}{1}\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\binom{2}{2}\frac{\partial ^2 f}{\partial x_2^2}dx_2^2 \\ & =\sum_{|\alpha|=2}\binom{2}{\alpha}\frac{\partial^\alpha f}{\partial x^\alpha}dx^\alpha,\end{align*} \)

gdyż pochodne cząstkowe mieszane \( \displaystyle \frac{\partial ^2 f}{\partial x_1\partial x_2} \) oraz \( \displaystyle \frac{\partial ^2 f}{\partial x_2\partial x_1} \) są równe wobec założenia o klasie funkcji \( \displaystyle f \). Następnie zakładając,

że wzór zachodzi dla różniczki rzędu \( \displaystyle 2\leq k < m \), dowodzimy go dla różniczki rzędu \( \displaystyle k+1 \). Szczegółowe przekształcenia pomijamy.