Analiza matematyczna 2

Opis

Kurs jest kontynuacją „Analizy matematycznej 1”. Jego celem jest zapoznanie studentów z podstawowymi narzędziami rachunku różniczkowego i całkowego funkcji jednej i wielu zmiennych.

Sylabus

Autorzy

Wymagania wstępne

Zawartość

Literatura

  1. W. Rudin, Podstawy analizy matematycznej, Państwowe Wydawnictwo Naukowe, Warszawa 1982.
  2. W. Rudnicki, Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001.
  3. J. Ombach, Wykłady z równań różniczkowych wspomagane komputerowo – Maple wyd. II, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków 1999.
  4. G.M. Fichtenholz, Rachunek różniczkowy i całkowy, tom I, II i III, Państwowe Wydawnictwo Naukowe, Warszawa 1978.
  5. L. Drużkowski, Analiza matematyczna dla fizyków. I. Podstawy, Skrypt Uniwersytetu Jagiellońskiego, Kraków 1995.
  6. L. Drużkowski, Analiza matematyczna dla fizyków. II. Wybrane zagadnienia, Skrypt Uniwersytetu Jagiellońskiego, Kraków 1997.
  7. A. Birkholc, Analiza matematyczna. Funkcje wielu zmiennych, Wydawnictwo Naukowe PWN, Warszawa 2002.
  8. W. Krysicki, L. Włodarski, Analiza matematyczna w zadaniach, część I i II, Państwowe Wydawnictwo Naukowe, Warszawa 1986.
  9. J. Banaś, S. Wędrychowicz, Zbiór zadań z analizy matematycznej, Wydawnictwa Naukowo-Techniczne, Warszawa 2001.

Moduły

Przestrzenie metryczne

Przestrzenie metryczne



Ten wykład poświęcony jest pojęciu przestrzeni metrycznej. Prezentujemy definicję metryki i przykłady przestrzeni metrycznych. Definiujemy zbiory otwarte, domknięte, punkty skupienia i średnicę zbioru. Następnie wprowadzamy pojęcia zwartości i spójności w przestrzeniach metrycznych. Dowodzimy, że przedział domknięty i ograniczony jest zbiorem zwartym w \( \displaystyle \displaystyle\mathbb{R} \) oraz charakteryzujemy zbiory spójne w \( \displaystyle \displaystyle\mathbb{R}. \)
Jedną z najistotniejszych idei matematyki jest idea aproksymacji. Z aproksymacją mamy do czynienia wtedy, gdy pewien obiekt \( \displaystyle T \) (liczbę, funkcję, zbiór) przedstawiamy jako granicę (w odpowiednim sensie) ciągu obiektów \( \displaystyle T_n \). Możemy wtedy wnioskować o własnościach "mniej znanego" obiektu \( \displaystyle T \) z własności "bardziej znanych" obiektów \( \displaystyle T_n \). Każdy z nas zetknął się z aproksymacją, chociażby w stwierdzeniu "\( \displaystyle \pi \) wynosi mniej więcej \( \displaystyle 3.14 \)" (tu przybliżamy liczbę niewymierną ciągiem liczb wymiernych). Na wykładzie poświęconym ciągom funkcyjnym dowiemy się, że jeśli funkcja jest granicą (w specjalnym sensie) ciągu funkcji ciągłych to jest funkcją ciągłą. Ponieważ mamy wiele różnych rodzajów zbieżności (czyli przejść granicznych) potrzebna jest w matematyce w miarę ogólna, a zarazem prosta teoria przechodzenia do granicy. O podstawach tej teorii opowiemy na dwóch pierwszych wykładach poświęconych przestrzeniom metrycznym i ciągom w przestrzeniach metrycznych. Na trzecim wykładzie zajmiemy się działem teorii przestrzeni metrycznych - przestrzeniami unormowanymi. Teoria ta pozwala dodatkowo "przenieść" do teorii granic ważne idee geometryczne związane z działaniami na wektorach.

Metryka

Metryka


Przypomnijmy, że różne sposoby mierzenia odległości w \( \displaystyle \mathbb{R}^N \) poznaliśmy na wykładzie z Analizy matematycznej 1. Tam też zapoznaliśmy się z pojęciem metryki. Okazuje się, że funkcję zwaną metryką można zdefiniować dla dowolnego (niepustego) zbioru \( \displaystyle X \) (a nie tylko dla \( \displaystyle \mathbb{R}^N \)). W ten sposób będziemy mogli mierzyć odległości między elementami dowolnego zbioru \( \displaystyle X \).

Definicja 1.1. [metryka, odległość]

Niech \( \displaystyle X \) będzie zbiorem niepustym. Metryką w zbiorze \( \displaystyle X \) nazywamy dowolną funkcję \( \displaystyle d\colon X\times X\longrightarrow\mathbb{R}_+=[0,+\infty) \) spełniającą następujące warunki:

(i) \( \displaystyle \displaystyle\forall x\in X:\ d(x,y)=0\ \Longleftrightarrow\ x=y \);
(ii) \( \displaystyle \displaystyle\forall x,y\in X:\ d(x,y)=d(y,x) \) (warunek symetrii);
(iii) \( \displaystyle \displaystyle\forall x,y,z\in X:\ d(x,y)+d(y,z)\ge d(x,z) \) (warunek trójkąta).

Parę \( \displaystyle \displaystyle (X,d) \) nazywamy przestrzenią metryczną.
Dla dowolnych \( \displaystyle x,y\in X, \) liczbę \( \displaystyle d(x,y) \) nazywamy odległością punktów \( \displaystyle x \) i \( \displaystyle y \) oraz mówimy, że punkty \( \displaystyle x \) i \( \displaystyle y \) są oddalone od siebie o \( \displaystyle d(x,y). \) Definicja kuli w dowolnej przestrzeni metrycznej jest analogiczna do poznanej na wykładzie z Analizy Matematycznej 1 definicji kuli w \( \displaystyle \mathbb{R}^N \).

Definicja 1.2. [kula, kula domknięta]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną. Kulą o środku w punkcie \( \displaystyle x_0\in X \) i promieniu \( \displaystyle r\ge 0 \) nazywamy zbiór:

\( \displaystyle K(x_0,r) \ \stackrel{df}{=}\ \big\{x\in X:\ d(x_0,x) < r\big\}. \)

Kulą domkniętą o środku w punkcie \( \displaystyle x_0\in X \) i promieniu \( \displaystyle r\ge 0 \) nazywamy zbiór:

\( \displaystyle \overline{K}(x_0,r) \ \stackrel{df}{=}\ \big\{x\in X:\ d(x_0,x)\le r\big\}. \)

Podamy teraz kilka przykładów przestrzeni metrycznych oraz opiszemy, jak wyglądają kule w tych przestrzeniach.

WYKRES Metryka dyskretna

Przykład 1.3. [Metryka dyskretna]

Niech \( \displaystyle X\ne\emptyset \) będzie dowolnym zbiorem oraz niech

\( \displaystyle d_d(x,y) \ \stackrel{df}{=}\ \left \{ \begin{array} {lll} 1 & \textrm{gdy} \displaystyle & x\ne y, \\ 0 & \textrm{gdy} \displaystyle & x= y. \end{array} .\right. \qquad\forall\ x,y\in X. \)

Zauważmy, iż wartość funkcji \( \displaystyle d \) dla dwóch dowolnych punktów wynosi \( \displaystyle 1, \) gdy są one różne oraz wynosi \( \displaystyle 0, \) gdy jest to ten sam punkt.

Łatwo sprawdzić, że tak zdefiniowana funkcja \( \displaystyle d \) jest metryką, zatem para \( \displaystyle \displaystyle (X,d_d) \) jest przestrzenią metryczną. Metrykę tę będziemy nazywali metryczną dyskretną. Faktycznie, z definicji wynika, że dla dowolnych \( \displaystyle x,y\in X \) mamy

\( \displaystyle d_d(x,y)=0 \ \Longleftrightarrow\ x=y \)

oraz

\( \displaystyle d_d(x,y) \ =\ d_d(y,x). \)

Dla sprawdzenia warunku trójkąta weźmy \( \displaystyle x,y,z\in X. \) Rozważymy następujące przypadki.

1) Jeśli \( \displaystyle x=z, \) to \( \displaystyle d(x,z)=0 \) zatem zawsze zachodzi \( \displaystyle d_d(x,z)=0\le d_d(x,y)+d_d(y,z). \)

2) Jeśli \( \displaystyle x\ne z, \) to \( \displaystyle x\ne y \) lub \( \displaystyle y\ne z. \) Wtedy również \( \displaystyle d_d(x,z)=1\le d_d(x,y)+d_d(y,z). \)

Łatwo także zauważyć, jak będą wyglądały kule w tej przestrzeni metrycznej. Jeśli \( \displaystyle r\in(0,1], \) to kula o promieniu \( \displaystyle r \) składa się z samego środka, ale jeśli \( \displaystyle r>1, \) to kulą jest cała przestrzeń \( \displaystyle X. \) Mamy zatem

\( \displaystyle K(x_0,r) \ =\left \{ \begin{array} {lll} \emptyset & \textrm{gdy} \displaystyle & r=0, \\ \{x_0\} & \textrm{gdy} \displaystyle & r\in(0,1], \\ X & \textrm{gdy} \displaystyle & r>1, \end{array} .\right. \)

\( \overline{K}(x_0,r) \ =\left \{ \begin{array} {lll} \{x_0\} & \textrm{gdy} \displaystyle & r\in[0,1), \\ X & \textrm{gdy} \displaystyle & r\ge 1. \end{array} .\right. \)

Zatem w przestrzeni metrycznej dyskretnej kulami i kulami domkniętymi są jedynie:

\( \displaystyle \displaystyle\emptyset, \) zbiory jednopunktowe oraz cała przestrzeń.

Przypomnijmy teraz standardowe metryki w \( \displaystyle \displaystyle\mathbb{R}^N. \) Były one wprowadzone na wykładzie z Analizy Matematycznej 1.

RYCINA Euklides (365-300 p.n.e.)

Przykład 1.4. [Metryka maksimowa, taksówkowa i euklidesowa]

Niech \( \displaystyle X=\mathbb{R}^N \) oraz niech

\( \displaystyle \forall x,y\in\mathbb{R}^N:\quad d_{\infty}(x,y) \ \stackrel{df}{=}\ \max_{i=1,\ldots, N}|x_i-y_i|, \)

\( d_1(x,y) \ \stackrel{df}{=}\ \sum_{i=1}^{N}|x_i-y_i|, \)

\( d_2(x,y) \ \stackrel{df}{=}\ \sqrt{\sum_{i=1}^N(x_i-y_i)^2}, \)

gdzie \( \displaystyle x=(x_1,\ldots,x_N) \) oraz \( \displaystyle y=(y_1,\ldots,y_N). \)

Para \( \displaystyle \displaystyle (\mathbb{R}^N,d_{\infty}) \) jest przestrzenią metryczną. Funkcję \( \displaystyle d_{\infty} \) nazywamy metryką maksimową w \( \displaystyle \displaystyle\mathbb{R}^N. \)
Para \( \displaystyle \displaystyle (\mathbb{R}^N,d_1) \) jest przestrzenią metryczną. Funkcję \( \displaystyle d_1 \) nazywamy metryką taksówkową w \( \displaystyle \displaystyle\mathbb{R}^N. \)
Para \( \displaystyle \displaystyle (\mathbb{R}^N,d_2) \) jest przestrzenią metryczną. Funkcję \( \displaystyle d_2 \) nazywamy metryką euklidesową w \( \displaystyle \displaystyle\mathbb{R}^N, \) zaś parę \( \displaystyle \displaystyle (\mathbb{R}^N,d_2) \) nazywamy przestrzenią metryczną euklidesową.

Przypomnijmy, jak wyglądają kule w tych metrykach.

WYKRESY x6

Kula w metryce maksimowej w \( \mathbb{R}^2 \)
Kula w metryce maksimowej w \( \mathbb{R}^3 \)
Kula w metryce taksówkowej w \( \mathbb{R}^2 \)
Kula w metryce taksówkowej w \( \mathbb{R}^3 \)
Kula w metryce euklidesowej w \( \mathbb{R}^2 \)
Kula w metryce euklidesowej w \( \mathbb{R}^3 \)

Dwa kolejne przykłady podają mniej typowe metryki na płaszczyźnie \( \displaystyle \displaystyle\mathbb{R}^2. \)

WYKRESY

Metryka rzeka
Metryka rzeka
Metryka kolejowa

Przykład 1.5. [Metryka rzeka]

Wyobraźmy sobie, że płaszczyzna \( \displaystyle \displaystyle\mathbb{R}^2 \) jest gęstym lasem oraz pewna prosta \( \displaystyle l \) jest rzeką. Aby zmierzyć odległość dwóch punktów \( \displaystyle x,y\in\mathbb{R}^2 \), musimy wyciąć ścieżkę od \( \displaystyle x \) do \( \displaystyle y, \) przy czym możemy to robić tylko prostopadle do rzeki.

Mamy dwa przypadki:
(1) Jeśli punkty \( \displaystyle x \) i \( \displaystyle y \) są końcami odcinka prostopadłego do rzeki \( \displaystyle l, \) to ich odległość jest równa zwykłej odległości euklidesowej na płaszczyźnie.

(2) Jeśli zaś punkty \( \displaystyle x \) i \( \displaystyle y \) nie leżą na prostej prostopadłej do rzeki \( \displaystyle l, \) to musimy utworzyć dwie ścieżki jedną od punktu \( \displaystyle x \) do rzeki, a drugą od rzeki do punktu \( \displaystyle y, \) zawsze prostopadle do rzeki. Teraz odległość od \( \displaystyle x \) do \( \displaystyle y \) będzie równa długości (euklidesowej) obu ścieżek oraz odległości tych ścieżek na rzece.
Nietrudno sprawdzić, że tak utworzona funkcja \( \displaystyle d \) jest metryką w \( \displaystyle \displaystyle\mathbb{R}^2. \)

Nazywamy ją metryką rzeką.

Przykład 1.6. [Metryka kolejowa]

Wyobraźmy sobie, że na płaszczyźnie wyróżniony jest jeden punkt \( \displaystyle O, \) węzeł kolejowy, od którego odchodzą półproste, szyny, we wszystkich kierunkach. Aby zmierzyć odległość miedzy dwoma punktami \( \displaystyle x \) i \( \displaystyle y \), musimy przebyć drogę między nimi, poruszając się po szynach. Rozważmy dwa przypadki:
(1) Jeśli punkty \( \displaystyle x \) i \( \displaystyle y \) znajdują się na wspólnej półprostej wychodzącej z punktu \( \displaystyle O, \) to ich odległość jest zwykłą odległością euklidesową.
(2) Jeśli zaś punkty \( \displaystyle x \) i \( \displaystyle y \) nie leżą na wspólnej półprostej wychodzącej z punktu \( \displaystyle O \) to ich odległość jest równa sumie odległości euklidesowych od \( \displaystyle x \) do \( \displaystyle O \) oraz od \( \displaystyle O \) do \( \displaystyle y. \)
Tak wprowadzona funkcja odległości jest metryką, zwaną metryką kolejową.

wykresy

AM2.M01.W.R04

Kule w metryce kolejowej

Zdefiniujemy teraz pewne pojęcia związane z przestrzeniami metrycznymi. Część z nich była zdefiniowana na Analizie Matematycznej 1.

wykeres

Zbiór otwarty
Definicja 1.7.
Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną, niech \( \displaystyle x_0\in X \) oraz \( \displaystyle A\subseteq X. \)
(1) Zbiór \( \displaystyle U\subseteq X \) nazywamy otwartym, jeśli każdy punkt zbioru \( \displaystyle U \) zawiera się w \( \displaystyle U \) wraz z pewną kulą, czyli

\( \displaystyle \forall x\in U\ \exists r>0:\ K(x,r)\subseteq U. \)

(2) Punkt \( \displaystyle x_0 \) nazywamy punktem wewnętrznym zbioru \( \displaystyle A\subseteq X, \) jeśli istnieje kula o środku w punkcie \( \displaystyle x_0 \) (i dodatnim promieniu) taka, że zawiera się w \( \displaystyle A. \) Wnętrzem zbioru \( \displaystyle A \) nazywamy zbiór jego punktów wewnętrznych i oznaczamy go \( \displaystyle \displaystyle\mathrm{int}\, A. \)
(3) Domknięciem zbioru \( \displaystyle A\subseteq X \) nazywamy zbiór wszystkich punktów \( \displaystyle A \) oraz wszystkich punktów skupienia zbioru \( \displaystyle A \) i oznaczamy go \( \displaystyle \displaystyle\overline{A}. \)
(4) Brzegiem zbioru \( \displaystyle A \) nazywamy zbiór \( \displaystyle \displaystyle\partial A:=\overline{A}\setminus \mathrm{int}\, A. \)

Przykład 1.8.

W przestrzeni metrycznej dyskretnej każdy zbiór jest otwarty, bo wraz z każdym punktem \( \displaystyle x \) zawiera kulę \( \displaystyle K(x,1)=\{x\}. \)

Przykład 1.9.

W przestrzeni \( \displaystyle \displaystyle\mathbb{R}^2 \) z metryką euklidesową rozważmy zbiór \( \displaystyle A=\{(x_1,x_2):\ 2 < x_1^2+x_2^2\le 4\}. \) Wówczas

\( \displaystyle \begin{align*} \mathrm{int}\, A & = \{(x_1,x_2):\ 2 < x_1^2+x_2^2 < 4\}, \\ \overline{A} & = \{(x_1,x_2):\ 2\le x_1^2+x_2^2\le 4\}, \\ \partial A & = \{(x_1,x_2):\ x_1^2+x_2^2=2\}\cup \{(x_1,x_2):\ x_1^2+x_2^2=4\}. \end{align*} \)

Podobnie jak w \( \displaystyle \displaystyle\mathbb{R}^N \) tak i w dowolnej przestrzeni metrycznej zachodzą następujące własności.

Twierdzenie 1.10. [Zbiory w przestrzeniach metrycznych]

Jeśli \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną, to
(1) Każda kula jest zbiorem otwartym w \( \displaystyle X. \)
(2) Zbiór \( \displaystyle U\subseteq X \) jest otwarty, wtedy i tylko wtedy, gdy \( \displaystyle U^c \) (dopełnienie zbioru \( \displaystyle U \)) jest zbiorem domkniętym.
(3) Kula domknięta jest zbiorem domkniętym.
(4) Jeśli \( \displaystyle x_0 \) jest punktem skupienia zbioru \( \displaystyle A\subseteq X, \) to dowolna kula o środku w punkcie \( \displaystyle x_0 \) (i dodatnim promieniu) zawiera nieskończenie wiele punktów zbioru \( \displaystyle A. \)
(5) Suma dowolnej rodziny zbiorów otwartych jest zbiorem otwartym.
(6) Przecięcie (część wspólna) skończonej rodziny zbiorów otwartych jest zbiorem otwartym.
(7) Przecięcie (część wspólna) dowolnej rodziny zbiorów domkniętych jest zbiorem domkniętym.
(8) Suma skończonej rodziny zbiorów domkniętych jest zbiorem domkniętym.
(9) Dla dowolnego zbioru \( \displaystyle A\subseteq X, \) zbiór \( \displaystyle \displaystyle\overline{A} \) (domknięcie zbioru \( \displaystyle A \)) jest zbiorem domkniętym.

Omówienie i przykłady powyższych własności mieliśmy na wykładzie z Analizy Matematycznej 1 (patrz Analiza matematyczna 1 przykład 3.15.).

Kolejne pojęcia związane z przestrzeniami metrycznymi podane są w poniższej definicji.

Definicja 1.11.

(1) Srednicą zbioru \( \displaystyle A \) nazywamy liczbę:

\( \displaystyle \mathrm{diam}\, A \ \stackrel{df}{=}\ \sup_{x,y\in A}d(x,y); \)

(2) Odległością punktu \( \displaystyle x_0 \) od zbioru \( \displaystyle A \) nazywamy liczbę:

\( \displaystyle \mathrm{dist}\,(x_0,A) \ \stackrel{df}{=}\ \inf_{x\in A}d(x_0,x). \)

(3) Mówimy, że zbiór \( \displaystyle A\subseteq X \) jest ograniczony, jeśli jest zawarty w pewnej kuli, to znaczy

\( \displaystyle \exists r>0\ \exists x_0\in X:\ A\subseteq K(x_0,r). \)

wykresy

Odległość punktu od zbioru

Średnica zbioru
Zbiór ograniczony
Średnica zbioru i odległość punktu od zbioru

Przykład 1.12.

Na płaszczyźnie \( \displaystyle \displaystyle\mathbb{R}^2 \) z metryką euklidesową rozważmy zbiór

\( \displaystyle A \ =\ \bigg\{ (x,y):\ 2\le x\le 6,\ 1 < y\le 5 \bigg\} \cup \big(\{4\}\times [5,9]\big) \)

oraz punkt \( \displaystyle z=(8,8). \) Wyznaczyć średnicę zbioru \( \displaystyle A \) oraz odległość punktu \( \displaystyle z \) od zbioru \( \displaystyle A. \)

Z poniższego rysunku widzimy, że \( \displaystyle \displaystyle\mathrm{diam}\, A=\sqrt{2^2+8^2}=\sqrt{68}=2\sqrt{17} \)

oraz \( \displaystyle \displaystyle\mathrm{dist}\,(z,A)=\sqrt{2^2+3^2}=\sqrt{13}. \)

Przykład 1.13.

Niech \( \displaystyle \displaystyle (X,d_d) \) będzie przestrzenią metryczną dyskretną. Jeśli \( \displaystyle \displaystyle\#X\le 1, \) to \( \displaystyle \displaystyle\mathrm{diam}\, X=0, \) a jeśli \( \displaystyle \displaystyle\#X\ge 2, \) to \( \displaystyle \displaystyle\mathrm{diam}\, X=1. \) Zatem każdy zbiór w metryce dyskretnej jest ograniczony.

Następujące oczywiste twierdzenie podaje związek między ograniczonością zbioru oraz jego średnicą.

Twierdzenie 1.14.

Jeśli \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną, \( \displaystyle A\subseteq X, \) to zbiór \( \displaystyle A \) jest ograniczony wtedy i tylko wtedy, gdy \( \displaystyle \displaystyle\mathrm{diam}\, A < +\infty. \)

W iloczynie kartezjańskim przestrzeni metrycznych można także zadać metrykę (tak zwaną metrykę produktową) na kilka naturalnych sposobów. Poniższe twierdzenie podaje jeden z takich sposobów.

rycina

Kartezjusz (1596-1650)

Twierdzenie 1.15. [Iloczyn kartezjański przestrzeni metrycznych]

Jeśli \( \displaystyle \displaystyle (X_i,d_i) \) są przestrzeniami metrycznymi dla \( \displaystyle i=1,\ldots,k,\displaystyle X\ \stackrel{df}{=}\ X_1\times\ldots \times X_k,\displaystyle d\colon X\times X\longrightarrow\mathbb{R}_+ \) jest funkcją zdefiniowaną przez

\( \displaystyle d(x,y) \ \stackrel{df}{=}\ \sqrt{\sum_{i=1}^{k}d_i(x_i,y_i)^2} \qquad\forall\ x,y\in X, \)

to \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną.
Wówczas \( \displaystyle d \) nazywamy metryką produktową lub metryką standardową w iloczynie kartezjańskim \( \displaystyle X_1\times\ldots\times X_k. \)

Dowód 1.15.

Dowód oparty na nierówności Cauchy'ego (patrz Analiza matematyczna 1 lemat 3.8.) jest analogiczny do dowodu, że \( \displaystyle d_2 \) jest metryką w \( \displaystyle \displaystyle\mathbb{R}^N \) (porównaj Analiza matematyczna 1 przykład 3.7. i lemat 3.9.).

Uwaga 1.16.

Metryka euklidesowa w \( \displaystyle \displaystyle\mathbb{R}^N \) jest metryką standardową w \( \displaystyle \displaystyle\displaystyle\mathbb{R}^N=\underbrace{\mathbb{R}\times\ldots\times\mathbb{R}}_{N}. \) Wynika to wprost z definicji obu metryk.

Uwaga 1.17.

Jeśli \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną oraz \( \displaystyle A\subseteq X, \) to zbiór \( \displaystyle A \) jest także przestrzenią metryczną z metryką \( \displaystyle d|_{A\times A}. \) Kule w przestrzeni \( \displaystyle A \) są równe przecięciom kul z przestrzeni \( \displaystyle X \) ze zbiorem \( \displaystyle A. \) Metrykę na \( \displaystyle A \) nazywamy metryką indukowaną. W przyszłości o podzbiorach przestrzeni metrycznej będziemy także mówili "przestrzeń metryczna".

Zwartość

Zwartość


Wprowadzimy teraz ogólniejsze pojęcie zwartości niż to, z którym spotkaliśmy się na wykładzie z Analizy Matematycznej 1 (patrz Analiza matematyczna 1 definicja 8.21.).

Definicja 1.18.

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną oraz \( \displaystyle A\subseteq X: \)
(1) Pokryciem otwartym zbioru \( \displaystyle A \) nazywamy dowolną rodzinę \( \displaystyle \displaystyle\{U_s\}_{s\in S}\subseteq 2^X \) zbiorów otwartych taką, że \( \displaystyle \displaystyle \bigcup_{s\in S}U_s\supseteq A. \)
Pokrycie to nazywamy skończonym, jeśli \( \displaystyle \displaystyle\# S < +\infty. \)
(2) Mówimy, że \( \displaystyle \displaystyle\{U_s\}_{s\in T} \) jest podpokryciem pokrycia \( \displaystyle \displaystyle\{U_s\}_{s\in S} \) zbioru \( \displaystyle A, \) jeśli \( \displaystyle \displaystyle\{U_s\}_{s\in T} \) jest pokryciem zbioru \( \displaystyle A \) oraz \( \displaystyle T\subset S. \)
(3) Mówimy, że zbiór \( \displaystyle A \) jest zwarty, jeśli z każdego pokrycia otwartego zbioru \( \displaystyle A \) można wybrać pokrycie skończone.

Kolejne twierdzenie zbiera pewne informacje dotyczące zbiorów zwartych w przestrzeniach metrycznych.

1.19.

W dowolnej przestrzeni metrycznej \( \displaystyle X \) mamy
(1) Zbiór skończony jest zwarty.
(2) Podzbiór zwarty przestrzeni metrycznej jest domknięty.
(3) Podzbiór zwarty przestrzeni metrycznej jest ograniczony.
(4) Podzbiór domknięty zbioru zwartego jest zwarty.
(5) Część wspólna zbioru zwartego i domkniętego jest zbiorem zwartym.

Dowód 1.19. [nadobowiązkowy]

(Ad (1)) Niech \( \displaystyle A=\{a_1,\ldots,a_k\} \) będzie zbiorem skończonym w \( \displaystyle X \) i niech \( \displaystyle \displaystyle\{U_s\}_{s\in S} \) będzie pokryciem otwartym zbioru \( \displaystyle A. \) Z definicji pokrycia mamy w szczególności

\( \displaystyle \forall i\in\{1,\ldots,k\}\ \exists s_i\in S:\ a_i\in U_{s_i}. \)

Zatem \( \displaystyle A\subseteq\bigcup_{i=1}^k U_{s_i}. \) Pokazaliśmy zatem, że \( \displaystyle \displaystyle\{U_{s_i}\}_{i=1}^k \) jest podpokryciem (skończonym) pokrycia \( \displaystyle \displaystyle\{U_s\}_{s\in S} \) zbioru \( \displaystyle A. \)

(Ad (2)) Niech \( \displaystyle A \) będzie zwartym podzbiorem w \( \displaystyle X. \) Wystarczy pokazać, że \( \displaystyle A^c \) jest zbiorem otwartym (patrz twierdzenie 1.10. (6)). W tym celu niech \( \displaystyle x\in A^c. \) Dla dowolnego \( \displaystyle y\in A \) niech \( \displaystyle \displaystyle 0 < r_y < \frac{1}{2}d(x,y). \) Wówczas \( \displaystyle x\not\in K(y,r_y) \) oraz \( \displaystyle K(y,r_y)\cap K(x,r_y)=\emptyset. \)

Rodzina \( \displaystyle \displaystyle\{K(y,r_y)\}_{y\in A} \) jest pokryciem otwartym zbioru \( \displaystyle A. \) Ponieważ \( \displaystyle A \) jest zbiorem zwartym, więc możemy z tego pokrycia wybrać podpokrycie skończone, powiedzmy \( \displaystyle \displaystyle\big\{K(y_i,r_{y_i})\big\}_{i=1}^k, \) zatem

\( \displaystyle W \ \stackrel{df}{=}\ K(y_1,r_{y_1})\cup\ldots\cup K(y_k,r_{y_k}) \ \supseteq\ A. \)

Niech \( \displaystyle \displaystyle V\ \stackrel{df}{=}\ \bigcap_{i=1}^k K(x,r_{y_k}). \) Wówczas \( \displaystyle V \) jest kulą o środku w punkcie \( \displaystyle x \) taką, że \( \displaystyle V\subseteq A^c, \) czyli \( \displaystyle x \) jest punktem wewnętrznym zbioru \( \displaystyle A^c. \) Pokazaliśmy więc, że zbiór \( \displaystyle A^c \) jest otwarty, a zatem zbiór \( \displaystyle A \) jest domknięty.

(Ad (3)) Niech \( \displaystyle A \) będzie zwartym podzbiorem w \( \displaystyle X. \) Należy pokazać, że zbiór \( \displaystyle A \) jest ograniczony. Niech \( \displaystyle x_0\in X \) będzie dowolnym punktem. Zauważmy, że

\( \displaystyle A \ \subseteq\ X \ =\ \bigcup_{n=1}^{\infty}K(x_0,n), \) to znaczy rodzina kul \( \displaystyle \displaystyle\{K(x_n,n)\}_{n\in\mathbb{N}} \) jest pokryciem otwartym zbioru \( \displaystyle A. \) Z zwartości zbioru \( \displaystyle A \) wynika, iż z tego pokrycia można wybrać podpokrycie skończone, to znaczy

\( \displaystyle \exists k\in\mathbb{N}:\ A \ \subseteq\ \bigcup_{n=1}^{k}K(x_0,n). \)

Ale ciąg kul \( \displaystyle \displaystyle\{K(x_0,n)\}_{n\in\mathbb{N}} \) jest wstępujący, a więc

\( \displaystyle A \ \subseteq\ \bigcup_{n=1}^{k}K(x_0,n) \ =\ K(x_0,k), \)

zatem zbiór \( \displaystyle A \) jest ograniczony.

(Ad (4)) Niech \( \displaystyle A \) będzie domkniętym podzbiorem zbioru zwartego \( \displaystyle B. \) Niech \( \displaystyle \displaystyle\{U_s\}_{s\in S} \) będzie dowolnym pokryciem zbioru \( \displaystyle A. \) Ponieważ \( \displaystyle A \) jest domknięty, więc \( \displaystyle A^c=X\setminus A \) jest zbiorem otwartym (patrz twierdzenie 1.10. (6)). Niech \( \displaystyle t\not\in S, \) będzie nowym indeksem oraz zdefiniujmy \( \displaystyle U_t=A^c. \) Niech \( \displaystyle T=S\cup\{t\}. \) Wówczas

\( \displaystyle U_t\cup \bigcup_{s\in S}U_s \ =\ \bigcup_{s\in T}U_s \ =\ X \ \supseteq\ B, \)

zatem \( \displaystyle \displaystyle\{U_s\}_{s\in T} \) jest pokryciem zbioru \( \displaystyle B. \) Ponieważ zbiór \( \displaystyle B \) jest zwarty, więc można z niego wybrać podpokrycie skończone, powiedzmy \( \displaystyle U_{s_1},\ldots, U_{s_k}. \) Oczywiście jest to także pokrycie zbioru \( \displaystyle A. \) Jeśli wśród zbiorów \( \displaystyle U_{s_1},\ldots, U_{s_k} \) znajduje się zbiór \( \displaystyle U_t \) to można go usunąć (gdyż \( \displaystyle U_t\cap A=\emptyset \)) i nadal będzie to skończone pokrycie zbioru \( \displaystyle A \) będące podpokryciem pokrycia \( \displaystyle \displaystyle\{U_s\}_{s\in S}. \) Pokazaliśmy zatem, że zbiór \( \displaystyle A \) jest zwarty.
(5) Niech \( \displaystyle A \) będzie zbiorem zwartym oraz \( \displaystyle B \) zbiorem domkniętym. Z (1) wiemy, że \( \displaystyle A \) jest także domknięty, zatem \( \displaystyle A\cap B \) jest zbiorem domkniętym (patrz twierdzenie 1.10. (9)). Ponieważ \( \displaystyle A\cap B \) jest domkniętym podzbiorem zbioru zwartego \( \displaystyle A, \) więc z (3) wiemy, że jest on zbiorem zwartym, co należało dowieść.

wykresy

Rysunek do dowodu twierdzenia 1.19

Rysunek do dowodu twierdzenia 1.19

Uwaga 1.20.

(1) Z twierdzenia 1.19. wynika w szczególności, że dowolny zbiór zwarty w przestrzeni metrycznej jest domknięty i ograniczony.

Implikacja odwrotna nie jest prawdziwa. Jako przykład weźmy zbiór nieskończony \( \displaystyle X \) z metryką dyskretną. Cały zbiór \( \displaystyle X \) jest domknięty (jako uzupełnienie zbioru otwartego \( \displaystyle \displaystyle\emptyset \)) oraz ograniczony (ponieważ \( \displaystyle \displaystyle\mathrm{diam}\, X=1; \) patrz przykład 1.13.). Ale nie jest to zbiór zwarty, ponieważ z pokrycia otwartego \( \displaystyle \displaystyle\bigcup\limits_{x\in X}K\big(x,\frac{1}{2}\big)\supseteq X \) nie można wybrać pokrycia skończonego (zauważmy, że \( \displaystyle \displaystyle K\big(x,\frac{1}{2}\big)=\{x\} \) i usunięcie jakiegokolwiek zbioru z rodziny zbiorów otwartych \( \displaystyle \displaystyle\big\{K\big(x,\frac{1}{2}\big)\big\}_{x\in X} \) powoduje, że rodzina ta przestaje być pokryciem \( \displaystyle X \)).
(2) Okazuje się jednak, że w przestrzeni euklidesowej \( \displaystyle \displaystyle\mathbb{R}^N \) twierdzenie odwrotne jest prawdziwe. Twierdzenie to bez dowodu poznaliśmy i wykorzystywaliśmy na wykładzie z Analizy Matematycznej 1, udowodnimy go na następnym wykładzie (patrz wniosek 2.26.).

Poniższe twierdzenie daje pełną odpowiedź na pytanie, jakie przedziały w \( \displaystyle \displaystyle\mathbb{R} \) są zwarte.

wykres

Twierdzenie 1.21.

Przedział domknięty i ograniczony \( \displaystyle \displaystyle [a,b]\subseteq\mathbb{R} \) (\( \displaystyle -\infty < a < b < \infty \)) jest zbiorem zwartym.

Rysunek do dowodu twierdzenia 1.21

Dowód 1.21. [nadobowiązkowy]

Dowód oparty jest na tak zwanych przekrojach Dedekinda.
Niech \( \displaystyle \displaystyle\{U_s\}_{s\in S} \) będzie dowolnym pokryciem przedziału \( \displaystyle P=[a,b] \) (gdzie \( \displaystyle a < b \)). Skonstruujemy dwa zbiory \( \displaystyle D_1,D_2\subseteq \mathbb{R} \) (tak zwane przekroje Dedekinda) w następujący sposób:

\( \displaystyle x\in D_1 \), wtedy i tylko wtedy, gdy
(1) \( \displaystyle x < a \) lub
(2) \( \displaystyle a\le x < b \) oraz przedział \( \displaystyle \displaystyle [a,x] \) jest pokryty skończoną liczbą zbiorów otwartych z rodziny \( \displaystyle \displaystyle\{U_s\}_{s\in S}. \)"
Natomiast:
"\( \displaystyle x\in D_2 \), wtedy i tylko wtedy, gdy \( \displaystyle x\not\in D_1. \)"
Oczywiście \( \displaystyle a\in D_1 \) (bo przedział \( \displaystyle \displaystyle [a,a]=\{a\} \) jest pokryty przez jeden ze zbiorów pokrycia \( \displaystyle \displaystyle\{U_s\}_{s\in S} \)).
Zdefiniujmy \( \displaystyle z\ \stackrel{df}{=}\ \sup D_1. \) Oczywiście \( \displaystyle z\in[a,b]. \)
Pokażemy, że \( \displaystyle z=b. \) Dla dowodu niewprost przypuśćmy, że \( \displaystyle z < b. \) Z definicji pokrycia wiemy, że

\( \displaystyle \exists s_0\in S:\ z\in U_{s_0}. \)

Z definicji zbioru otwartego w metryce euklidesowej w \( \displaystyle \displaystyle\mathbb{R} \) wiemy, że

\( \displaystyle \exists u,v:\ u < z < v \ \) i \( \displaystyle \ [u,v]\subseteq U_{s_0}. \)

Z kolei z definicji liczby \( \displaystyle z \) wynika, że

\( \displaystyle \exists w\in(u,z):\ w\in D_1, \)

to znaczy przedział \( \displaystyle \displaystyle [a,w] \) jest pokryty skończoną ilością zbiorów z pokrycia \( \displaystyle \displaystyle\{U_s\}_{s\in S}, \) powiedzmy

\( \displaystyle [a,w] \ \subseteq\ U_{s_1}\cup U_{s_2}\cup\ldots\cup U_{s_k}. \)

Wówczas

\( \displaystyle [a,v] \ \subseteq\ U_{s_1}\cup U_{s_2}\cup\ldots\cup U_{s_k} \cup U_{s_0}, \)

czyli \( \displaystyle v\in D_1, \) ale to jest sprzeczne z definicją \( \displaystyle z. \) Zatem wykazaliśmy, że \( \displaystyle z=b. \)

Teraz w analogiczny sposób jak wyżej pokazujemy, że \( \displaystyle z\in D_1, \) skąd wynika teza naszego twierdzenia.

Twierdzenie 1.22.

Przedziały otwarte i otwarto-domknięte nie są zwarte w \( \displaystyle \displaystyle\mathbb{R}. \)

Dowód 1.22.

Aby pokazać, że przedziały otwarte i otwarto-domknięte nie są zwarte, wskażemy pokrycia otwarte tych przedziałów, z których nie można wybrać podpokryć skończonych. Niech \( \displaystyle a < b. \)

\( \begin{array}{rll}\displaystyle (a,b) & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\bigg(a+\frac{1}{n},b+1\bigg), \\ (a,b.] & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\bigg(a+\frac{1}{n},b+1\bigg), \\ [a,b) & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\bigg(a-1,b-\frac{1}{n}\bigg) \\ (-\infty,b) & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\big(-n,b\big), \\ (-\infty,b] & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\big(-n,b+1\big), \\ (a,+\infty) & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\big(a,n\big), \\ [a,+\infty) & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\big(a-1,n\big) \\ (-\infty,+\infty) & \displaystyle \subseteq & \displaystyle \bigcup_{n=1}^{\infty}\big(-n,n\big). \end{array} \)

Uzasadnienie, iż z powyższych pokryć nie można wybrać pokryć skończonych, pozostawiamy jako proste ćwiczenie.

Spójność

Spójność


Ostatnim pojęciem, jakie wprowadzimy na tym wykładzie, jest spójność zbioru w przestrzeni metrycznej. Intuicyjnie spójność zbioru \( \displaystyle A \) oznacza, że składa się on z "jednego kawałka". Jednak, aby formalnie zdefiniować to pojęcie potrzebujemy nieco bardziej skomplikowanej definicji.

Definicja 1.23. [zbiór spójny]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną \( \displaystyle A\subseteq X. \)

Zbiór \( \displaystyle A \) nazywamy spójnym, jeśli nie jest zawarty w sumie dwóch zbiorów otwartych, rozłącznych, z którymi ma niepuste przecięcie, to znaczy nie istnieją dwa zbiory \( \displaystyle U \) i \( \displaystyle V \) takie, że

\( \displaystyle \left \{ \begin{array} {l} A\subseteq U\cup V \\ A\cap U\ne\emptyset,\ A\cap V\ne\emptyset \\ U\cap V=\emptyset \\ U,V\ \textrm{ - są otwarte. } \displaystyle \end{array} \right. \)

Przykład 1.24.

Pierwszy z poniższych rysunków przedstawia zbiór spójny \( \displaystyle A. \) Jeśli dwa zbiory \( \displaystyle U \) i \( \displaystyle V \) są otwarte, rozłączne i mają niepuste przecięcie z \( \displaystyle A, \) to nie mogą w sumie zawierać całego \( \displaystyle A \) (to znaczy \( \displaystyle \displaystyle\exists x\in A:\ x\not\in U\cup V \)).

Zbiór \( \displaystyle B \) na kolejnym rysunku nie jest spójny, gdyż istnieją dwa zbiory \( \displaystyle U \) i \( \displaystyle V \) spełniające wszystkie cztery warunki z definicji spójności zbioru.

wykresy

Zbiór spójnyZbiór który nie jest spójny

Twierdzenie 1.25.

Jeśli \( \displaystyle A\subseteq\mathbb{R} \), to \( \displaystyle A \) jest zbiorem spójnym wtedy i tylko wtedy, gdy \( \displaystyle A \) jest przedziałem.

Suma zbiorów spójnych o niepustym przecięciu

Dowód 1.25. [nadobowiązkowy]

[Szkic]

"\( \displaystyle \displaystyle\Longrightarrow \)"
Niech \( \displaystyle A \) będzie zbiorem spójnym. Dla dowodu niewprost przypuśćmy, że \( \displaystyle A \) nie jest przedziałem, to znaczy

\( \displaystyle \exists d\in A^c,\ \exists a,b\in A:\ a < d < b. \)

Zdefiniujmy

\( \displaystyle U\ \stackrel{df}{=}\ (-\infty,d),\quad V\ \stackrel{df}{=}\ (d,+\infty). \)

Wówczas \( \displaystyle U \) i \( \displaystyle V \) są zbiorami otwartymi (dlaczego?), \( \displaystyle U\cap A\ne\emptyset \) i \( \displaystyle V\cap A\ne\emptyset \) (bo \( \displaystyle a\in U\cap A \) i \( \displaystyle b\in V\cap A \)), \( \displaystyle A\subseteq U\cup V \) oraz \( \displaystyle U\cap V=\emptyset. \) Jest to sprzeczne ze spójnością zbioru \( \displaystyle A. \)

"\( \displaystyle \displaystyle\Longleftarrow \)" (Będziemy korzystali z faktu, że supremum zbioru otwartego w \( \displaystyle \displaystyle\mathbb{R} \) nie jest elementem tego zbioru).

Niech \( \displaystyle A \) będzie przedziałem. Dla dowodu niewprost przypuśćmy, że \( \displaystyle A \) nie jest zbiorem spójnym. Zatem istnieją dwa niepuste zbiory otwarte \( \displaystyle U \) i \( \displaystyle V \) takie, że

\( \displaystyle U\cap V=\emptyset,\quad A\subseteq U\cup V. \)

oraz

\( \displaystyle \exists a,b\in A:\ a\in U,\ b\in V. \)

Bez straty ogólności możemy założyć, że \( \displaystyle a < b. \)

Zdefiniujmy \( \displaystyle z=\sup (U\cap [a,b]). \) Ponieważ \( \displaystyle b\in V \) i \( \displaystyle V \) jest otwarty, więc \( \displaystyle z < b. \) Gdyby \( \displaystyle z\in U, \) to z faktu, że \( \displaystyle U \) jest zbiorem otwartym wynikałoby, że \( \displaystyle z \) nie jest kresem górnym zbioru \( \displaystyle U\cap [a,b]. \) Zatem \( \displaystyle z\not\in U. \)

Ponieważ \( \displaystyle a\in U \) i \( \displaystyle U \) jest otwarty, więc \( \displaystyle a < z. \) Gdyby \( \displaystyle z\in V, \) to z faktu, że \( \displaystyle V \) jest otwarty wynikałoby, że \( \displaystyle z \) nie jest kresem górnym zbioru \( \displaystyle U\cap [a,b]. \) Zatem \( \displaystyle z\not\in V. \)

Pokazaliśmy, że \( \displaystyle z\not\in U\cap V. \) Ale \( \displaystyle z\in A, \) więc doszliśmy do sprzeczności z faktem, że \( \displaystyle A\subseteq U\cap V. \)

Pokazaliśmy zatem, że \( \displaystyle A \) jest zbiorem spójnym.

Kolejne twierdzenie (które podajemy bez dowodu) mówi, że suma dowolnej rodziny zbiorów spójnych jest zbiorem spójnym, pod warunkiem, że mają one niepuste przecięcie.

Twierdzenie 1.26.

Jeśli \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną, \( \displaystyle \displaystyle\{X_s\}_{s\in S} \) jest rodziną podzbiorów spójnych w \( \displaystyle X \) takich, że \( \displaystyle \displaystyle \bigcap_{s\in S}X_s\ne\emptyset, \) to zbiór \( \displaystyle \displaystyle \bigcup_{s\in S}X_s \) jest spójny.

Ciągi w przestrzeniach metrycznych

Ciągi w przestrzeniach metrycznych



W wykładzie tym wprowadzamy pojęcie ciągu w dowolnej przestrzeni metrycznej. Definiujemy granicę ciągu w przestrzeni metrycznej i przedstawiamy jej własności. Wprowadzamy pojęcie ciągu Cauchy'ego i zupełności. Dowodzimy twierdzenie Banacha o punkcie stałym i twierdzenie Cantora dla przestrzeni zupełnych. Wprowadzamy pojęcie ciągowej zwartości i charakteryzujemy zbiory zwarte w przestrzeni euklidesowej. Jako materiał nadobowiązkowy omawiamy ciągłość funkcji między przestrzeniami metrycznymi. Dowodzimy pewnego warunku równoważnego ciągłości funkcji oraz tak zwaną własność Darboux. Wprowadzamy pojęcie: jednostajna ciągłość funkcji.

Ciąg i granica

Ciąg i granica


rycina

Wyobraźmy sobie dwóch ludzi na kuli ziemskiej: jednego człowieka na biegunie północnym, a drugiego na biegunie południowym. Jaka jest dzielącaich odległość? Jeśli potraktujemy tych ludzi jako dwa punkty przestrzeni \( \displaystyle \mathbb{R}^3 \), to ich odległość będzie równa średnicy Ziemi (czyli około \( \displaystyle 12\,732 \) kilometry). Ale każdy odpowie, że odległość dzieląca tych ludzi równa jest połowie obwodu Ziemi (czyli około \( \displaystyle 20\,000 \) kilometrów). Odległość jaką w tej chwili podajemy nie jest zatem odległością w \( \displaystyle \mathbb{R}^N \), lecz w zupełnie innej przestrzeni, jaką jest powierzchnia kuli. Tak więc na co dzień spotykamy się także z przestrzeniami metrycznymi innymi niż \( \displaystyle \mathbb{R}^N \).

Definicja 2.1. [ciąg]

Niech \( \displaystyle X\ne\emptyset \) będzie dowolnym zbiorem. Ciągiem o wyrazach w zbiorze \( \displaystyle X \) nazywamy dowolną funkcję \( \displaystyle \displaystyle f\colon \mathbb{N}\longrightarrow X. \)
Ciąg ten oznaczamy

\( \displaystyle \{x_n\}_{n\in \mathbb{N}}\subseteq X,\quad \{x_n\}_{n=1}^{\infty}\subseteq X,\quad \{x_n\}\subseteq X,\quad\quad \)  lub  \( \displaystyle \quad x_1,x_2,\ldots, \)

gdzie \( \quad\displaystyle f(n) \ =\ x_n \qquad\forall\ n\in\mathbb{N}. \)

wykresy

Definicja 2.2. [granica ciągu]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną, \( \displaystyle \displaystyle\{x_n\}\subseteq X \) ciągiem oraz \( \displaystyle g\in X. \)
Mówimy, że \( \displaystyle g \) jest granicą ciągu \( \displaystyle \displaystyle\{x_n\} \) w metryce \( \displaystyle d, \) jeśli dla dowolnego \( \varepsilon>0 \) wyrazy ciągu są od pewnego momentu oddalone od \( \displaystyle g \) o mnie niż \( \varepsilon \), czyli

\( \displaystyle \forall \varepsilon>0\ \exists N\in\mathbb{N}\ \forall n\ge N:\ d(x_n,g) < \varepsilon \)

i piszemy

\( \displaystyle \lim\limits_{n \to +\infty} x_n=g,\quad x_n \rightarrow[n \to +\infty]{}g,\quad x_n \longrightarrow g \quad \) lub \(\quad x_n\stackrel{d}{\longrightarrow} g. \)

Mówimy, że ciąg \( \displaystyle \displaystyle\{x_n\} \) jest zbieżny, jeśli

\( \displaystyle \exists g\in X:\ \lim\limits_{n \to +\infty} x_n=g. \)

Uwaga 2.3.

Warunek

\( \displaystyle \forall \varepsilon>0\ \exists N\in\mathbb{N}\ \forall n\ge N:\ d(x_n,g) < \varepsilon \)
w powyższej definicji jest równoważny warunkowi

\( \displaystyle \forall \varepsilon>0\ \exists N\in\mathbb{N}\ \forall n\ge N:\ x_n\in K(g,\varepsilon). \)

Wynika to wprost z definicji kuli, gdyż

\( \displaystyle d(x_n,g) < \varepsilon \ \Longleftrightarrow\ x_n\in K(g,\varepsilon). \)

Definicja 2.4. [ciąg ograniczony]

Ciąg \( \displaystyle \displaystyle\{x_n\}\subseteq X \) nazywamy ograniczonym, jeśli

\( \displaystyle \exists x\in X\ \exists r>0\ \forall n\in\mathbb{N}:\ d(x,x_n) < r. \)

Innymi słowy, ciąg \( \displaystyle \displaystyle\{x_n\} \) jest ograniczony, jeśli zbiór jego wartości \( \displaystyle \displaystyle\big\{x_n:\ n\in\mathbb{N}\big\} \) jest ograniczony w \( \displaystyle X. \)

Przykład 2.5.

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną dyskretną oraz \( \displaystyle \displaystyle\{x_n\}\subseteq X \) dowolnym ciągiem. Wówczas ciąg \( \displaystyle \displaystyle\{x_n\} \) jest zbieżny wtedy i tylko wtedy, gdy \( \displaystyle \displaystyle\{x_n\} \) jest stały od pewnego miejsca.

\( \displaystyle \displaystyle\Longleftarrow \)":

Ta implikacja jest oczywista.

"\( \displaystyle \displaystyle\Longrightarrow \)":

Załóżmy, że \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} x_n=x. \) Należy pokazać, że ciąg \( \displaystyle \displaystyle\{x_n\} \) jest stały od pewnego miejsca. Ustalmy \( \displaystyle \displaystyle\varepsilon=\frac{1}{2}. \) Z definicji granicy wiemy, że

\( \displaystyle \exists N\in\mathbb{N}\ \forall n\ge N:\ d(x_n,x) \ < \ \frac{1}{2}. \)

Ale metryka dyskretna przyjmuje tylko wartości \( \displaystyle 0 \) lub \( \displaystyle 1. \) Zatem warunek \( \displaystyle d(x_n,x) < \frac{1}{2} \) oznacza, że \( \displaystyle d(x_n,x)=0, \) czyli \( \displaystyle x_n=x. \) Pokazaliśmy zatem, że

\( \displaystyle \forall n\ge N:\ x_n=x, \)

to znaczy ciąg \( \displaystyle \displaystyle\{x_n\} \) jest stały od pewnego miejsca.

Podobnie jak w przypadku ciągów w \( \displaystyle \displaystyle\mathbb{R}^N \), dla ciągów w \( \displaystyle \displaystyle (X,d) \) zachodzą następujące twierdzenia:

Twierdzenie 2.6.

Niech \( \displaystyle \displaystyle (X,d) \) będzie dowolną przestrzenią metryczną. Niech \( \displaystyle \displaystyle\{x_n\}\subseteq X \) będzie ciągiem oraz \( \displaystyle g\in X. \) Wówczas:

(1) \( \displaystyle x_n\stackrel{d}{\to} g \) wtedy i tylko, wtedy, gdy \( \displaystyle d (x_n,g) \stackrel {\mathbb{R}}{\to} 0 \),

(2) Istnieje co najwyżej jedna granica ciągu \( \displaystyle \displaystyle\{x_n\}: \) to znaczy

\( \displaystyle \bigg[ \lim\limits_{n \to +\infty} x_n = g_1\in X \quad \) i \( \displaystyle \quad \lim\limits_{n \to +\infty} x_n = g_2\in X \bigg] \ \Longrightarrow\ g_1=g_2. \)

(3) Jeśli ciąg \( \displaystyle \displaystyle\{x_n\} \) jest zbieżny, to jest ograniczony.

(4) Jeśli \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} x_n=g \) oraz \( \displaystyle \displaystyle\big\{x_{n_k}\big\} \) jest dowolnym podciągiem ciągu \( \displaystyle \displaystyle\{x_n\}, \) to

\( \displaystyle \lim\limits_{k \to +\infty} x_{n_k} \ =\ g. \)

(5) Jeśli \( \displaystyle \displaystyle\{x_n\} \) jest ciągiem zbieżnym oraz \( \displaystyle \displaystyle\big\{x_{n_k}\big\} \) jest jego dowolnym podciągiem takim, że \( \displaystyle \displaystyle\lim\limits_{k \to +\infty} x_{n_k}=g, \) to także \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} x_n=g. \)

(6) Jeśli dla dowolnego podciągu \( \displaystyle \displaystyle\big\{x_{n_k}\big\} \) ciągu \( \displaystyle \displaystyle\{x_n\} \) istnieje jego dalszy podciąg \( \displaystyle \displaystyle\big\{x_{n_{k_l}}\big\} \) taki, że \( \displaystyle \displaystyle\lim\limits_{l \to +\infty} x_{n_{k_l}}=g, \) to \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} x_n=g. \)

Zupełność

Zupełność


rycina

Przypomnijmy teraz znane już z Analizy matematycznej 1 pojęcie ciągu Cauchy'ego.

Definicja 2.7. [warunek Cauchy'ego dla ciągu]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną oraz \( \displaystyle \displaystyle\{x_n\}\subseteq X \) ciągiem.
Mówimy, że ciąg \( \displaystyle \displaystyle\{x_n\} \) spełnia warunek Cauchy'ego lub jest ciągiem Cauchy'ego, jeśli

\( \displaystyle \forall \varepsilon>0\ \exists N\in\mathbb{N} \ \forall n,m\ge N:\ d(x_n,x_m) < \varepsilon. \)

Warunek Cauchy'ego dla ciągu \( \displaystyle \displaystyle\{x_n\} \) oznacza, że dla dowolnie wybranej liczby \( \displaystyle \displaystyle\varepsilon>0, \) począwszy od pewnego miejsca, każde dwa wyrazy ciągu są oddalone od siebie o mniej niż \( \displaystyle \displaystyle\varepsilon. \)

Na wykładzie z Analizy matematycznej 1 dowiedzieliśmy się, że ciągi zbieżne w \( \displaystyle \displaystyle\mathbb{R}^N \) to są dokładnie ciągi Cauchy'ego. W dowolnej przestrzeni metrycznej zachodzi wynikanie tylko w jedną stronę.

Twierdzenie 2.8. [Zbieżność ciągu a warunek Cauchy'ego]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną oraz niech \( \displaystyle \displaystyle\{x_n\}\subseteq X \) będzie dowolnym ciągiem.

Jeśli ciąg \( \displaystyle \displaystyle\{x_n\} \) jest zbieżny w \( \displaystyle X, \) to spełnia on warunek Cauchy'ego.

Dowód 2.8.

Niech \( \displaystyle \displaystyle\{x_n\} \) będzie ciągiem zbieżnym w \( \displaystyle X, \) to znaczy \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} x_n=g\in X. \) Aby pokazać warunek Cauchy'ego, ustalmy dowolne \( \displaystyle \displaystyle\varepsilon>0. \) Z definicji granicy wynika, że

\( \displaystyle \exists N\in \mathbb{N}\ \forall n\ge N: d(x_n,g) < \frac{\varepsilon}{2}. \)

Zatem dla dowolnych \( \displaystyle n,m\ge N \) mamy

\( \displaystyle d(x_n,x_m) \ \le\ d(x_n,g)+d(g,x_m) \ =\ d(x_n,g)+d(x_m,g) \ < \ \frac{\varepsilon}{2}+\frac{\varepsilon}{2} \ =\ \varepsilon, \)

co kończy dowód.

Uwaga 2.9.

Twierdzenie odwrotne do powyższego nie jest prawdziwe. Było to pokazane na wykładzie z Analizy matematycznej 1 (patrz Analiza matematyczna 1 uwaga 3.31. oraz przykład 2.11. poniżej).

Definicja 2.10. [przestrzeń zupełna]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną. Mówimy, że przestrzeń \( \displaystyle X \) jest zupełna, jeśli dowolny ciąg spełniający warunek Cauchy'ego w \( \displaystyle X \) jest zbieżny w \( \displaystyle X. \)

Przykład 2.11.

Przestrzenie \( \displaystyle \displaystyle (\mathbb{R},d_2) \) oraz \( \displaystyle \displaystyle ([0,1],d_2) \) są zupełne (wiemy to z wykładu z Analizy matematycznej 1).

Przestrzenie \( \displaystyle \displaystyle (\mathbb{Q},d_2) \) oraz \( \displaystyle \displaystyle ((0,1),d_2) \) nie są zupełne. Aby pokazać, że przestrzeń \( \displaystyle \displaystyle ((0,1),d_2) \) nie jest zupełna, weźmy ciąg \( \displaystyle \displaystyle \bigg\{\frac{1}{n}\bigg\}. \) Łatwo sprawdzić, że jest on ciągiem Cauchy'ego, ale nie ma granicy w \( \displaystyle \displaystyle (0,1). \)

Ważnym twierdzeniem zachodzącym w przestrzeniach zupełnych jest następujące twierdzenie Banacha o punkcie stałym. Mówi ono, iż każde odwzorowanie zwężające (to znaczy "zmniejszające odległości" między punktami; patrz definicja 2.12.) prowadzące z przestrzeni zupełnej w siebie posiada punkt stały. Oznacza to, że istnieje element \( \displaystyle x\in X \) o tej własności, że \( \displaystyle f(x)=x. \) Z zastosowaniem tego twierdzenia spotkamy się przy okazji równań różniczkowych. Twierdzenie to zajmuje ważne miejsce w matematyce i zostało udowodnione przez wielkiego polskiego matematyka Stefana Banacha.

Definicja 2.12. [odwzorowanie zwężające]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną. Mówimy, że odwzorowanie \( \displaystyle \displaystyle f\colon X\longrightarrow X \) jest zwężające, jeśli

\( \displaystyle \exists \lambda\in [0,1) \ \forall x,y\in X:\ d(f(x),f(y)) \ \le\ \lambda\ d(x,y). \)

Przykład 2.13.

Dla \( \displaystyle \displaystyle (\mathbb{R},d_2), \) odwzorowaniem zwężającym jest na przykład \( \displaystyle f(x)=\frac{1}{2}x, \) a odwzorowania \( \displaystyle f(x)=x,\displaystyle f(x)=x+2,\displaystyle f(x)=x^2 \) nie są zwężające.

Definicja 2.14. [punkt stały]

Niech \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną. Mówimy, że \( \displaystyle x_0\in X \) jest punktem stałym odwzorowania \( \displaystyle \displaystyle f\colon X\longrightarrow X, \) jeśli \( \displaystyle f(x_0)=x_0. \)

Przykład 2.15.

Dla \( \displaystyle \displaystyle (\mathbb{R},d_2), \) punktem stałym odwzorowania \( \displaystyle f(x)=\frac{1}{2}x \) jest \( \displaystyle 0, \) punktami stałymi odwzorowania \( \displaystyle f(x)=x \) są wszystkie punkty \( \displaystyle x\in\mathbb{R} \); odwzorowanie \( \displaystyle f(x)=x+2 \) nie ma punktów stałych; punktami stałymi odwzorowania \( \displaystyle f(x)=x^2 \) są \( \displaystyle 0 \) i \( \displaystyle 1. \)

Twierdzenie 2.16. [Twierdzenie Banacha o punkcie stałym]

Jeśli \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną zupełną, \( \displaystyle \displaystyle f\colon X\longrightarrow X \) jest odwzorowaniem zwężającym, to \( \displaystyle f \) ma dokładnie jeden punkt stały, to znaczy

\( \displaystyle \exists!\ x^*\in X:\ f(x^*)=x^*. \)

Rysunek do dowodu twierdzenia Banacha o punkcie stałym

Dowód 2.16. [nadobowiązkowy]

Ustalmy dowolny \( \displaystyle x_0\in X. \) Zdefiniujmy rekurencyjnie ciąg:

\( \displaystyle x_n \ \ \stackrel{df}{=}\ \ f(x_{n-1}) \quad \) dla \( \displaystyle \ n\in\mathbb{N}. \)

Jeżeli \( \displaystyle d(x_0,x_1)=0, \) to \( \displaystyle f(x_0)=x_1=x_0, \) a zatem \( \displaystyle x_0 \) jest szukanym punktem stałym.
Możemy więc w dalszej części założyć, że \( \displaystyle d(x_0,x_1)>0. \)

Pokażemy, że zdefiniowany powyżej ciąg \( \displaystyle \displaystyle\{x_n\} \) spełnia warunek Cauchy'ego, a zatem jest zbieżny (gdyż przestrzeń jest zupełna).
W tym celu ustalmy \( \displaystyle \displaystyle\varepsilon>0. \) Ponieważ \( \displaystyle \displaystyle\lambda\in(0,1), \) więc ciąg geometryczny \( \displaystyle \displaystyle\{\lambda^n\}_{n\in\mathbb{N}}\subseteq \mathbb{R} \) jest zbieżny do zera (patrz Analiza matematyczna 1 przykład 03.22.). Z definicji granicy wynika, że

\( \displaystyle \exists N_0\in\mathbb{N}:\ \ \lambda^{N_0} < \frac{\varepsilon(1-\lambda)}{d(x_0,x_1)}. \)

Niech teraz \( \displaystyle n,m\ge N_0. \) Dla ustalenia uwagi załóżmy, że \( \displaystyle m>n \) (rozumowanie dla \( \displaystyle n>m \) jest analogiczne). Mamy

\( \displaystyle d(x_n,x_{n+1}) \ =\ d(f(x_{n-1}),f(x_n)) \ \le\ \lambda d(x_{n-1},x_n). \)

Zatem (dowodząc indukcyjnie) dostajemy

\( \displaystyle \forall n\in\mathbb{N}:\ d(x_n,x_{x_{n+1}}) \ \le\ \lambda^n d(x_0,x_1). \)

Korzystając z nierówności trójkąta oraz faktu powyżej, dostajemy

\( \displaystyle \begin{align*} d(x_n,x_m) & \le & d(x_n,x_{n+1}) +d(x_{n+1},x_{n+2}) +\ldots+ d(x_{m-1},x_m) \ \le\ (\lambda^n+\lambda^{n+1}+\ldots+\lambda^{m-1})d(x_0,x_n) \\ & = \lambda^n(1+\lambda+\ldots+\lambda^{m-n-1})d(x_0,x_1). \end{align*} \)

Wykorzystując wzór na sumę skończonego ciągu geometrycznego (patrz Analiza matematyczna 1 wnoisek 1.11), mamy

\( \displaystyle d(x_n,x_m) \ \le\ \lambda^n\frac{1-\lambda^{m-n}}{1-\lambda}d(x_0,x_1) \ < \ \frac{\lambda^n}{1-\lambda}d(x_0,x_1). \)

Z powyższej nierówności oraz definicji \( \displaystyle N_0 \) mamy

\( \displaystyle d(x_n,x_m) \ < \ \frac{\lambda^n}{1-\lambda}d(x_0,x_1) \ < \ \varepsilon. \)

Pokazaliśmy zatem, że ciąg \( \displaystyle \displaystyle\{x_n\} \) spełnia warunek Cauchy'ego, a więc jest zbieżny (bo \( \displaystyle X \) jest przestrzenią zupełną), to znaczy

\( \displaystyle \exists x^*\in X:\ \lim\limits_{n \to +\infty} x_n=x^*. \)

Pokażemy, że element \( \displaystyle x^* \) jest punktem stałym odwzorowania \( \displaystyle f. \) W tym celu ustalmy \( \displaystyle \displaystyle\varepsilon>0. \) Korzystając z definicji granicy ciągu, mamy

\( \displaystyle \exists N\in\mathbb{N}\ \forall n\ge N:\ d(x^*,x_n) < \frac{\varepsilon}{2}. \)

Zatem z nierówności trójkąta oraz wyboru \( \displaystyle N, \) dla \( \displaystyle n\ge N \) mamy

\( \begin{array}{lll}\displaystyle 0 \ \le\ d(f(x^*),x^*) & \le & d(f(x^*),f(x_n))+d(f(x_n),x^*) \ \le\ \lambda f(x^*,x_n)+d(x_{n+1},x^*) \\ & < & \frac{\varepsilon}{2}+\frac{\varepsilon}{2} \ =\ \varepsilon.\end{array} \)

Ponieważ nierówność \( \displaystyle d(f(x^*),x^*) < \varepsilon \) zachodzi dla dowolnego \( \displaystyle \displaystyle\varepsilon>0, \) zatem \( \displaystyle d(f(x^*),x^*)=0, \) a to oznacza (z definicji metryki), że \( \displaystyle f(x^*)=x^*. \)

Na koniec pokażemy, że znaleziony punkt \( \displaystyle x^* \) jest jedynym punktem stałym odwzorowania \( \displaystyle f. \) Załóżmy, że pewien element \( \displaystyle x\in X \) jest punktem stałym dla \( \displaystyle f, \) to znaczy \( \displaystyle f(x)=x. \) Wówczas:

\( \displaystyle d(x^*,x) \ =\ d(f(x^*),f(x)) \ \le\ \lambda d(x^*,x), \)

zatem

\( \displaystyle (1-\lambda)d(x^*,x) \ \le\ 0. \)

Ponieważ \( \displaystyle \displaystyle\lambda\in(0,1), \) więc \( \displaystyle d(x^*,x)=0, \) a stąd \( \displaystyle x=x^*. \) Pokazaliśmy więc, że \( \displaystyle x^* \) jest jedynym punktem stałym.

Ciąg \( \displaystyle \displaystyle\{x_n\} \) skonstruowany w powyższym dowodzie nosi nazwę ciągu kolejnych przybliżeń.

Będziemy chcieli scharakteryzować zbiory zwarte w dowolnej przestrzeni metrycznej. Rozważmy następujący przykład.

Przykład 2.17.

Rozważmy przedział \( \displaystyle \displaystyle (0,1) \) z metryką euklidesową \( \displaystyle d_2. \) Zauważmy, że w tym przedziale przedziały \( \displaystyle \displaystyle (0,a] \) gdzie \( \displaystyle a\in (0,1) \) są zbiorami domkniętymi (bo ich uzupełnienia \( \displaystyle \displaystyle (a,1) \) są otwarte). Weźmy ciąg przedziałów \( \displaystyle \displaystyle F_n=\bigg(0,\frac{1}{n}\bigg]. \) Oczywiści \( \displaystyle \displaystyle F_1\supseteq F_2\supseteq \ldots. \) Widać, że część wspólna wszystkich tych zbiorów jest zbiorem pustym. Jeśli natomiast zamiast przedziału \( \displaystyle \displaystyle (0,1) \) weźmiemy przedział \( \displaystyle \displaystyle [0,1] \) z metryką euklidesową \( \displaystyle d_2 \) i zdefiniujemy zbiory domknięte \( \displaystyle \displaystyle F_n=\bigg[0,\frac{1}{n}\bigg], \) to także \( \displaystyle \displaystyle F_1\supseteq F_\supseteq \ldots \) oraz część wspólna wszystkich tych zbiorów jest zbiorem jednopunktowym \( \displaystyle \displaystyle\{0\}. \) Ten przykład jest ilustracją do poniższego twierdzenia Cantora.

wykres i rycina

Zstępujący ciąg zbiorów domkniętych

Twierdzenie 2.18. [Twierdzenie Cantora. Warunek równoważny zupełności przestrzeni]

Jeśli \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną, to \( \displaystyle X \) jest zupełna, wtedy i tylko wtedy, gdy każdy zstępujący ciąg zbiorów domkniętych, niepustych, o średnicach malejących do zera, ma przecięcie niepuste.

Przedstawiamy jedynie szkic dowodu twierdzenia Cantora. Piszemy "dlaczego?", zaznaczając fakty wymagające dokładniejszego uzasadnienia.

Dowód 2.18. [nadobowiązkowy]

[Szkic] "\( \displaystyle \displaystyle\Longrightarrow \)":

Niech \( \displaystyle \displaystyle\{F_n\} \) będzie zstępującym ciągiem zbiorów niepustych i domkniętych o średnicach zmierzających do zera, to znaczy

\( \displaystyle F_1\supseteq F_2\supseteq\ldots \)

gdzie

\( \displaystyle \mathrm{diam}\, (F_n)\searrow 0. \)

Dla każdego \( \displaystyle n\in\mathbb{N} \) wybierzmy jeden dowolny element \( \displaystyle x_n\in F_n. \) Powstały w ten sposób ciąg spełnia warunek Cauchy'ego (dlaczego?). Ponieważ przestrzeń jest zupełna, więc

\( \displaystyle \exists x\in X:\ \lim\limits_{n \to +\infty} x_n=x. \)

Wówczas \( \displaystyle x\in\bigcap\limits_{n\in\mathbb{N}}F_n \) (dlaczego?), a zatem \( \displaystyle \displaystyle\bigcap\limits_{n\in\mathbb{N}}F_n\ne\emptyset. \)

"\( \displaystyle \displaystyle\Longleftarrow \)":

Aby pokazać zupełność przestrzeni \( \displaystyle X \), weźmy dowolny ciąg spełniający warunek Cauchy'ego \( \displaystyle \displaystyle\{x_n\}\subseteq X. \) Dla każdego \( \displaystyle n\in\mathbb{N} \) definiujemy

\( \displaystyle F_n \ =\ \overline{\{x_n,x_{n+1},\ldots\}} \)

(to znaczy \( \displaystyle F_n \) jest domknięciem zbioru wartości ciągu \( \displaystyle \displaystyle\{x_k\}_{k=n}^{\infty} \)). Wówczas \( \displaystyle \displaystyle\{F_n\} \) jest zstępującym ciągiem zbiorów niepustych, domkniętych, o średnicach zmierzających do zera (dlaczego?). Zatem z założenia istnieje \( \displaystyle x\in\bigcap\limits_{n\in\mathbb{N}}F_n. \) Wówczas \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} x_n=x \) (dlaczego?).

Kolejne twierdzenie podaje związki między zbieżnością ciągu (odpowiednio warunkiem Cauchy'ego dla ciągu) w iloczynie kartezjańskim przestrzeni metrycznych a zbieżnością ciągów (odpowiednio warunkiem Cauchy'ego) na poszczególnych współrzędnych. Dowód pozostawiamy na ćwiczenia (patrz ćwiczenie 2.3.).

wykres

Ciąg w iloczynie kartezjańskim

Twierdzenie 2.19. [Granica ciągu w iloczynie kartezjańskim]

Jeśli \( \displaystyle \displaystyle (X_i,d_i) \) są przestrzeniami metrycznymi dla \( \displaystyle i=1,\ldots k,\displaystyle X=X_1\times\ldots\times X_k,\displaystyle \displaystyle\{a_n\}\subseteq X \) jest ciągiem w \( \displaystyle X, \) w szczególności \( \displaystyle a_n=(a_n^1,\ldots,a_n^k) \) dla \( \displaystyle n\in\mathbb{N} \) oraz \( \displaystyle a=(a^1,\ldots,a^k)\in X, \) to

(1) \( \displaystyle \lim\limits_{n \to +\infty} a_n=a \) wtedy i tylko wtedy, gdy \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} a_n^i= a^i \) dla \( \displaystyle i=1,\ldots,k. \)

(2) Ciąg \( \displaystyle \displaystyle\{a_n\} \) spełnia warunek Cauchy'ego wtedy i tylko wtedy, gdy ciągi \( \displaystyle \displaystyle\{a^i_n\} \) spełniają warunek Cauchy'ego dla \( \displaystyle i=1,\ldots,k. \)

Prostą konsekwencją powyższego twierdzenia są następujące wnioski mówiące, że zupełność zachowuje się przy braniu iloczynu kartezjańskiego przestrzeni metrycznych (dowód pomijamy).

Wniosek 2.20.

Jeśli \( \displaystyle \displaystyle (X_i,d_i) \) są przestrzeniami metrycznymi zupełnymi dla \( \displaystyle i=1,\ldots, k, \) to \( \displaystyle X_1\times\ldots\times X_k \) jest przestrzenią metryczną zupełną.

Wniosek 2.21.

\( \displaystyle \displaystyle\mathbb{R}^N \) oraz \( \displaystyle \displaystyle\mathbb{C}^N \) są przestrzeniami metrycznymi zupełnymi.

Ciągowa zwartość

Ciągowa zwartość


Pojęcie ciągowej zwartości było wprowadzone na wykładzie z Analizy matematycznej 1. Zbiory ciągowo zwarte nazwaliśmy wtedy zwartymi, korzystając z faktu, że w przypadku \( \displaystyle \displaystyle\mathbb{R}^N \) oba te pojęcia są równoważne (patrz twierdzenie 2.23.).

Definicja 2.22.

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną oraz \( \displaystyle A\subseteq X. \)
Mówimy, że \( \displaystyle A \) jest zbiorem ciągowo zwartym, jeśli z każdego ciągu \( \displaystyle \displaystyle\{x_n\}\subseteq A \) można wybrać podciąg \( \displaystyle \displaystyle\{x_{n_k}\} \) zbieżny w \( \displaystyle A. \)

Okazuje się, że zwartość jest równoważna ciągowej zwartości w przestrzeniach metrycznych. Mówi o tym kolejne twierdzenie. Podamy dowód tylko jednej z implikacji w poniższym twierdzeniu, mianowicie, że zwartość pociąga za sobą ciągową zwartość. Dowód przeciwnej (bardziej interesującej) implikacji wykracza poza program tego kursu. Przestrzeń metryczną, która jest zbiorem (ciągowo) zwartym będziemy nazywać przestrzenią (ciągowo) zwartą.

Twierdzenie 2.23.

Jeśli \( \displaystyle X \) jest przestrzenią metryczną to \( \displaystyle X \) jest przestrzenią zwartą wtedy i tylko wtedy, gdy \( \displaystyle X \) jest przestrzenią ciągowo zwartą.

Dowód 2.23. [nadobowiązkowy]

{{{3}}}

Twierdzenie 2.24.

Jeśli \( \displaystyle X_1,\ldots,X_k \) są przestrzeniami metrycznymi zwartymi, to \( \displaystyle X_1\times\ldots\times X_k \) (z metryką standardową) jest przestrzenią metryczną zwartą.

Dowód 2.24. [nadobowiązkowy]

Przeprowadzimy dowód indukcyjny ze względu na ilość przestrzeni \( \displaystyle k. \) Dla \( \displaystyle k=1 \) twierdzenie jest prawdziwe.
Załóżmy, że twierdzenie jest prawdziwe dla pewnej ilości \( \displaystyle k \) przestrzeni metrycznych. Pokażemy jego prawdziwość dla liczby następnej, \( \displaystyle k+1 \) przestrzeni metrycznych. Zakładamy, że przestrzenie metryczne \( \displaystyle X_1,\ldots,X_k,X_{k+1} \) są zwarte. Aby pokazać zwartość iloczynu kartezjańskiego \( \displaystyle X_1\times\ldots\times X_k\times X_{k+1}, \) wystarczy pokazać ciągową zwartość tego iloczynu kartezjańskiego (porównaj twierdzenie 2.23.). W tym celu niech \( \displaystyle \displaystyle\{x_n\}\subseteq X_1\times\ldots\times X_k\times X_{k+1} \) będzie dowolnym ciągiem, gdzie \( \displaystyle x_n=(x_n^1,\ldots,x_n^k,x_n^{k+1}) \) dla \( \displaystyle n\in\mathbb{N}. \) Z założenia indukcyjnego wiemy, że iloczyn kartezjański \( \displaystyle X_1\times\ldots\times X_k \) jest zwarty, a zatem także ciągowo zwarty. Zatem z ciągu \( \displaystyle \displaystyle\{y_n\}\subseteq X_1\times\ldots\times X_k, \) gdzie \( \displaystyle y_n=(x_n^1,\ldots,x_n^k) \) można wybrać podciąg zbieżny \( \displaystyle \displaystyle\{y_{n_l}\}. \) Ponieważ przestrzeń \( \displaystyle X_{k+1} \) jest zwarta, więc z ciągu \( \displaystyle \displaystyle\{x^{k+1}_{n_l}\} \) można wybrać podciąg \( \displaystyle \displaystyle\{x^{k+1}_{n_{l_m}}\} \) zbieżny w \( \displaystyle X_{k+1}. \) Oczywiście podciąg \( \displaystyle \displaystyle\{y_{n_{l_m}}\}\subseteq X_1\times\ldots\times X_k \) jest zbieżny w \( \displaystyle X_1\times\ldots\times X_k \) (jako podciąg ciągu zbieżnego \( \displaystyle \displaystyle\{y_{n_l}\} \)). Zatem podciąg \( \displaystyle \displaystyle\{x_{n_{l_m}}\} \) jest zbieżny w \( \displaystyle X_1\times\ldots\times X_k\times X_{k+1} \) (patrz twierdzenie 2.19.).

Wniosek 2.25.

Kostka \( \displaystyle \displaystyle [a_1,b_1]\times\ldots[a_N,b_N]\subseteq\mathbb{R}^N \) jest zwarta w \( \displaystyle \displaystyle\mathbb{R}^N. \)

Dowód 2.25.

Twierdzenie jest natychmiastową konsekwencją tego, że przedział domknięty i ograniczony w \( \displaystyle \displaystyle\mathbb{R} \) jest zbiorem zwartym (patrz twierdzenie 1.21.) oraz powyższego twierdzenie 2.24.

wykres

Kolejny wniosek podaje pełną charakteryzację zbiorów zwartych w przestrzeni euklidesowej \( \displaystyle \displaystyle\mathbb{R}^N. \)

Wniosek 2.26. [Heinego-Borela]

Jeśli \( \displaystyle A\subseteq\mathbb{R}^N, \) to zbiór \( \displaystyle A \) jest zwarty

wtedy i tylko wtedy, gdy jest domknięty i ograniczony.

Dowód 2.26.

"\( \displaystyle \displaystyle\Longrightarrow \)"

Implikacja ta jest prawdziwa w dowolnej przestrzeni metrycznej, co było udowodnione na poprzednim wykładzie (patrz twierdzenie 1.19. i uwaga 1.20.

"\( \displaystyle \displaystyle\Longleftarrow \)"

Jeśli zbiór \( \displaystyle A\subseteq\mathbb{R}^N \) jest ograniczony, to możemy go zawrzeć w pewnej kostce \( \displaystyle \displaystyle [a_1,b_1]\times\ldots[a_N,b_N]\subseteq\mathbb{R}^N \) (dlaczego?). Jeśli ponadto jest domknięty, to ze zwartości kostki (patrz wiosek 2.25.) wynika jego zwartość, bo podzbiór domknięty jest zbiorem zwartym (patrz >twierdzenie 1.19.(4)).

wykres

Zachodzi następujący związek między przestrzeniami zwartymi a zupełnymi.

Twierdzenie 2.27.

Przestrzeń metryczna metryczna zwarta jest zupełna.

Dowód 2.27. [nadobowiązkowy]

Niech \( \displaystyle \displaystyle (X,d) \) będzie przestrzenią metryczną zwartą. Należy pokazać, że przestrzeń metryczna \( \displaystyle X \) jest zupełna. W tym celu weźmy dowolny ciąg \( \displaystyle \{x_n\} \) spełniający warunek Cauchy'ego. Z twierdzenia 2.23. wiemy, że przestrzeń \( \displaystyle X \) jest ciągowo zwarta, zatem z ciągu \( \displaystyle \{x_n\} \) możemy wybrać podciąg \( \displaystyle \{x_{n_k}\} \) zbieżny w \( \displaystyle X \), to znaczy

\( \displaystyle \exists x_0\in X:\ \lim\limits_{n \to +\infty} x_{n_k} \ =\ x_0. \)

Wykażemy, że \( \displaystyle \lim\limits_{n \to +\infty} x_n=x_0 \). Ustalmy dowolne \( \displaystyle \varepsilon>0 \). Z definicji granicy wiemy, że istnieje \( \displaystyle k_0\in\mathbb{N} \) takie, że

\( \displaystyle \forall k\ge k_0: d(x_{n_k},x_0) \ < \ \frac{\varepsilon}{2}. \)

Z warunku Cauchy'ego wiemy, że istnieje \( \displaystyle N_1\in\mathbb{N} \) takie, że dla dowolnych \( \displaystyle m,n\ge N_1 \) zachodzi

\( \displaystyle d(x_n,x_m) \ < \ \frac{\varepsilon}{2}. \)

Niech \( \displaystyle k_1\ge k_0 \) będzie takie, że \( \displaystyle n_{k_1}\ge N_1 \) oraz niech \( \displaystyle N=n_{k_1} \). Wówczas dla dowolnego \( \displaystyle n\ge N \) mamy

\( \displaystyle d(x_n,x_0) \ \le\ d(x_n,x_{n_{k_1}})+d(x_{n_{k_1}},x_0) \ < \ \frac{\varepsilon}{2}+\frac{\varepsilon}{2} \ =\ \varepsilon. \)

Pokazaliśmy zatem, że \( \displaystyle \lim\limits_{n \to +\infty} x_n=x_0 \), co kończy dowód zupełności przestrzeni \( \displaystyle X \).

Uwaga 2.28.

Twierdzenie odwrotne do powyższego nie jest prawdziwe. Wiemy na przykład, że przestrzeń metryczna \( \displaystyle \displaystyle (\mathbb{R},d_2) \) jest zupełna, ale nie zwarta (patrz przykład 2.11. oraz twierdzenie 1.22.).

Ciągłość funkcji w przestrzeniach metrycznych [rozdział nadobowiązkowy]

Ciągłość funkcji w przestrzeniach metrycznych [rozdział nadobowiązkowy]


Jeśli \( \displaystyle f \) jest funkcją między dwiema przestrzeniami metrycznymi (np z \( \displaystyle \displaystyle\mathbb{R}^2 \) do \( \displaystyle \displaystyle\mathbb{R}^3 \)), to ponieważ możemy mierzyć odległości w tych przestrzeniach, więc możemy także mówić o granicy i ciągłości funkcji. Podobnie jak dla funkcji rzeczywistych, podamy dwie równoważne definicje granicy i ciągłości funkcji w punkcie.

Definicja 2.29. [Cauchy'ego granicy funkcji w punkcie]

Niech \( \displaystyle \displaystyle (X,d_X) \) oraz \( \displaystyle \displaystyle (Y,d_Y) \) będą dwiema przestrzeniami metrycznymi, niech \( \displaystyle A\subseteq X,\displaystyle g\in Y, \) niech \( \displaystyle \displaystyle f\colon A\longrightarrow Y \) będzie funkcją oraz niech \( \displaystyle x_0\in X \) będzie punktem skupienia zbioru \( \displaystyle A. \)
Mówimy, że funkcja \( \displaystyle f \) ma granicę \( \displaystyle g \) w punkcie \( \displaystyle x_0\in X, \) jeśli

\( \displaystyle \forall \varepsilon>0\ \ \exists \delta>0\ \ \forall x\in A\cap\big(K(x_0,\delta)\setminus\{x_0\}\big):\ \ f(x)\in K(g,\varepsilon) \)

lub innymi słowy

\( \displaystyle \forall \varepsilon>0\ \ \exists \delta>0\ \ \forall x\in A\setminus\{x_0\}:\ \ \bigg[d_X(x_0,x) < \delta \ \Longrightarrow\ d_Y\big(f(x),g\big) < \varepsilon\bigg]. \)

Piszemy wówczas

\( \displaystyle \lim_{x \to x_0}f(x) \ =\ g \quad \) lub \( \displaystyle \quad f(x)\xrightarrow [x \to x_0]{} g. \)

wykresy

Granica funkcji w punkcie

Definicja 2.30. [Heinego granicy funkcji w punkcie]

Niech \( \displaystyle \displaystyle (X,d_X) \) oraz \( \displaystyle \displaystyle (Y,d_Y) \) będą dwiema przestrzeniami metrycznymi, \( \displaystyle A\subseteq X,\displaystyle g\in Y, \) niech \( \displaystyle \displaystyle f\colon A\longrightarrow Y \) będzie funkcją oraz niech \( \displaystyle x_0\in X \) będzie punktem skupienia zbioru \( \displaystyle A. \)
Mówimy, że funkcja \( \displaystyle f \) ma granicę \( \displaystyle g \) w punkcie \( \displaystyle x_0\in X, \) jeśli

\( \displaystyle \forall \{x_n\}\subseteq A\setminus\{x_0\}:\ \ \bigg[x_n\stackrel{d_X}{\longrightarrow}x_0 \ \Longrightarrow\ f(x_n)\stackrel{d_Y}{\longrightarrow}g\bigg]. \)

Piszemy wówczas

\( \displaystyle \lim_{x \to x_0}f(x) \ =\ g \quad \) lub \( \displaystyle \quad f(x)\xrightarrow[x \to x_0]{} g. \)

wykresy

Funkcja ciągła w punkcie

Funkcja ciągła w punkcie

Tak samo jak dla funkcji rzeczywistych, funkcje między przestrzeniami metrycznymi są ciągłe, gdy mają granicę równą wartości.

Definicja 2.31. [Cauchy'ego ciągłości funkcji w punkcie]

Niech \( \displaystyle \displaystyle (X,d_X) \) oraz \( \displaystyle \displaystyle (Y,d_Y) \) będą dwiema przestrzeniami metrycznymi, \( \displaystyle A\subseteq X, \) niech \( \displaystyle \displaystyle f\colon A\longrightarrow Y \) będzie funkcją oraz niech \( \displaystyle x_0\in A \) (\( \displaystyle x_0 \) nie musi być punktem skupienia zbioru \( \displaystyle A \)).
Mówimy, że funkcja \( \displaystyle f \) jest ciągła w punkcie \( \displaystyle x_0\in X, \) jeśli

\( \displaystyle \forall \varepsilon>0\ \ \exists \delta>0\ \ \forall x\in A:\ \ \bigg[d_X(x,x_0) < \delta \ \Longrightarrow\ d_Y\big(f(x),f(x_0)\big) < \varepsilon\bigg]. \)

Definicja 2.32. [Heinego ciągłości funkcji w punkcie]

Niech \( \displaystyle \displaystyle (X,d_X) \) oraz \( \displaystyle \displaystyle (Y,d_Y) \) będą dwiema przestrzeniami metrycznymi \( \displaystyle A\subseteq X, \)

niech \( \displaystyle \displaystyle f\colon A\longrightarrow Y \) będzie funkcją oraz niech \( \displaystyle x_0\in A \) (\( \displaystyle x_0 \) nie musi być punktem skupienia zbioru \( \displaystyle A \)).

Mówimy, że funkcja \( \displaystyle f \) jest ciągła w punkcie \( \displaystyle x_0\in X, \) jeśli

\( \displaystyle \forall \{x_n\}\subseteq A:\ \ \bigg[x_n\stackrel{d_X}{\longrightarrow}x_0 \ \Longrightarrow\ f(x_n)\stackrel{d_Y}{\longrightarrow}f(x_0)\bigg]. \)

Mówimy, że funkcja \( \displaystyle f \) jest ciągła, jeśli jest ciągła w każdym punkcie \( \displaystyle x\in A. \)

Udowodnimy teraz twierdzenie, które podaje warunek równoważny ciągłości funkcji między przestrzeniami metrycznymi. Zauważmy, że warunek na ciągłość, podany w twierdzeniu, wymaga jedynie pojęcia zbiorów otwartych.

Twierdzenie 2.33.

Jeśli \( \displaystyle X \) i \( \displaystyle Y \) są przestrzeniami metrycznymi, to funkcja \( \displaystyle \displaystyle f\colon X\longrightarrow Y \) jest ciągła wtedy i tylko wtedy, gdy dla dowolnego zbioru otwartego \( \displaystyle V \) w \( \displaystyle Y, \) przeciwobraz \( \displaystyle f^{-1}(V) \) jest otwarty w \( \displaystyle X. \)

Dowód 2.33.

"\( \displaystyle \displaystyle\Longrightarrow \)":

Niech \( \displaystyle \displaystyle f\colon X\longrightarrow Y \) będzie funkcją ciągłą. Niech \( \displaystyle V \) będzie zbiorem otwartym w \( \displaystyle Y. \) Należy pokazać, że zbiór \( \displaystyle f^{-1}(V) \) jest otwarty w \( \displaystyle X. \) W tym celu ustalmy dowolny punkt \( \displaystyle x\in f^{-1}(V) \). Mamy wykazać, że jest on zawarty w \( \displaystyle f^{-1}(V) \) wraz z pewną kulą o środku \( \displaystyle x. \) Ponieważ zbiór \( \displaystyle V \) jest otwarty oraz \( \displaystyle f(x)\in V \) więc

\( \displaystyle \exists \varepsilon>0:\ K_{Y}(f(x),\varepsilon)\subseteq V. \)

Z drugiej strony, ponieważ funkcja \( \displaystyle f \) jest ciągła w punkcie \( \displaystyle x\in V, \) więc

\( \displaystyle \exists \delta>0\ \forall z\in X:\ \big[ d_X(z,x) < \delta \Longrightarrow d_Y(f(z),f(x)) < \varepsilon\big]. \)

Zatem, jeśli \( \displaystyle z\in K(x,\delta), \) to \( \displaystyle z\in f^{-1}(V), \) czyli \( \displaystyle K(x,\delta)\subseteq f^{-1}(V), \) co dowodzi otwartości zbioru \( \displaystyle f^{-1}(V). \)

"\( \displaystyle \displaystyle\Longleftarrow \)":

Załóżmy teraz, że dla dowolnego zbioru otwartego \( \displaystyle V \) w \( \displaystyle Y, \) zbiór \( \displaystyle f^{-1}(V) \) jest otwarty w \( \displaystyle X. \) Ustalmy dowolny \( \displaystyle x\in X. \) Pokażemy, że funkcja \( \displaystyle f \) jest ciągła w punkcie \( \displaystyle x. \) W tym celu ustalmy dowolne \( \displaystyle \displaystyle\varepsilon>0 \) i zdefiniujmy

\( \displaystyle V=\{y\in Y:\ d_Y(y,f(x)) < \varepsilon\}. \)

Wówczas zbiór \( \displaystyle V \) jest otwarty w \( \displaystyle Y \) (gdyż jest to kula; patrz twierdzenie 1.10. (1)), a zatem z założenia także zbiór \( \displaystyle f^{-1}(V) \) jest otwarty w \( \displaystyle X. \) A zatem, z otwartości \( \displaystyle f^{-1}(V) \) wynika, że

\( \displaystyle \exists \delta>0:\ K(x,\delta)\subseteq f^{-1}(V), \) co oznacza, że

\( \displaystyle \exists \delta>0: \big[z\in K_X(x,\delta) \ \Longrightarrow\ z\in f^{-1}(V)\big]. \)

Ale jeśli \( \displaystyle z\in f^{-1}(V), \) to \( \displaystyle f(z)\in V. \) Zatem

\( \displaystyle \exists \delta>0:\ \bigg[ z\in K(x,\delta) \ \Longrightarrow\ f(z)\in V\bigg], \)

czyli z definicji \( \displaystyle V \) także

\( \displaystyle \exists \delta>0:\ \bigg[ d_X(z,x) < \delta \ \Longrightarrow\ d_Y(f(z),f(x)) < \varepsilon\bigg]. \)

Pokazaliśmy, że \( \displaystyle f \) jest ciągła w punkcie \( \displaystyle x. \)

Przykład 2.34.

Niech \( \displaystyle \displaystyle (X,d_d) \) będzie przestrzenią metryczną dyskretną oraz \( \displaystyle \displaystyle (Y,d) \) dowolną przestrzenią metryczną. Wówczas dowolna funkcja \( \displaystyle f\colon X\longrightarrow Y \) jest ciągła. Faktycznie, przeciwobraz dowolnego zbioru \( \displaystyle V\subseteq Y \) (także otwartego) jest zbiorem otwartym w \( \displaystyle X \) (bo w przestrzeni metrycznej dyskretnej wszystkie zbiory są otwarte; patrz przykład 1.8.).

Twierdzenie 2.35. [Darboux]

Jeśli \( \displaystyle X \) i \( \displaystyle Y \) są przestrzeniami metrycznymi, \( \displaystyle A \) jest zbiorem spójnym w \( \displaystyle X \) oraz \( \displaystyle \displaystyle f\colon A\longrightarrow Y \) jest funkcją ciągłą,

to \( \displaystyle f(A) \) jest zbiorem spójnym w \( \displaystyle Y. \)

wykres

Dowód 2.35.

Dla dowodu niewprost przypuśćmy, że \( \displaystyle f(A) \) nie jest zbiorem spójnym. Zatem istnieją dwa otwarte i rozłączne zbiory \( \displaystyle U \) i \( \displaystyle V \) mające niepuste przecięcie z \( \displaystyle f(A) \) i takie, że \( \displaystyle f(A)\subseteq U\cup V. \) Ponieważ \( \displaystyle f \) jest funkcją ciągłą, więc zbiory \( \displaystyle f^{-1}(U) \) i \( \displaystyle f^{-1}(V) \) są otwarte w \( \displaystyle X \) (patrz twierdzenie 2.33.), są one oczywiście niepuste, rozłączne, a ich sumą jest \( \displaystyle A. \) Ale jest to sprzeczne ze spójnością zbioru \( \displaystyle A. \)

Ciągłość jednostajna [rozdział nadobowiązkowy]

Ciągłość jednostajna [rozdział nadobowiązkowy]


Materiał tego rozdziału jest nadobowiązkowy, ale na twierdzenie 2.39. powołamy się w przyszłości, przy dowodzie twierdzenia Fubiniego.

Na zakończenie wykładu wprowadzimy jeszcze jeden ważny rodzaj ciągłości, a mianowicie ciągłość jednostajną.

Definicja 2.36. [Ciągłość jednostajna]

Niech \( \displaystyle \displaystyle (X,d_X),\displaystyle \displaystyle (Y,d_Y) \) będą przestrzeniami metrycznymi oraz niech \( \displaystyle \displaystyle f\colon X\longrightarrow Y \) będzie funkcją.

Mówimy, że \( \displaystyle f \) jest jednostajnie ciągła, jeśli

\( \displaystyle \forall \varepsilon>0\ \ \exists \delta>0\ \ \forall x_1,x_2\in X\ \ \bigg[ d_X(x_1,x_2) < \delta \ \ \Longrightarrow\ \ d_Y\big(f(x_1),f(x_2)\big) < \varepsilon \bigg]. \)

Zauważmy, że ta definicja różni się od definicji ciągłości tylko kolejnością kwantyfikatorów. W definicji ciągłości \( \displaystyle \displaystyle\delta \) dobrane do \( \displaystyle \displaystyle\varepsilon \) może się zmieniać w zależności od punktu \( \displaystyle x_0 \), w którym badamy ciągłość. W definicji jednostajnej ciągłości \( \displaystyle \displaystyle\delta \) dobrane do \( \displaystyle \displaystyle\varepsilon \) jest już "dobre" dla wszystkich \( \displaystyle x_0 \) z dziedziny funkcji.

Nic dziwnego, że zachodzi następujące twierdzenie.

Twierdzenie 2.37.

Jeśli \( \displaystyle \displaystyle (X,d_X),\displaystyle \displaystyle (Y,d_Y) \) są przestrzeniami metrycznymi, \( \displaystyle \displaystyle f\colon X\longrightarrow Y \) jest funkcją, to jeśli funkcja \( \displaystyle f \) jest jednostajnie ciągła, to jest także ciągła.

wykres

Funkcja ciągła, która nie jest jednostajnie ciągła

Przykład 2.38.

Implikacja odwrotna do implikacji w powyższym twierdzeniu nie jest prawdziwa.

Np. funkcja \( \displaystyle \displaystyle\mathbb{R}_+\ni x\longmapsto x^2\in\mathbb{R} \) jest ciągła, ale nie jednostajnie ciągła.

Sprawdzimy, że faktycznie funkcja \( \displaystyle f(x)=x^2 \) nie jest jednostajnie ciągła. Dla dowolnych dwóch punktów \( \displaystyle x_1, x_2\in\mathbb{R}_+ \) mamy \( \displaystyle d_2(f(x_1),f(x_2))= |x_1^2-x_2|^2=|x_1-x_2|(x_1+x_2). \) Zatem, jeśli weźmiemy ustalone \( \displaystyle \displaystyle\delta>0 \) (dla jakiegoś \( \displaystyle \displaystyle\varepsilon>0 \)), to dla \( \displaystyle x_2=x_1+\frac{\delta}{2} \) odległość \( \displaystyle d_2(f(x_1),f(x_2))=\frac{\delta}{2}(x_1+x_2), \) co rośnie do nieskończoności, gdy zwiększamy \( \displaystyle x_1. \) A zatem nie możemy dobrać \( \displaystyle \displaystyle\delta \) niezależnego od wyboru punktu \( \displaystyle x_1. \)

Czasami jednak implikacja odwrotna do tej w twierdzeniu 2.37. zachodzi. Mówi o tym kolejne twierdzenie.

Twierdzenie 2.39.

Jeśli \( \displaystyle \displaystyle (X,d_X),\displaystyle \displaystyle (Y,d_Y) \) są przestrzeniami metrycznymi, \( \displaystyle A \) jest zbiorem zwartym w \( \displaystyle X \) oraz \( \displaystyle f\colon A\longrightarrow Y \) jest funkcją, to \( \displaystyle f \) jest jednostajnie ciągła wtedy i tylko wtedy, gdy \( \displaystyle f \) jest ciągła.

Wnioskiem z tego twierdzenia jest fakt, że jeśli mamy funkcję ciągłą na zbiorze zwartym (na przykład na przedziale domkniętym lub na iloczynie kartezjańskim przedziałów domkniętych), to dla danego \( \displaystyle \displaystyle\varepsilon>0 \) możemy dobrać \( \displaystyle \displaystyle\delta>0, \) które jest "dobre" dla wszystkich \( \displaystyle x_0 \) z naszego zbioru zwartego, czyli mamy

\( \displaystyle d_X(x_0,x) \ < \ \delta \Longrightarrow d_Y(f(x_0), f(x)) \ < \ \varepsilon, \)

niezależnie od tego, jakie \( \displaystyle x_0\in X \) weźmiemy.

Norma. Iloczyn skalarny

Norma. Iloczyn skalarny


W wykładzie tym wprowadzamy pojęcie normy i przestrzeni unormowanej. Pokazujemy, że kule w przestrzeniach unormowanych są zbiorami wypukłymi. Wprowadzamy pojęcia iloczynu skalarnego i przestrzeni unitarnej. Dowodzimy nierówność Schwarza, warunek równoległoboku i twierdzenie Pitagorasa.

Przestrzenie unormowane

Przypomnijmy, że na pierwszym wykładzie z Analizy Matematycznej 2 wprowadziliśmy pojęcie metryki, czyli funkcji, która każdym dwóm punktom danego zbioru przyporządkowuje ich odległość. W przypadku, gdy dany zbiór jest przestrzenią wektorową, możemy wprowadzić funkcję mierzącą "długość" wektora. Funkcję tę nazwiemy normą. Okaże się (zgodnie z intuicją, jak dla przypadku płaszczyzny \( \displaystyle \displaystyle\mathbb{R}^2 \)), że jeśli umiemy zmierzyć długość wektorów przestrzeni wektorowej \( \displaystyle X, \) to możemy także mierzyć odległość między punktami zbioru \( \displaystyle X. \)

Pojęcie normy jest szczególnie przydatne w przestrzeniach funkcji (np. przestrzeniach funkcji liniowych lub przestrzeniach funkcji ciągłych). Norma będzie nam również przydatna w przyszłości do zdefiniowania pochodnych wyższych rzędów dla funkcji wielu zmiennych.

Wprowadźmy formalną definicję (wektor zerowy przestrzeni wektorowej \( \displaystyle X \) będziemy oznaczać przez \( \displaystyle \Theta \)).

Definicja 3.1.

Niech \( \displaystyle X \) będzie przestrzenią wektorową nad ciałem \( \displaystyle K \) (\( \displaystyle K=\mathbb{R} \) lub \( \displaystyle K=\mathbb{C} \)).
Odwzorowanie \( \displaystyle \displaystyle\|\cdot\|\colon X\longrightarrow\mathbb{R}_+ \) nazywamy normą w \( \displaystyle X, \) jeśli:
(1) \( \displaystyle \displaystyle\forall x\in X:\ \ \|x\|=0\ \Longleftrightarrow\ x=\Theta \);
(2) \( \displaystyle \displaystyle\forall x\in X,\ \ \lambda\in K:\ \ \|\lambda x\|=|\lambda|\cdot\|x\| \) (jednorodność);
(3) \( \displaystyle \displaystyle\forall x,y\in X:\ \ \|x+y\|\le\|x\|+\|y\| \) (subaddytywność).
Parę \( \displaystyle \displaystyle (X,\|\cdot\|) \) nazywamy przestrzenią unormowaną.

Zauważmy, że definicja powyższa precyzuje nasze naturalne wymagania w stosunku do długości wektora, a mianowicie:
(1) długość wektora wynosi zero wtedy i tylko wtedy, gdy wektor jest zerowy;
(2) długość iloczynu wektora przez liczbę, to iloczyn długości tego wektora i wartości bezwzględnej tej liczby;
(3) długość sumy wektorów jest nie większa od sumy ich długości.

wykres

Przykład 3.2.

W przestrzeni wektorowej \( \displaystyle \displaystyle\mathbb{R}^N \) nad \( \displaystyle \displaystyle\mathbb{R} \) możemy wprowadzić następujące normy:
\( \displaystyle \displaystyle \|x\|_{2} \stackrel{df}{=} \sqrt{\sum_{i=1}^N x_i^2}, \qquad x=(x_1,\ldots,x_N)\in\mathbb{R}^N \) (norma euklidesowa),
\( \displaystyle \displaystyle \|x\|_{1} \stackrel{df}{=} \sum_{i=1}^N |x_i|, \qquad x=(x_1,\ldots,x_N)\in\mathbb{R}^N \) (norma taksówkowa),
\( \displaystyle \displaystyle \|x\|_{\infty} \stackrel{df}{=} \max_{1\le i\le N} |x_i|, \qquad x=(x_1,\ldots,x_N)\in\mathbb{R}^N \) (normamaksimowa).
Dowód faktu, że powyższe odwzorowania są normami, pozostawiamy na ćwiczenia (patrz ćwiczenie 3.1.). Nazwy powyższych norm nie są przypadkowe (patrz uwaga 3.4.).

Okazuje się, że każda przestrzeń unormowana jest w naturalny sposób przestrzenią metryczną. Mówi o tym następujące twierdzenie.

Twierdzenie 3.3.

Jeśli \( \displaystyle \displaystyle (X,\|\cdot\|) \) jest przestrzenią unormowaną, \( \displaystyle d\colon X\times X\longrightarrow\mathbb{R}_+ \) jest funkcją zadaną przez \( \displaystyle d(x,y)\stackrel{df}{=}\|x-y\|, \) to \( \displaystyle \displaystyle (X,d) \) jest przestrzenią metryczną.
Mówimy, że \( \displaystyle d \) jest metryką zadaną przez normę \( \displaystyle \displaystyle\|\cdot\|. \)

Dowód 3.3.

Załóżmy, że \( \displaystyle \displaystyle\|\cdot\| \) jest normą w \( \displaystyle X. \) Pokażemy, że odwzorowanie \( \displaystyle d\colon X\times X\longrightarrow\mathbb{R}_+ \) zadane przez \( \displaystyle d(x,y)\stackrel{df}{=}\|x-y\| \) jest metryką w \( \displaystyle X. \)
(1) Zauważmy, że dla dowolnych \( \displaystyle x,y\in X \):

\( \displaystyle d(x,y) \ =\ \|x-y\| \ \ge\ 0 \)

oraz

\( \displaystyle d(x,y)=0 \quad\Longleftrightarrow\quad \|x-y\|=0 \quad\Longleftrightarrow\quad x=y. \)

(2) Dla dowolnych \( \displaystyle x,y\in X \) mamy

\( \displaystyle d(x,y) \ =\ \|x-y\| \ =\ |-1|\|x-y\| \ =\ \|(-1)(x-y)\| \ =\ \|-x+y\| \ =\ \|y-x\| \ =\ d(y,x). \)

(3) Dla dowolnych \( \displaystyle x,y,z\in X \) mamy

\( \displaystyle d(x,y) \ =\ \|x-y\| \ =\ \|x-z+z-y\| \ \le\ \|x-z\|+\|z-y\| \ =\ d(x,z)+d(z,y), \)

a więc zachodzi warunek trójkąta dla \( \displaystyle d. \)

Pokazaliśmy zatem, że \( \displaystyle d \) jest metryką.

Uwaga 3.4.

(1) Z powyższego twierdzenia wynika, że każda norma zadaje metrykę.
(2) Nie każda metryka jest zadana przez normę (patrz wniosek 3.13.).
(3) Zbieżność w sensie metryki zadanej przez normę nazywamy zbieżnością silną lub zbieżnością w normie, to znaczy jeśli \( \displaystyle \displaystyle\{x_n\}\subseteq X \) jest ciągiem, to

\( \displaystyle x_n \ \stackrel{\|\cdot\|}{\longrightarrow} x \ \ \ \stackrel{df}{\Longleftrightarrow}\ \ \ \|x_n-x\| \ \longrightarrow\ 0. \)

(4) Normy: euklidesowa, taksówkowa, maksimowa, zdefiniowane w przykładzie 3.2., zadają odpowiednio metryki: euklidesową, taksówkową, maksimową (patrz ćwiczenie 3.2.).

W przypadku norm można rozważać ich równoważność.

Definicja 3.5.

Dwie normy \( \displaystyle \displaystyle\|\cdot\|_{a} \) i \( \displaystyle \displaystyle\|\cdot\|_{b} \) w przestrzeni unormowanej \( \displaystyle X \) nazywamy równoważnymi, jeśli

\( \displaystyle \exists m,M>0\ \ \forall x\in X:\ \ m\|x\|_{a} \ \le\ \|x\|_{b} \ \le\ M\|x\|_{a}. \)

Równoważność norm ma następujące własności.

Uwaga 3.6.

(1) Relacja równoważności norm jest relacją równoważnościową w zbiorze wszystkich norm na danej przestrzeni unormowanej.
(2) Normy: euklidesowa \( \displaystyle \displaystyle\|\cdot\|_2 \); maksimowa \( \displaystyle \displaystyle\|\cdot\|_{\infty} \) taksówkowa \( \displaystyle \displaystyle\|\cdot\|_1 \) są równoważne (będzie to pokazane na ćwiczeniach; patrz ćwiczenie 3.3.). Okazuje się, że w przestrzeniach wektorowych skończenie wymiarowych wszystkie normy są równoważne.

Twierdzenie 3.7.

Twierdzenie to podajemy tu bez dowodu. Wszystkie normy w \( \displaystyle \displaystyle\mathbb{R}^N \) są równoważne.

Kolejne twierdzenie mówi, że odwzorowanie normy \( \displaystyle \displaystyle\|\cdot\|\colon X\longrightarrow\mathbb{R}_+ \) jest ciągłe (oczywiście w przestrzeni \( \displaystyle X \) rozważamy metrykę zadaną przez normę, a w \( \displaystyle \displaystyle\mathbb{R} \) metrykę euklidesową).

Twierdzenie 3.8.

Wszystkie normy w \( \displaystyle \displaystyle\mathbb{R}^{N} \) są równoważne.

Twierdzenie 3.9. [ciągłość normy]

Norma jest funkcją ciągłą, to znaczy

\( \displaystyle \lim\limits_{n \to +\infty} x_n = x \ \ \ \Longrightarrow\ \ \ \lim\limits_{n \to+\infty}\|x_n\|=\|x\|. \)

W dowodzie powyższego twierdzenia wykorzystamy następujący lemat, będący wariantem nierówności trójkąta.

Lemat 3.9.

Jeśli \( \displaystyle X \) jest przestrzenią unormowaną, to

\( \displaystyle \forall x,y\in X:\ \big|\|x\|-\|y\|\big| \ \le\ \|x-y\|. \)

Dowód 3.9.

Korzystając z subaddytywności normy, dla dowolnych \( \displaystyle x,y\in X \) mamy

\( \displaystyle \|x\| \ =\ \|x+(-y)+y\| \ \le\ \|x-y\|+\|y\|, \)

czyli

\( \displaystyle \|x\|-\|y\| \ \le\ \|x-y\|. \) Analogicznie pokazujemy, że

\( \displaystyle \|y\|-\|x\| \ \le\ \|x-y\|. \)

Obie powyższe nierówności implikują nierówność w tezie lematu.

Dowód 3.8.

Warunek \( \displaystyle \displaystyle\lim\limits_{n \to +\infty} x_n = x \) oznacza, że

\( \displaystyle \lim\limits_{n \to +\infty} \|x_n-x\| \ =\ 0. \)

Ustalmy dowolne \( \displaystyle \displaystyle\varepsilon>0. \) Z powyższej równości wynika, że

\( \displaystyle \exists N\forall n\ge N:\ \|x_n-x\| \ \le\ \varepsilon. \)

Zatem dla \( \displaystyle n\ge N \) mamy

\( \displaystyle \big|\|x_n\|-\|x\|\big| \ \le\ \|x_n-x\| \ \le\ \varepsilon. \)

Zatem pokazaliśmy, że \( \displaystyle \displaystyle\|x_n\|\stackrel{\mathbb{R}}{\longrightarrow}\|x\|. \)

Uwaga 3.10.

(1) Implikacja odwrotna do implikacji w twierdzenieu 3.7. nie jest prawdziwa.
Aby to zobaczyć, rozważmy ciąg \( \displaystyle \displaystyle\{x_n\}\subseteq \mathbb{R} \) zadany przez \( \displaystyle x_n=(-1)^n. \) Wówczas

\( \displaystyle \|x_n\|_2 \ =\ 1 \ \longrightarrow\ 1, \)

ale sam ciąg \( \displaystyle \displaystyle\{x_n\} \) nie jest silnie zbieżny (dlaczego?)
(2) Jeżeli granicą ciągu \( \displaystyle \displaystyle\{x_n\} \) jest \( \displaystyle \displaystyle\Theta \) (wektor "zerowy" przestrzeni wektorowej), to implikację w twierdzenieu 3.7. można odwrócić, to znaczy zachodzi równoważność:

\( \displaystyle \lim\limits_{n \to +\infty} x_n = \Theta \ \ \ \Longleftrightarrow\ \ \ \lim\limits_{n \to +\infty}\|x_n\|=0 \)
(dowód pozostawiamy jako proste ćwiczenie).

W przestrzeniach wektorowych możemy mówić o wypukłości zbiorów.

Definicja 3.11.

Niech \( \displaystyle X \) będzie przestrzenią unormowaną oraz \( \displaystyle A\subseteq X. \)
(1) Jeśli \( \displaystyle x,y\in X, \) to odcinkiem w \( \displaystyle X \) łączącym punkty \( \displaystyle x \) i \( \displaystyle y \) nazywamy zbiór

\( \displaystyle [x,y] \ \stackrel{df}{=}\ \bigg\{z\in X:\ z=\lambda x+(1-\lambda)y:\ \ \lambda\in[0,1]\bigg\}. \)

(2) Mówimy, że zbiór \( \displaystyle A \) jest wypukły, jeśli

\( \displaystyle \forall x,y\in A:\ \ [x,y]\subseteq A. \)

wykres

Dowód 3.12.

Niech \( \displaystyle a\in X \) oraz \( \displaystyle r>0. \) Pokażemy, że kula \( \displaystyle K(a,r) \) jest zbiorem wypukłym. W tym celu wybierzmy dowolne \( \displaystyle x_1,x_2\in K(a,r). \) Z definicji kuli wynika, że

\( \displaystyle \|x_1-a\| < r,\quad \|x_2-a\| < r. \)

Niech \( \displaystyle x\in[x_1,x_2]. \) Należy pokazać, że \( \displaystyle x\in K(a,r). \) Z definicji odcinka w \( \displaystyle X \) wiemy, że

\( \displaystyle \exists \lambda\in[0,1]:\ x=\lambda x_1+(1-\lambda)x_2. \)

Zatem

\( \displaystyle \|x-a\| \ =\ \|\lambda x_1+(1-\lambda)x_2-a\| \ =\ \|\lambda(x_1-a)+(1-\lambda)(x_2-a)\| \ \le\ \lambda\|x_1-a\|+(1-\lambda)\|x_2-a\| \ < \ \lambda r+(1-\lambda)r \ =\ r. \)

Zatem pokazaliśmy, że \( \displaystyle x\in K(a,r). \) Dowód, że \( \displaystyle \overline{K}(a,r) \) jest zbiorem wypukłym, jest analogiczny.

Powyższe twierdzenie dostarcza nam pewnego warunku koniecznego na to, aby dana przestrzeń metryczna była zadana przez normę.
Wniosek 3.13.

Metryka kolejowa i metryka rzeka w \( \displaystyle \displaystyle\mathbb{R}^2 \) nie są zadane przez żadną normę, ponieważ kule w tych metrykach nie są zbiorami wypukłymi (patrz przykład 1.5. oraz przykład 1.6.).

wykresy x2

Przypomnijmy, że przestrzeń metryczną nazywamy zupełną, gdy każdy ciąg Cauchy'ego tej przestrzeni ma granicę (patrz definicja 2.10.). Wśród przestrzeni unormowanych szczególną rolę odgrywają przestrzenie unormowane zupełne.

rycina

Definicja 3.13. [przestrzeń Banacha]

Przestrzenią Banacha nazywamy przestrzeń unormowaną zupełną.

Przykład 3.14.

(1) \( \displaystyle \displaystyle\big(\mathbb{R}^N,\|\cdot\|_{2}\big) \) jest przestrzenią Banacha (patrz wniosek 2.21.).
(2) Przestrzeń \( \displaystyle C\big([a,b];\mathbb{R}\big) \) z normą \( \displaystyle \displaystyle\|f\|_{\infty}=\sup\limits_{x\in[a,b]}\big|f(x)\big| \) jest przestrzenią Banacha (patrz ćwiczenie 3.5.).

Przestrzenie unitarne

W przestrzeniach wektorowych możemy wprowadzić pojęcie iloczynu skalarnego. Dzięki niemu będziemy mogli mówić o prostopadłości wektorów. Okaże się, że przestrzenie z iloczynem skalarnym są także przestrzeniami unormowanymi z naturalnie wprowadzoną normą.

Definicja 3.15.

Niech \( \displaystyle X \) będzie rzeczywistą przestrzenią wektorową. Odwzorowanie \( \displaystyle \displaystyle (\cdot|\cdot)\colon X\times X\longrightarrow \mathbb{R} \) nazywamy iloczynem skalarnym w \( \displaystyle X, \) jeśli:
(1) \( \displaystyle \displaystyle\forall x\in X:\ \ \big[(x|x)\ge 0\big] \ \) i \( \displaystyle \ \big[ (x|x)=0 \ \Longleftrightarrow\ x=\Theta \big], \)
(2) \( \displaystyle \displaystyle\forall x,y\in X,\ \lambda\in\mathbb{R}:\ \ (\lambda x|y)=\lambda(x|y), \)
(3) \( \displaystyle \displaystyle\forall x,y,z\in X:\ \ (x+y|z)=(x|z)+(y|z), \)
(4) \( \displaystyle \displaystyle\forall x,y\in X:\ \ (x|y)=(y|x) \) (symetria).
Parę \( \displaystyle \displaystyle (X,(\cdot|\cdot)) \) nazywamy przestrzenią unitarną.

Uwaga 3.16.

(a) Warunki (2) i (3) mówią, że iloczyn skalarny jest liniowy ze względu na pierwszą zmienną.
(b) Ze względu na symetrię (4), iloczyn skalarny jest także liniowy ze względu na drugą zmienną, zatem jest on dwuliniowy.

Przykład 3.17

Odwzorowanie zdefiniowane przez

\( \displaystyle (x|y) \ \stackrel{df}{=}\ \displaystyle \sum_{i=1}^N x_iy_i \quad \) dla \( \displaystyle \ x=(x_1,\ldots,x_N),\ y=(y_1,\ldots,y_N)\in\mathbb{R}^N \)

jest iloczynem skalarnym w \( \displaystyle \displaystyle\mathbb{R}^N. \) Nazywamy go standardowym iloczynem skalarnym w \( \displaystyle \mathbb{R}^N \). Iloczyn ten znamy ze szkoły dla przestrzeni \( \displaystyle \mathbb{R}^2 \) i \( \displaystyle \mathbb{R}^3 \).

Sprawdzimy kolejno punkty definicji iloczynu skalarnego.
(1) Dla dowolnego \( \displaystyle x\in\mathbb{R}^N \) mamy

\( \displaystyle (x|x) \ =\ \sum_{n=1}^N x_i^2 \ \ge\ 0 \)

oraz

\( \displaystyle (x|x)=0 \ \Longleftrightarrow\ \sum_{n=1}^N x_i^2=0 \ \Longleftrightarrow\ x_1=\ldots=x_N \ \Longleftrightarrow\ x=\Theta. \)

(2) Dla dowolnych \( \displaystyle x,y\in\mathbb{R}^N \) oraz \( \displaystyle \lambda\in\mathbb{R} \) mamy

\( \displaystyle (\lambda x,y) \ =\ \sum_{n=1}^N \lambda x_iy_i \ =\ \lambda \sum_{n=1}^N x_iy_i \ =\ \lambda (x|y) \)

(3) Dla dowolnych \( \displaystyle x,y,z\in\mathbb{R}^N \) mamy

\( \displaystyle (x+y|z) \ =\ \sum_{n=1}^N (x_i+y_i)z_i \ =\ \sum_{n=1}^N(x_iz_i+y_iz_i) \ =\ \sum_{n=1}^N x_iz_i +\sum_{n=1}^Ny_iz_i \ =\ (x|z)+(y|z). \) (4) Dla dowolnych \( \displaystyle x,y\in\mathbb{R}^N \) mamy

\( \displaystyle (x|y) \ =\ \sum_{n=1}^N x_iy_i \ =\ \sum_{n=1}^N y_ix_i \ =\ (y|x). \)

Zatem pokazaliśmy, że odwzorowanie \( \displaystyle (x|y)=\displaystyle \sum_{i=1}^N x_iy_i \) jest iloczynem skalarnym w \( \displaystyle \mathbb{R}^N \).

Okazuje się, że przestrzeń z iloczynem skalarnym jest przestrzenią unormowaną.

Twierdzenie 3.18.

Jeśli \( \displaystyle \displaystyle (X,(\cdot|\cdot)) \) jest przestrzenią unitarną oraz \( \displaystyle \displaystyle\forall x\in X:\ \|x\|_{}\ \stackrel{df}{=}\ \sqrt{(x|x)} , \) to \( \displaystyle \displaystyle\|\cdot\|_{} \) jest normą w \( \displaystyle X. \)
Mówimy, że \( \displaystyle \displaystyle\|\cdot\|_{} \) jest normą zadaną przez iloczyn skalarny \( \displaystyle \displaystyle (\cdot|\cdot). \)

W dowodzie wykorzystamy następującą nierówność Schwarza, zachodzącą w przestrzeniach unitarnych.

Lemat 3.19. [nierówność Schwarza]

Jeśli \( \displaystyle \displaystyle (X,(\cdot|\cdot)) \) jest przestrzenią unitarną, to

\( \displaystyle \forall x,y\in X:\ \ |(x|y)|\le\|x\|\|y\|. \)

Dowód 3.20.

Ustalmy dowolne \( \displaystyle x,y\in X. \) Jeśli \( \displaystyle y=\Theta \) to powyższa nierówność jest oczywistą równością. Załóżmy, że \( \displaystyle y\ne \Theta. \) Niech \( \displaystyle \displaystyle \lambda=\frac{(x|y)}{(y|y)} \) Korzystając z dwuliniowości iloczynu skalarnego, mamy:

\( \displaystyle 0 \ \le\ (x-\lambda y|x-\lambda y) \ =\ (x|x)-2\lambda(x|y)+\lambda^2(y|y) \ =\ (x|x)-2\frac{(x|y)^2}{(y|y)} +\frac{(x|y)^2}{(y|y)} \)

\( \displaystyle =\ (x|x) -\frac{(x|y)^2}{(y|y)} \ =\ \|x\|-\frac{(x|y)^2}{\|y\|}. \)

Zatem mamy

\( \displaystyle \frac{(x|y)^2}{\|y\|^2} \ \le\ \|x\|^2, \)

skąd

\( \displaystyle (x|y)^2 \ \le\ \|x\|^2\cdot \|y\|^2, \)

a zatem

\( \displaystyle |(x|y)| \ \le\ \|x\|\cdot\|y\|, \)

co należało dowieść.

Uwaga 3.21.

Zauważmy, że nierówność Cauchy'ego (patrz lemat 3.8.) jest szczególnym przypadkiem nierówności Schwarza, gdy w przestrzeni \( \displaystyle \displaystyle\mathbb{R}^N \) mamy standardowy iloczyn skalarny.

Dowód 3.21.

(1)

\( \displaystyle \|x\|=0 \ \Longleftrightarrow\ (x|x)=0 \ \Longleftrightarrow x=\Theta, \)

a więc pierwszy warunek w definicji normy jest spełniony.
(2)

\( \displaystyle \|\lambda x\| \ =\ \sqrt{(\lambda x|\lambda x)} \ =\ \sqrt{\lambda^2}\sqrt{(x|x)} \ =\ |\lambda|\|x\|, \)

zatem drugi warunek (jednorodność) w definicji normy jest spełniony.
(3) Korzystając z nierówności Schwarza, mamy

\( \displaystyle \|x+y\|^2 \ =\ (x+y|x+y) \ =\ (x|x)+2(x|y)+(y|y) \ \le\ \|x\|^2+2\|x\|\cdot\|y\| +\|y^2\| \ =\ (\|x\|+\|y\|)^2, \)

a więc

\( \displaystyle \|x+y\| \ \le\ \|x\|+\|y\|. \) zatem trzeci warunek (subaddytywność) w definicji normy jest spełniony.

Przykład 3.22.

Iloczyn skalarny w \( \displaystyle \mathbb{R}^N \) dany wzorem (patrz przykład 3.17.)

\( \displaystyle (x|y) \ \stackrel{df}{=}\ \displaystyle \sum_{i=1}^N x_iy_i \quad \) dla \( \displaystyle \ x=(x_1,\ldots,x_N),\ y=(y_1,\ldots,y_N)\in\mathbb{R}^N \)

zadaje normę euklidesową, bo

\( \displaystyle \sqrt{(x|x)} \ =\ \sqrt{\displaystyle \sum_{i=1}^N x_i^2} \ =\ \|x\|_{2}. \)

Podobnie jak dla przestrzeni unormowanych, tak i dla przestrzeni unitarnych szczególną rolę odgrywają przestrzenie unitarne zupełne.

wykłady

Twierdzenie 3.24. [ciągłość iloczynu skalarnego]

Iloczyn skalarny w przestrzeni unitarnej jest funkcją ciągłą, to znaczy

\( \displaystyle \bigg[ x_n\stackrel{X}{\longrightarrow} x,\ y_n\stackrel{X}{\longrightarrow} y \bigg] \ \ \Longrightarrow\ \ \bigg[ (x_n|y_n) \ \stackrel{\mathbb{R}}{\longrightarrow}\ (x|y) \bigg] \)

(oczywiście zbieżność \( \displaystyle \displaystyle x_n\stackrel{X}{\longrightarrow} x \) oznacza zbieżność w normie zadanej przez iloczyn skalarny \( \displaystyle \displaystyle (\cdot|\cdot) \)).

Dowód 3.24. [dowód nadobowiązkowy]

Niech \( \displaystyle \displaystyle\{(x_n,y_n)\} \) będzie ciągiem takim, że \( \displaystyle \displaystyle x_n\stackrel{X}{\longrightarrow} x \) i \( \displaystyle \displaystyle y_n\stackrel{X}{\longrightarrow} y. \) Oznacza to, że

\( \displaystyle \|x_n-x\| \ \longrightarrow\ 0,\quad \|y_n-y\| \ \longrightarrow\ 0 \)

oraz z ciągłości normy (patrz twierdzenie 3.7.), mamy

\( \displaystyle \|x_n\|\longrightarrow \|x\|. \)

Korzystając z nierówności Schwarza, mamy

\( \displaystyle \big|(x_n|y_n)-(x|y)\big| \ =\ \big|(x_n|y_n)-(x_n|y)+(x_n|y)-(x|y)\big| \ \le\ \big|(x_n|y_n-y)+(x_n-x|y)\big| \)

\( \displaystyle \le\ \|x_n\|\cdot\|y_n-y\| +\|x_n-x\|\cdot\|y\|. \)

Z wyżej wskazanych zbieżności w \( \displaystyle \displaystyle\mathbb{R} \) wynika, że prawa strona nierówności, a zatem także lewa, zmierza do zera, gdy \( \displaystyle n \to +\infty. \) Oznacza to, że \( \displaystyle \displaystyle (x_n|y_n)\stackrel{\mathbb{R}}{\longrightarrow}(x|y), \) co należało dowieść.

W przestrzeni unitarnej możemy wprowadzić pojęcie prostopadłości wektorów.

wykres

Definicja 3.25.

Niech \( \displaystyle \displaystyle\big(X,(\cdot|\cdot)\big) \) będzie przestrzenią unitarną.

(1) Jeśli \( \displaystyle \displaystyle (x|y)=0, \) to mówimy, że wektory \( \displaystyle x \) i \( \displaystyle y \) są ortogonalne (lub prostopadłe) i piszemy \( \displaystyle x\perp y. \)

(2) Niech \( \displaystyle Y \) będzie podprzestrzenią wektorową \( \displaystyle X. \) Mówimy, że wektor \( \displaystyle x \) jest ortogonalny (prostopadły, normalny) do podprzestrzeni \( \displaystyle Y, \) jeśli

\( \displaystyle \forall y\in Y:\ x\perp y. \)

Piszemy \( \displaystyle x\perp Y. \)

(3) Mówimy, że wektory \( \displaystyle a_1,\ldots,a_k\in X \) tworzą układ ortogonalny, jeśli

\( \displaystyle (a_i|a_j)=0 \qquad\forall\ i\ne j. \)

(4) Mówimy, że wektory \( \displaystyle a_1,\ldots,a_k\in X \) tworzą układ ortonormalny, jeśli

\( \displaystyle \forall i,j:\ \ (a_i|a_j)=\delta_{ij} \ \stackrel{df}{=}\ \{ \begin{array} {ll} 1 & \quad i=j, \\ 0 & \quad i\ne j \end{array} . \)

(to znaczy wektory \( \displaystyle a_1,\ldots,a_k \) są parami ortogonalne oraz mają normę \( \displaystyle 1 \)).

Poniższe twierdzenie podamy tu bez dowodu.

wykres

Twierdzenie 3.26.

Każda przestrzeń unitarna skończenie wymiarowa posiada bazę ortonormalną (to znaczy bazę tworzącą układ ortonormalny).

Przykład 3.27.

Baza kanoniczna w \( \displaystyle \displaystyle\mathbb{R}^N \) jest bazą ortonormalną.

Twierdzenie 3.28. [warunek równoległoboku]

Jeśli \( \displaystyle \displaystyle\big(X,(\cdot|\cdot)\big) \) jest przestrzenią unitarną oraz \( \displaystyle \displaystyle\|\cdot\| \) jest normą zadaną przez iloczyn skalarny, to

\( \displaystyle \forall x,y\in X:\ \ \|x+y\|^{2} +\|x-y\|^{2} \ =\ 2\big(\|x\|^{2}+\|y\|^{2}\big). \)

Dowód 3.28.

Dla dowolnych ustalonych \( \displaystyle x,y\in X \) liczymy

\( \displaystyle \|x+y\|^2 \ =\ \|x\|^2+2(x|y)+\|y\|^2, \)

oraz

\( \displaystyle \|x-y\|^2 \ =\ \|x\|^2-2(x|y)+\|y\|^2. \)

Dodając stronami powyższe równości, dostajemy tezę twierdzenia.

Twierdzenie 3.29. [Twierdzenie Pitagorasa]

Jeśli \( \displaystyle \displaystyle\big(X,(\cdot|\cdot)\big) \) jest przestrzenią unitarną oraz \( \displaystyle \displaystyle\|\cdot\| \) jest normą zadaną przez iloczyn skalarny, to

\( \displaystyle \forall x,y\in X:\ \ \bigg[ x\perp y \ \ \Longleftrightarrow\ \ \|x+y\|^{2} = \|x\|^{2}+\|y\|^{2} \bigg]. \)

Dowód 3.29.

Dla dowolnych ustalonych \( \displaystyle x,y\in X \) liczymy

\( \displaystyle \|x+y\|^2 \ =\ \|x\|^2+2\underbrace{(x|y)}_{=0}+\|y\|^2 \ =\ \|x\|^2+\|y\|^2, \)

co należało dowieść.
Zauważmy, że gdy \( \displaystyle X=\mathbb{R}^2, \) to implikacja w prawą stronę w powyższym twierdzeniu \( \displaystyle (\Rightarrow) \), to znane ze szkoły twierdzenie Pitagorasa. Implikację \( \displaystyle (\Leftarrow) \), znamy ze szkoły, jako twierdzenie odwrotne do twierdzenia Pitagorasa.

Ciągi i szeregi funkcyjne. Szereg Taylora

W tym wykładzie wprowadzamy pojęcia ciągu i szeregu funkcyjnego. Rozważamy dwa rodzaje zbieżności ciągów i szeregów funkcyjnych: zbieżność punktową i jednostajną. Dowodzimy twierdzenie o ciągłości granicy jednostajnie zbieżnego ciągu funkcji ciągłych. Podajemy kryterium Weierstrassa jednostajnej zbieżności szeregu funkcyjnego. Na zakończenie wprowadzamy szereg Taylora funkcji o środku w danym punkcie (i w szczególności szereg Maclaurina).

Ten wykład jest pierwszym z dwóch wykładów poświęconych ciągom iszeregom funkcyjnym. Z szeregami liczbowymi spotkaliśmy się już na wykładzie z Analizy Matematycznej 1. Przypomnijmy, że liczbę \( \displaystyle e \) możemy otrzymać jako sumę szeregu \( \displaystyle \displaystyle \displaystyle \sum_{n=0}^{\infty}\frac{1}{n!} \). Okazuje się, że zachodzi ogólniejszy fakt

\( \displaystyle e^x \ =\ \displaystyle \sum_{n=0}^{\infty}\frac{x^n}{n!} \quad \) dla \( \displaystyle \ x\in\mathbb{R}. \)

Zapiszmy ten wzór tak

\( \displaystyle e^x \ =\ 1+\frac{x}{1!}+\frac{x^2}{2!}+\frac{x^3}{3!}+\frac{x^4}{4!}+\ldots. \)

Jeśli w powyższej sumie weźmiemy tylko skończoną ilość składników, to oczywiście nie dostaniemy dokładnie wartości \( \displaystyle e^x \), niemniej dostaniemy dobre jej przybliżenie. Pozwala to nam policzyć np. \( \displaystyle \displaystyle \sqrt{e}=e^{\frac{1}{2}} \) dość dokładnie jako sumę

\( \displaystyle 1+\frac{\frac{1}{2}}{1!}+\frac{\frac{1}{4}}{2!}+\frac{\frac{1}{8}}{3!}+\ldots +\frac{\frac{1}{2^n}}{n!} \)

(gdzie zwiększając liczbę składników, zwiększamy dokładność).

Na wykładzie zobaczymy, że wiele funkcji (przy odpowiednich założeniach) można zapisać jako sumę szeregu \( \displaystyle \displaystyle f(x)=\displaystyle \sum_{n=0}^{\infty} f_n(x) \), gdzie funkcje \( \displaystyle f_n \) są na przykład jednomianami (czyli są postaci \( \displaystyle a_nx^n \) jak w powyższym przykładzie z \( \displaystyle e^x \)) albo są funkcjami trygonometrycznymi (patrz szeregi Fouriera). Da nam to możliwość przybliżania funkcji \( \displaystyle f \) przez sumę początkowych wyrazów szeregu.

Przy odpowiednich założeniach będziemy też mogli powiedzieć, czy funkcja \( \displaystyle f \) dana jako suma szeregu jest ciągła, różniczkowalna, czy też klasy \( \displaystyle C^{\infty} \).

Ciągi funkcyjne

wykresy

Wykresy funkcji \( f_n(x)=x^n \) dla \( n=1,2,3,... \) oraz funkcji granicznej \( f \)

Wykresy funkcji \( f_n(x)=x^n \) dla \( n=1,2,3,... \) oraz funkcji granicznej \( f \)

Definicja 4.1.

Niech \( \displaystyle X\ne\emptyset \) będzie dowolnym zbiorem oraz niech \( \displaystyle (Y,\varrho) \) będzie przestrzenią metryczną. Niech \( \displaystyle \displaystyle f\colon X\longrightarrow Y \) oraz \( \displaystyle f_n\colon X\longrightarrow Y \) będą funkcjami dla \( \displaystyle n\in\mathbb{N} \).

(1) Mówimy, że ciąg \( \displaystyle \{f_n\} \) jest zbieżny punktowo do funkcji \( \displaystyle f \) i piszemy \( \displaystyle \displaystyle \lim\limits_{n \to +\infty} f_n=f \) lub \( \displaystyle f_n\longrightarrow f \), jeśli

\( \displaystyle \forall x\in X:\ \ \lim\limits_{n \to +\infty} f_n(x) \ =\ f(x), \)

co z kolei (z definicji granicy ciągu w przestrzeniach metrycznych; patrz Analiza matematyczna 1 definicja 2.2.) oznacza, że

\( \displaystyle \forall x\in X\ \ \forall \varepsilon>0\ \ \exists N\in\mathbb{N}\ \ \forall n\ge N:\ \ \varrho\big(f_n(x),f(x)\big) \ < \ \varepsilon. \)

(2) Mówimy, że ciąg \( \displaystyle \{f_n\} \) jest zbieżny jednostajnie do funkcji \( \displaystyle f \) na zbiorze \( \displaystyle X \) i piszemy \( \displaystyle f_n ⇉ f, \) jeśli

\( \displaystyle \forall \varepsilon>0\ \ \exists N\in \mathbb{N}\ \ \forall n\ge N\ \ \forall x\in X:\ \ \varrho\big(f_n(x),f(x)\big) \ < \ \varepsilon. \)

Zauważmy, że definicje zbieżności punktowej i jednostajnej różnią się tylko kolejnością kwantyfikatorów. W definicji zbieżności punktowej \( \displaystyle N \) dobierane do \( \displaystyle \varepsilon>0 \) może zmieniać się w zależności od punktu \( \displaystyle x \). Natomiast w definicji zbieżności jednostajnej \( \displaystyle N \) dobrane do \( \displaystyle \varepsilon>0 \) nie zależy od \( \displaystyle x \). Zatem oczywiste jest następujące twierdzenie.

Twierdzenie 4.2.

Jeśli \( \displaystyle X\ne\emptyset \) jest dowolnym zbiorem, \( \displaystyle (Y,\varrho) \) przestrzenią metryczną, \( \displaystyle \displaystyle f\colon X\longrightarrow Y \) oraz \( \displaystyle f_n\colon X\longrightarrow Y \) funkcjami dla \( \displaystyle n\in\mathbb{N} \), to

\( \displaystyle \bigg[ f_n ⇉ f \ \ \ \Longrightarrow\ \ \ f_n \ \longrightarrow\ f \bigg]. \)

Uwaga 4.3.

Z powyższego twierdzenia wynika w szczególności, że jeśli ciąg funkcyjny \( \displaystyle \{f_n\} \) ma granicę punktową \( \displaystyle f \), to jeśli jest on jednostajnie zbieżny do pewnej funkcji \( \displaystyle g \), to \( \displaystyle f=g \). Innymi słowy jeśli ciąg \( \displaystyle \{f_n\} \) ma granicę punktową \( \displaystyle f \), to jedynym "kandydatem" na granicę jednostajną jest też funkcja \( \displaystyle f \). Będzie to bardzo przydatne do badania jednostajnej zbieżności, gdyż na ogół znacznie łatwiej jest wyznaczyć granicę punktową niż granicę jednostajną. Natomiast znajomość granicy punktowej ułatwia badanie zbieżności jednostajnej (patrz uwaga poniżej).

Uwaga 4.4.

Nie jest prawdziwa implikacja odwrotna do implikacji w twierdzeniu 4.2. (czyli zbieżność punktowa nie implikuje zbieżności jednostajnej).
Aby to zobaczyć, rozważmy ciąg funkcji \( \displaystyle \{f_n\colon [0,1]\longrightarrow \mathbb{R}\} \) zdefiniowanych przez

\( \displaystyle f_n(x) \ =\ x^n \quad \) dla \( \displaystyle \ x\in [0,1]. \)

Wyrźnie widać, że ciąg ten jest zbieżny punktowo do funkcji

\( \displaystyle f(x) \ =\ \left\{ \begin{array} {lll} 0 & \textrm{dla} \displaystyle & x\in[0,1), \\ 1 & \textrm{dla} \displaystyle & x=1. \end{array} \right . \)

Pokażemy, że ciąg ten nie jest zbieżny jednostajnie do funkcji \( \displaystyle f \). Dla dowodu niewprost przypuśćmy, że

\( \displaystyle \forall \varepsilon>0\ \exists N\in\mathbb{N}\ \forall n\ge N\ \forall x\in[0,1]:\ \big|f_n(x)-f(x)\big| \ < \ \varepsilon. \)

Weźmy teraz \( \displaystyle \displaystyle\varepsilon=\frac{1}{3} \). Z naszej hipotezy wynika, że

\( \displaystyle \exists N_1\in\mathbb{N}\ \forall n \ge N_1\ \forall x\in[0,1]:\ \big|f_n(x)-f(x)\big| \ < \ \varepsilon \ =\ \frac{1}{3}. \)

Ale ponieważ \( \displaystyle f_{N_1}(x)=x^{N_1}\longrightarrow 1 \), gdy \( \displaystyle x \to 1 \), zatem

\( \displaystyle \exists x_0\in (0,1):\ \big|f_{N_1}(x_0)-1\big| \ < \ \frac{1}{3}. \)

Zatem

\( \displaystyle \begin{align*} \big|f_{N_1}(x_0)-\underbrace{f(x_0)}_{=0}\big| & = \big|f_{N_1}(x_0)-0\big| \ =\ \big|f_{N_1}(x_0)-1+1-0\big| \ \ge\ \big|1-0\big|-\big|f_{N_1}(x_0)-1\big| \\ & = 1-\big|f_{N_1}(x_0)-1\big| \ >\ 1-\frac{1}{3} \ =\ \frac{2}{3} \ >\ \varepsilon \ =\ \frac{1}{3}, \end{align*} \)

co daje sprzeczność z wyborem \( \displaystyle N_1 \).

Uwaga 4.5.

Zobrazujmy teraz co oznacza zbieżność jednostajna \( \displaystyle f_n ⇉ f \). Otóż warunek z definicji jednostajnej zbieżności oznacza, że jeśli weźmiemy "epsilonowe otoczenie wykresu funkcji \( \displaystyle f \)", to dla odpowiednio dużych \( \displaystyle n\ge N \) wykresy wszystkich funkcji \( \displaystyle f_n \) będą w tym otoczeniu.
Na pierwszym rysunku mamy ciąg funkcji \( \displaystyle f_n(x)=x^n \) dla \( \displaystyle x\in[0,1] \). Żadna z tych funkcji nie zawiera się w epsilonowym otoczeniu wykresu funkcji granicznej (patrz uwaga 4.4.)
Z kolei poniższy rysunek przedstawia ciąg funkcji \( \displaystyle \displaystyle f_n(x)=\frac{1}{n}x \) dla \( \displaystyle x\in[0,1] \). Tutaj widać, że dla dowolnie małego \( \displaystyle \varepsilon>0 \), wszystkie funkcje począwszy od pewnego \( \displaystyle N\in\mathbb{N} \) znajdą się w pasie \( \displaystyle \mathbb{R}\times (-\varepsilon,\varepsilon) \), który jest otoczeniem funkcji granicznej \( \displaystyle f\equiv 0 \).

wykres

Kolejne twierdzenie podaje ciekawą własność granicy jednostajnie zbieżnego ciągu funkcji ciągłych. Twierdzenie to ułatwi nam w niektórych przypadkach wykluczenie jednostajnej zbieżności ciągów funkcyjnych (patrz uwaga 4.4. i 4.7.).

Twierdzenie 4.6. [ciągłość granicy jednostajnie zbieżnego ciągu funkcji ciągłych]

Jeśli \( \displaystyle (X,d_X)\displaystyle (Y,d_Y) \) są przestrzeniami metrycznymi, \( \displaystyle \displaystyle f\colon X\longrightarrow Y \) oraz \( \displaystyle f_n\colon X\longrightarrow Y \) są funkcjami dla \( \displaystyle n\in\mathbb{N} \), \( \displaystyle x_0\in X \) oraz \( \displaystyle f_n ⇉ f,\displaystyle {} \)
to
(1) jeśli funkcje \( \displaystyle f_n \) są ciągłe w punkcie \( \displaystyle x_0 \), to \( \displaystyle f \) jest funkcją ciągłą w punkcie \( \displaystyle x_0 \);
(2) jeśli funkcje \( \displaystyle f_n \) są ciągłe, to \( \displaystyle f \) jest funkcją ciągłą.

Dowód 4.6.

(Ad (1)) Załóżmy, że funkcje \( \displaystyle f_n \) są ciągłe w punkcie \( \displaystyle x_0\in X \).
Ustalmy dowolne \( \displaystyle \varepsilon>0 \). Ponieważ \( \displaystyle f_n ⇉ f, \) zatem

\( \displaystyle \exists N\in\mathbb{N}\ \forall n\ge N\ \forall x\in X:\ d_Y\big(f_n(x),f(x)\big) \ < \ \frac{\varepsilon}{3}, \)

w szczególności

\( \displaystyle \forall n\ge N:\ d_Y\big(f_n(x_0),f(x_0)\big) \ < \ \frac{\varepsilon}{3}. \)

Ponieważ funkcja \( \displaystyle f_N \) jest ciągła w punkcie \( \displaystyle x_0 \), więc

\( \displaystyle \exists \delta>0\ \forall x\in X:\ \big[d_X(x,x_0) < \delta \Longrightarrow d_Y\big(f_N(x),f_N(x_0)\big) \ < \ \frac{\varepsilon}{3}\big]. \)

Niech teraz \( \displaystyle x\in X \) będzie taki, że \( \displaystyle d_X(x,x_0) < \delta \). Wówczas, korzystając z nierówności trójkąta oraz trzech powyższych nierówności, mamy

\( \begin{array}{lll} \displaystyle d_Y\big(f(x),f(x_0)\big) & \le & \displaystyle d_Y\big(f(x),f_N(x)\big) +d_Y\big(f_N(x),f_N(x_0)\big) \\ & + & \displaystyle d_Y\big(f_N(x_0),f(x_0)\big) < 3\cdot\frac{\varepsilon}{3} \ =\ \varepsilon, \end{array} \)

zatem pokazaliśmy, że

\( \displaystyle \forall\varepsilon>0\ \exists \delta>0:\ \big[d_X(x,x_0) < \delta \Longrightarrow d_Y\big(f(x),f(x_0)\big) \ < \ \varepsilon\big], \)

a to oznacza ciągłość funkcji \( \displaystyle f \) w punkcie \( \displaystyle x_0 \).
(Ad (2)) Od razu wynika z (1).

Uwaga 4.7.

Ponieważ ciąg funkcyjny rozważany w uwadze 4.4. składał się z funkcji ciągłych oraz miał granicę nieciągłą, więc od razu z powyższego twierdzenia możemy wnioskować, że nie jest on jednostajnie zbieżny.

Kolejne twierdzenie mówi, że dla jednostajnie zbieżnego ciągu funkcji \( \displaystyle \{f_n\} \), to samo dają dwie następujące operacje:
(1) obliczenie granicy \( \displaystyle f \) ciągu funkcyjnego \( \displaystyle \{f_n\} \), a następnie obliczenie granicy funkcji granicznej \( \displaystyle f \) w punkcie \( \displaystyle x_0 \) oraz
(2) obliczenie granic poszczególnych funkcji ciągu \( \displaystyle \{f_n\} \) w punkcie \( \displaystyle x_0 \), a następnie przejście do granicy z tak otrzymanym ciągiem liczbowym granic.
Zachodzi zatem następujący wzór:

\( \displaystyle \lim_{x \to a}\lim\limits_{n \to +\infty} f_n(x) \ =\ \lim\limits_{n \to +\infty}\lim_{x \to a} f_n(x). \)

Zwróćmy uwagę, że każdy z symboli "\( \displaystyle \lim \)" po lewej i prawej stronie oznacza co innego (raz jest to granica ciągu liczbowego, a raz granica funkcji w punkcie). Formalne sformułowanie powyższego wzoru wraz ze wszystkimi założeniami potrzebnymi do jego zachodzenia podane jest w poniższym twierdzeniu (który pozostawiamy tu bez dowodu).

Twierdzenie 4.8.

Jeśli \( \displaystyle (X,d_X)\displaystyle (Y,d_Y) \) są przestrzeniami metrycznymi, przy czym przestrzeń \( \displaystyle (Y,d_Y) \) jest zupełna, \( \displaystyle A\subseteq X \), \( \displaystyle \displaystyle f\colon A\longrightarrow Y \) oraz \( \displaystyle f_n\colon A\longrightarrow Y \) są funkcjami dla \( \displaystyle n\in\mathbb{N} \), \( \displaystyle f_n ⇉ f,\displaystyle a \) jest punktem skupienia zbioru \( \displaystyle A \) oraz

\( \displaystyle \forall n\in\mathbb{N}\ \ \exists\lim_{x \to a}f_n(x)=b_n, \)

to
(1) ciąg \( \displaystyle \{b_n\} \) jest zbieżny;
(2) \( \displaystyle \displaystyle \lim_{x \to a}f(x)=\lim\limits_{n \to +\infty} b_n \).

Szeregi funkcyjne

Definicja 4.9.

Niech \( \displaystyle A \) będzie dowolnym zbiorem oraz niech \( \displaystyle f_n\colon A\longrightarrow\mathbb{R} \) będą funkcjami dla \( \displaystyle n\in\mathbb{N} \).

Szeregiem \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) (lub \( \displaystyle f_1+f_2+\ldots \)) nazywamy ciąg (tzw. ciąg sum częściowych) \( \displaystyle \{F_n\} \), gdzie \( \displaystyle F_n=\displaystyle \sum_{i=0}^n f_i \), to znaczy \( \displaystyle F_n\colon A\longrightarrow\mathbb{R} \), \( \displaystyle F_n(x)=\displaystyle \sum_{i=0}^n f_i(x) \) dla \( \displaystyle x\in A \).

Mówimy, że szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest zbieżny (punktowo) na \( \displaystyle A \) do sumy \( \displaystyle \displaystyle f\colon A\longrightarrow\mathbb{R} \), jeśli

\( \displaystyle F_n\ \longrightarrow\ f \quad( \) punktowo, to znaczy \( \displaystyle \ F_n(x)\longrightarrow f(x) \ \) dla \( \displaystyle \ x\in A). \)

Wówczas piszemy \( \displaystyle \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n=f \).

Mówimy, że szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest zbieżny jednostajnie na \( \displaystyle A \) do sumy \( \displaystyle f \), jeśli \( \displaystyle F_n ⇉ f. \)

Twierdzenie 4.10.

Jeśli \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest szeregiem funkcyjnym, to

\( \displaystyle \bigg[ \) szereg \( \displaystyle \ \displaystyle \sum_{n=1}^{\infty} f_n\ \) jestzbieżny \( \displaystyle \bigg] \ \ \Longleftrightarrow\ \ \bigg[\forall x\in A:\ \) szeregliczbowy \( \displaystyle \ \displaystyle \sum_{n=1}^{\infty} f_n(x) \ \) jestzbieżny \( \displaystyle \bigg]. \)

Dowód 4.10.

Wynika to wprost z definicji zbieżności szeregu funkcyjnego.

Przypomnijmy, że zbieżność szeregu liczbowego jest równoważna temu, iżjego ciąg sum częściowych spełnia warunek Cauchy'ego (patrz Analiza matematyczna 1 twierdzenie 6.7.). Podobnie jest dla szeregów funkcyjnych.

Twierdzenie 4.11.

Jeśli \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest szeregiem funkcyjnym, to szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest jednostajnie zbieżny wtedy i tylko wtedy, gdy szereg spełnia warunek Cauchy'ego, to znaczy

\( \begin{array}{l}\displaystyle & \forall \varepsilon>0\ \exists N\in\mathbb{N}\ \forall n,m\in\mathbb{N}\ \forall x\in A: \\ & \displaystyle\bigg[ \big(m>n>N\big)\ \Longrightarrow\ \big(\big|f_{n+1}(x)+\ldots+f_m(x)\big| < \varepsilon\big) \bigg]. \end{array} \)

Dowód 4.11.

"\( \displaystyle \Longrightarrow \)"

Załóżmy, że szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \) jest jednostajnie zbieżny do funkcji \( \displaystyle f \) i oznaczmy przez \( \displaystyle F_n \) ciąg sum częściowych tego szeregu. Ustalmy dowolne \( \displaystyle \varepsilon>0 \). Z definicji jednostajnej zbieżności ciągu \( \displaystyle \{F_n\} \) wynika, że

\( \displaystyle \exists N\in\mathbb{N}\ \forall n\ge N\ \forall x\in A:\ \big|F_n(x)-f(x)\big| \ < \ \frac{\varepsilon}{2}. \)

Zatem dla \( \displaystyle m>n>N \) mamy

\( \begin{array}{lll} \displaystyle \big|F_m(x)-F_n(x)\big| & = & \displaystyle \big|F_m(x)-f(x)+f(x)-F_n(x)\big| \\ & \le & \displaystyle |F_m(x)-f(x)\big|+\big|F_n(x)-f(x)\big| < 2\cdot\frac{\varepsilon}{2} \ =\ \varepsilon. \end{array} \)

A zatem szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \) spełnia warunek Cauchy'ego.

"\( \displaystyle \Longleftarrow \)"

Załóżmy teraz, że szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \) spełnia warunek Cauchy'ego. Po pierwsze zauważmy, że wówczas dla dowolnego \( \displaystyle x\in A \) szereg liczbowy \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n(x) \) spełnia warunek Cauchy'ego dla szeregów liczbowych, a zatem jest zbieżny (patrz Analiza matematyczna 1 twierdzenie 6.7.) punktowo, powiedzmy do funkcji \( \displaystyle f \), to znaczy \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n(x)=f(x) \) dla \( \displaystyle x\in A \). Pokażemy, że szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \) jest zbieżny do \( \displaystyle f \) jednostajnie.

Niech \( \displaystyle \{F_n\} \) ponownie oznacza ciąg sum częściowych tego szeregu. Ustalmy dowolne \( \displaystyle \varepsilon>0 \). Z warunku Cauchy'ego wiemy, że

\( \begin{array}{lll} \displaystyle & \exists N\in\mathbb{N}\ \forall n,m\in\mathbb{N}\ \forall x\in A: \\ & \bigg[ \big(m>n>N\big)\ \Longrightarrow\ \big(\big|f_{n+1}(x)+\ldots+f_m(x)\big| < \varepsilon\big) \bigg], \end{array} \)

a to oznacza, że dla \( \displaystyle m>n>N \) oraz \( \displaystyle x\in A \) mamy

\( \displaystyle \big|F_m(x)-F_n(x)\big| \ < \ \varepsilon. \)

Przejdźmy w powyższej nierówności do granicy z \( \displaystyle m \to +\infty \) (przy ustalonych \( \displaystyle x\in A \) i \( \displaystyle n>N \)). Dostajemy

\( \displaystyle \forall x\in A\ \forall n>N:\ \big|f(x)-F_n(x)\big| \ \le\ \varepsilon. \)

A zatem ciąg \( \displaystyle F_n ⇉ f \), czyli szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \) jest jednostajnie zbieżny do \( \displaystyle f \), co należało dowieść.

Analogicznie jak w przypadku ciągów funkcyjnych, zbieżność jednostajna szeregów implikuje zbieżność punktową. Dowód pozostawiamy jako proste ćwiczenie.

Twierdzenie 4.12. [Zbieżność a jednostajna zbieżność]

Jeśli \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest szeregiem funkcyjnym jednostajnie zbieżnym do sumy \( \displaystyle f \), to \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n=f \) (to znaczy szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest zbieżny (punktowo) do sumy \( \displaystyle f \)).

Analogicznie do twierdzenia dotyczącego ciągów, dla szeregów także mamy ciągłość granicy jednostajnie zbieżnego szeregu funkcji ciągłych.

Twierdzenie 4.13. [Ciągłość granicy jednostajnie zbieżnego szeregu funkcji ciągłych]

Jeśli \( \displaystyle A\subseteq\mathbb{R} \), \( \displaystyle x_0\in A \), \( \displaystyle f_n\colon A\longrightarrow\mathbb{R} \) są funkcjami dla \( \displaystyle n\in \mathbb{N} \) oraz szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest jednostajnie zbieżny do sumy \( \displaystyle \displaystyle f\colon A\longrightarrow\mathbb{R} \), to

(1) jeśli funkcje \( \displaystyle f_n \) są ciągłe w punkcie \( \displaystyle x_0 \) dla każdego \( \displaystyle n\in\mathbb{N} \), to \( \displaystyle f \) jest funkcją ciągłą w \( \displaystyle x_0 \);

(2) jeśli funkcje \( \displaystyle f_n \) są ciągłe dla każdego \( \displaystyle n\in\mathbb{N} \), to \( \displaystyle f \) jest funkcją ciągłą.

Dowód 4.13.

(Ad (1)) Załóżmy, że funkcje \( \displaystyle f_n \) są ciągłe w punkcie \( \displaystyle x_0 \) dla każdego \( \displaystyle n\in\mathbb{N} \). Zatem także sumy częściowe \( \displaystyle F_n=f_1+f_2+\ldots+f_n \) są ciągłe w punkcie \( \displaystyle x_0 \) (patrz Analiza matematyczna 1 twierdzenie 8.9.). Zatem z twierdzenia 4.6. wnioskujemy, że granica \( \displaystyle f=\lim\limits_{n \to +\infty} F_n \) (która istnieje z założenia) jest funkcją ciągłą.

(Ad (2)) Wynika wprost z (1).

Dla szeregów zachodzi twierdzenie analogiczne do twierdzenia 4.8. Jeśli policzymy granicę sumy szeregu jednostajnie zbieżnego w punkcie, to otrzymamy to samo co licząc granice w punkcie dla poszczególnych wyrazów szeregu funkcyjnego, a następnie licząc sumę tak otrzymanego szeregu liczbowego. Innymi słowy, w szeregu jednostajnie zbieżnym \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) można przejść do granicy w punkcie "wyraz po wyrazie", to znaczy

\( \displaystyle \lim_{x \to a}\displaystyle \sum_{n=1}^{\infty} f_n(x) \ =\ \displaystyle \sum_{n=1}^{\infty}\lim_{x \to a} f_n(x). \)

Dokładne sformułowanie podane jest poniżej. Twierdzenie to możemy łatwo wykazać opierając się na twierdzenia 4.8. zastosowanym do ciągu sum częściowych szeregu.

Twierdzenie 4.14.

Jeśli \( \displaystyle A\subseteq\mathbb{R} \), \( \displaystyle a \) jest punktem skupienia zbioru \( \displaystyle A \), \( \displaystyle f_n\colon A\longrightarrow\mathbb{R} \) są funkcjami dla \( \displaystyle n\in\mathbb{N} \), szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n \) jest jednostajnie zbieżny oraz

\( \displaystyle \forall n\in\mathbb{N}:\ \exists \lim_{x \to a}f_n(x)\ =\ c_n\in\mathbb{R}, \)

to

(1) \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} c_n \) jest szeregiem liczbowym zbieżnym;

(2) istnieje granica \( \displaystyle \displaystyle \lim_{x \to a}f(x) \) oraz \( \displaystyle \displaystyle \lim_{x \to a}f(x)=\displaystyle \sum_{n=1}^{\infty} c_n \).

Dla szeregów funkcyjnych podamy jedno kryterium zbieżności. Jest ono odpowiednikiem kryterium porównawczego dla szeregów liczbowych. Mówi ono, że jeśli wyrazy szeregu funkcyjnego są wspólnie ograniczone przez wyrazy szeregu liczbowego zbieżnego, to szereg ten jest jednostajnie zbieżny. Zauważmy, że kryterium to ma dość silne założenie wspólnej ograniczoności, ale za to w tezie dostajemy nie tylko zbieżność (punktową), ale aż zbieżność jednostajną.

ryciny

Twierdzenie 4.15. [Kryterium Weierstrassa]

Jeśli \( \displaystyle f_n\colon A\longrightarrow\mathbb{R} \) są funkcjami dla \( \displaystyle n\in\mathbb{N} \), szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} a_n \) jest zbieżny oraz \( \displaystyle \forall n\in\mathbb{N},\ x\in A:\ \big|f_n(x)\big|\le a_n \), to szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \) jest jednostajnie zbieżny na \( \displaystyle A \).

Dowód 4.15.

Na mocy twierdzenia 4.11. wiemy, że wystarczy pokazać zachodzenie warunku Cauchy'ego dla szeregu funkcyjnego \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \). W tym celu ustalmy dowolne \( \displaystyle \varepsilon>0 \). Ponieważ szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} a_n \) jest zbieżny, więc spełnia warunek Cauchy'ego zbieżności szeregów liczbowych (patrz Analiza matematyczna 1 twierdzenie 6.7.), zatem

\( \displaystyle \exists N\in\mathbb{N}\ \forall m>n>N:\ a_{n+1}+\ldots+a_m < \varepsilon. \)

Zatem dla \( \displaystyle m>n>N \) oraz dla dowolnego \( \displaystyle x\in A \) mamy

\( \displaystyle \big| f_{n+1}(x)+\ldots+f_m(x) \big| \ \le\ \big| f_{n+1}(x) \big| +\ldots+ \big| f_m(x) \big| \ \le\ a_{n+1}+\ldots+ a_m\ < \ \varepsilon. \)

Zatem pokazaliśmy, że szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \) spełnia warunek Cauchy'ego zbieżności szeregów, a więcjest jednostajnie zbieżny.

W kolejnym przykładzie wykorzystamy kryterium Weierstrassa do zbadania zbieżności (jednostajnej) szeregu funkcyjnego.

Przykład 4.16.

Udowodnić zbieżność następującego szeregu funkcyjnego \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty}\frac{nx}{1+n^5 x^2} \). Pokazać, że suma jest funkcją ciągłą na \( \displaystyle \displaystyle\mathbb{R} \).

Aby skorzystać z kryterium Weierstrassa zbieżności szeregów, należy pokazać, że wyrazy szeregu \( \displaystyle \displaystyle f_n(x)=\frac{nx}{1+n^5x^2} \) są ograniczone przez wyrazy pewnego zbieżnego szeregu liczbowego. Wyznaczmy ekstrema funkcji \( \displaystyle f_n \). Obliczamy pochodne:

\( \displaystyle f_n'(x) \ =\ \frac{n\cdot(1+n^5x^2)-nx\cdot 2n^5x}{(1+n^2x^2)^2} \ =\ \frac{n(1-n^5x^2)}{(1+n^2x^2)^2} \qquad\forall\ n\ge 1. < ;/math> < /center> Z warunku koniecznego istnienia ekstremum (zauważmy, że funkcje < math>\displaystyle f_n \) są klasy \( \displaystyle C^{\infty} \)) otrzymujemy

<center>\( \displaystyle f_n'(x) \ =\ 0 \quad\Longleftrightarrow\quad x \ =\ \pm \frac{1}{n^{\frac{5}{2}}} \qquad\forall\ n\ge 1. \)

Zauważając ponadto, że \( \displaystyle \displaystyle\lim_{n \to \pm\infty} f_n(x)=0 \), stwierdzamy, że funkcja \( \displaystyle f_n \) ma ekstrema globalne w punktach \( \displaystyle \displaystyle\pm\frac{1}{n^{\frac{5}{2}}} \). Zatem

\( \displaystyle \sup_{x\in\mathbb{R}}\big|f_n(x)\big| \ \le\ |f_n(\pm\frac{1}{n^{\frac{5}{2}}})| \ =\ \frac{1}{2n^{\frac{3}{2}}} \qquad\forall\ n\ge 1. \)

Ponieważ szereg \( \displaystyle \displaystyle\sum_{n=1}^{\infty}\frac{1}{2n^{\frac{3}{2}}} \) jest zbieżny (jako uogólniony szereg harmoniczny z wykładnikiem \( \displaystyle \displaystyle\alpha=\frac{3}{2}>1 \); patrz Analiza matematyczna 1 przykład 6.15.), zatem wyjściowy szereg funkcyjny jest zbieżny (i to bezwzględnie) dla każdego \( \displaystyle x\in\mathbb{R} \) oraz z kryterium Weierstrassa (patrz twierdzenie 4.15.) jest zbieżny jednostajnie w \( \displaystyle \mathbb{R} \).

Korzystając z twierdzenia o ciągłości granicy jednostajnie zbieżnego szeregu funkcji ciągłych (patrz twierdzenie 4.13.), otrzymujemy, że funkcja będąca sumą badanego szeregu jest ciągła.

wykresy

Kryterium Weierstrassa dostarcza warunku wystarczającego, ale nie koniecznego zbieżności szeregów funkcyjnych. Zostanie to pokazane w kolejnym przykładzie.

Przykład 4.17.

Pokazać jednostajną zbieżność szeregu \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty} f_n(x) \) na przedziale \( \displaystyle [0,1] \), gdzie

\( \displaystyle f_n(x) \ =\ \left\{ \begin{array} {lll} 0 & \displaystyle \quad \textrm{dla} \displaystyle & \displaystyle x\in\left[0,\frac{1}{2^{n+1}}\right], \\ \\ \displaystyle \frac{1}{n}\sin^2\big(2^{n+1}\pi x\big) & \quad \textrm{dla} \displaystyle & \displaystyle x\in\left(\frac{1}{2^{n+1}},\frac{1}{2^n}\right), \\ \\ \displaystyle 0 & \quad \textrm{dla} \displaystyle & \displaystyle x\in\left[\frac{1}{2^n},1\right]. \\ \end{array} \right. \)

Należy zauważyć, że nie są spełnione założenia kryterium Weierstrassa.

Oznaczmy przez \( \displaystyle \{F_n\} \) ciąg sum częściowych szeregu \( \displaystyle \displaystyle \sum_{n=1}^{\infty} f_n \). Ponieważ przedziały \( \displaystyle \displaystyle\bigg(\frac{1}{2^{n+1}},\frac{1}{2^n}\bigg) \) są parami rozłączne, więc

\( \displaystyle F_n(x) \ =\ \left\{ \begin{array} {lll} 0 & \displaystyle \quad \textrm{dla} \displaystyle & \displaystyle x\in\left[0,\frac{1}{2^{n+1}}\right], \\ \\ \displaystyle \frac{1}{k}\sin^2\big(2^{k+1}\pi x\big) & \quad \textrm{dla} \displaystyle & \displaystyle x\in\left(\frac{1}{2^{k+1}},\frac{1}{2^k}\right), \ k=1,\ldots,n, \\ \\ 0 & \quad \textrm{dla} \displaystyle & \displaystyle x\in\left[\frac{1}{2},1\right]. \\ \end{array} \right. \)

Zatem

\( \displaystyle F \ =\ \lim\limits_{n \to +\infty} F_n(x) \ =\ \left\{ \begin{array} {lll} 0 & \quad \textrm{dla} \displaystyle & x=0, \\ \\ \displaystyle \frac{1}{k}\sin^2\big(2^{k+1}\pi x\big) & \quad \textrm{dla} \displaystyle & \displaystyle x\in\left(\frac{1}{2^{k+1}},\frac{1}{2^k}\right), \ k=1,2,\ldots, \\ \\ 0 & \displaystyle \quad \textrm{dla} \displaystyle & \displaystyle x\in\left[\frac{1}{2},1\right]. \\ \end{array} \right. \)

Ponieważ funkcje \( \displaystyle \displaystyle x\longmapsto \frac{1}{k}\sin^2\big(2^{k+1}\pi x\big) \) na przedziale \( \displaystyle \displaystyle \bigg(\frac{1}{2^{k+1}},\frac{1}{2^k}\bigg) \) są dodatnie i przyjmują maximum w środku tego przedziału wynoszące \( \displaystyle \displaystyle\frac{1}{k} \), zatem

\( \displaystyle \sup_{x\in[0,1]} \big|F(x)-F_n(x)\big| \ =\ \frac{1}{n+1} \xrightarrow[n \to +\infty]{} 0, \)

więc \( \displaystyle F_n ⇉ F \) na \( \displaystyle [0,1] \), co należało pokazać.
Zauważmy ponadto, że

\( \displaystyle \sup_{x\in[0,1]}\big|f_n(x)\big| \ =\ \frac{1}{n} \)

oraz każdy szereg \( \displaystyle \displaystyle \sum_{n=1}^{\infty} c_n \) taki, że \( \displaystyle \displaystyle c_n\ge\frac{1}{n} \), jest rozbieżny z kryterium porównawczego (patrz Analiza matematyczna 1 twierdzenie 6.9.). Zatem założenia twierdzenia Weierstrassa nie są spełnione.

Szereg Taylora

Na początek przypomnijmy twierdzenie o wzorze Taylora (patrz Analiza matematyczna 1 twierdzenie 10.9.).

Twierdzenie 4.18. [Wzór Taylora z resztą Lagrange'a]

Jeśli \( \displaystyle I\subseteq \mathbb{R} \) jest przedziałem, \( \displaystyle f\colon\ I\longrightarrow\mathbb{R} \) jest funkcją \( \displaystyle (n+1) \)-krotnie różniczkowalną, \( \displaystyle a\in\mathrm{int}\, I \), to

\( \displaystyle \% \forall x\in I\ \exists\vartheta\in(0,1):\ f(x)= f(a) +\frac{1}{1!}f'(a)(x-a) +\frac{1}{2!}f''(a)(x-a)^2 +\ldots +\frac{1}{n!}f^{(n)}(a)(x-a)^n +R_n(x), \)

gdzie

\( \displaystyle R_n(x) \ =\ \frac{1}{(n+1)!}f^{(n+1)}\big(a+\vartheta(x-a)\big)(x-a)^{(n+1)}. \)

Niech \( \displaystyle I\subseteq\mathbb{R} \) oraz niech \( \displaystyle f\in C^{\infty}(I) \). Niech \( \displaystyle a\in\mathrm{int}\, I \).
Możemy rozważać szereg

\( \displaystyle \displaystyle \sum_{n=1}^{\infty} \frac{1}{n!}f^{(n)}(a)(x-a)^n, \)

zwany szeregiem Taylora funkcji \( \displaystyle f \) o środku w punkcie \( \displaystyle a \) (umowa \( \displaystyle f^{(0)}(x)=f(x) \)).
W szczególności dla \( \displaystyle a=0\in\mathrm{int}\, I \) mamy

\( \displaystyle \displaystyle \sum_{n=1}^{\infty} \frac{1}{n!} f^{(n)}(0)x^n, \)

wykres i rycina

zwany szeregiem Maclaurina.

Z twierdzenia 4.18. (o wzorze Taylora) wynika, że warunkiem koniecznym i wystarczającym na to, by szereg Taylora był zbieżny, jest aby \( \displaystyle R_n\longrightarrow 0 \), gdzie \( \displaystyle R_n \) oznacza resztę Lagrange'a we wzorze Taylora.

Twierdzenie 4.19.

Szeregi Maclaurina funkcji: \( \displaystyle e^x \), \( \displaystyle \sin x \) oraz \( \displaystyle \cos x \) są zbieżne w \( \displaystyle \mathbb{R} \), a ich sumy równe są tym funkcjom. Mówimy krótko, że funkcje te są "równe" swoim szeregom Maclaurina, czyli dla \( \displaystyle x\in\mathbb{R} \) mamy

\( \displaystyle e^x \ =\ \displaystyle \sum_{n=0}^{\infty} \frac{x^n}{n!}, \)

\( \displaystyle \sin x \ =\ \frac{x}{1!}-\frac{x^3}{3!}+\frac{x^5}{5!}-\ldots \ =\ \displaystyle \sum_{n=1}^{\infty} (-1)^n\frac{x^{2n+1}}{(2n+1)!}, \)

\( \displaystyle \cos x \ =\ 1-\frac{x^2}{2!}+\frac{x^4}{4!}-\ldots \ =\ \displaystyle \sum_{n=1}^{\infty} (-1)^n\frac{x^{2n}}{(2n)!}. \)

Dowód 4.19.

Ponieważ wszystkie pochodne funkcji \( \displaystyle f(x)=e^x \) wynoszą \( \displaystyle f^{(n)}(x)=e^x \) dla \( \displaystyle n\in\mathbb{N} \), zatem wzór Maclaurina tej funkcji ma postać:

\( \displaystyle e^x \ =\ \displaystyle \sum_{k=0}^n\frac{x^k}{k!} +R_n(x), \)

gdzie \( \displaystyle \displaystyle R_n(x)=\frac{e^y}{(n+1)!}y^{n+1} \) dla pewnego \( \displaystyle y\in [0,x] \) (lub \( \displaystyle y\in [x,0] \), gdy \( \displaystyle x < 0 \)). Zatem

\( \displaystyle \bigg|e^x - \displaystyle \sum_{k=0}^n\frac{x^k}{k!}\bigg| =\big| R_n(x) \big|. \)

Aby pokazać zbieżność szeregu Maclaurina \( \displaystyle \displaystyle \displaystyle \sum_{k=0}^{\infty} \frac{x^k}{k!} \) do funkcji \( \displaystyle f(x)=e^x \), należy wykazać, że ciąg reszt \( \displaystyle \{R_n(x)\} \) zmierza do zera (dla dowolnego \( \displaystyle x\in\mathbb{R} \)). Mamy

\( \displaystyle \big|R_n(x)\big| \ =\ \bigg| \frac{e^y}{(n+1)!}y^{n+1} \bigg| \ \le\ \frac{e^{|x|}}{(n+1)!}|x|^{n+1}. \)

Ostatnie wyrażenie przy dowolnym ustalonym \( \displaystyle x\in\mathbb{R} \) zmierza do \( \displaystyle 0 \) gdy \( \displaystyle narrow+\infty \). A zatem \( \displaystyle \displaystyle e^x=\displaystyle \sum_{k=0}^{\infty}\frac{x^k}{k!} \)

Dowód dla dwóch pozostałych funkcji jest analogiczny.

wykres

Uwaga 4.20.

Nie zawsze jednak suma szeregu Taylora funkcji klasy \( \displaystyle C^{\infty} \) jest równa tej funkcji. Przykładem takiej funkcji jest

\( \displaystyle f(x) \ =\ \left\{ \begin{array} {lll} e^{-\frac{1}{x^2}} & \textrm{dla} \displaystyle & x\ne 0, \\ 0 & \textrm{dla} \displaystyle & x=0, \end{array} \right. \)

Aby to pokazać, należy obliczyć pochodne funkcji \( \displaystyle f \) w \( \displaystyle 0 \) (z definicji). Przy liczeniu granicy ilorazu różnicowego wykorzystać regułę de l'Hospitala oraz indukcję matematyczną.

Funkcje, które w pewnym otoczeniu punktu \( \displaystyle x_0 \) są równe sumie swojego szereg Taylora o środku w \( \displaystyle x_0 \) nazywamy analitycznymi.

Szereg potęgowy. Trygonometryczny szereg Fouriera

Szereg potęgowy. Trygonometryczny szereg Fouriera



W tym wykładzie zajmujemy się najpierw szeregami potęgowymi. Definiujemy promień zbieżności i podajemy efektywny wzór na jego wyliczenie. Na przykładach badamy przedział zbieżności szeregu potęgowego. Podajemy twierdzenie mówiące o ciągłości sumy szeregu potęgowego oraz o różniczkowaniu szeregu potęgowego wyraz po wyrazie. Następnie zajmujemy się szeregami Fouriera. Podajemy definicję i wzory Eulera-Fouriera na współczynniki tego szeregu, jak też kryterium Dirichleta mówiące o jego zbieżności.

Szeregi potęgowe

Wśród szeregów funkcyjnych szczególną rolę odgrywają szeregi potęgowe, to znaczy szeregi, których wyrazy są jednomianami kolejnych stopni. Przykładem szeregu potęgowego jest szereg Taylora funkcji klasy \( \displaystyle C^{\infty} \).

Definicja 5.1.

Szeregiem potęgowym o środku w punkcie \( \displaystyle x_0\in\mathbb{R} \) i współrzędnych \( \displaystyle c_n\in\mathbb{R} \) (\( \displaystyle n\in\mathbb{N} \)) nazywamy szereg funkcyjny postaci

\( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_n(x-x_0)^n \)

(umowa: \( \displaystyle (x-x_0)^0=1 \) nawet dla \( \displaystyle x=x_0 \)).

Uwaga 5.2.

(1) Gdy \( \displaystyle x_0=0 \), to mamy szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_nx^n \).

(2) Szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_n(x-x_0)^n \) jest zawsze zbieżny w swoim środku, to znaczy dla \( \displaystyle x=x_0 \), bo wtedy dostajemy szereg zerowy.

(3) Dla wygody będziemy w dalszym wykładzie zakładali, że środek \( \displaystyle x_0=0 \), ale wszystkie twierdzenia można łatwo przenieść na przypadek, gdy środkiem jest dowolne \( \displaystyle x_0\in\mathbb{R} \).

Zacznijmy od kilku prostych obserwacji dotyczących szeregów potęgowych.

Twierdzenie 5.3.

Jeśli szereg \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest zbieżny dla pewnego \( \displaystyle x_1\ne0 \), to jest:

(1) bezwzględnie zbieżny dla dowolnego \( \displaystyle |x| < |x_1| \);

(2) zbieżny jednostajnie na każdym przedziale \( \displaystyle (-r,r) \), gdzie \( \displaystyle r < |x_1| \).

Dowód 5.3. [nadobowiązkowy]

Zbieżność szeregu \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) dla \( \displaystyle x_1 \) oznacza zbieżność szeregu liczbowego \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx_1^n \), a to z kolei implikuje, że

\( \displaystyle \lim\limits_{n \to +\infty} c_nx_1^n \ =\ 0 \)

(patrz warunek konieczny zbieżności szeregów liczbowych; Analiza matematyczna 1 twierdzenie 6.3. W szczególności ciąg \( \displaystyle \{c_nx_1^n\} \) jest ograniczony, to znaczy

\( \displaystyle \exists M\in\mathbb{R}\ \forall n\in\mathbb{N}:\ \big|c_nx_1^n\big|\le M. \)

Przystąpimy teraz do dowodu (1) i (2).

(Ad (1)) Niech \( \displaystyle x \) będzie takie, że \( \displaystyle |x| < |x_1| \). Wówczas

\( \displaystyle \big|c_nx^n\big| \ =\ \bigg|c_nx_1^n\cdot\frac{x^n}{x_1^n}\bigg| \ =\ \bigg|\frac{x}{x_1}\bigg|^n\big|c_n x_1^n\big| \ \le\ Mq^n, \)

gdzie \( \displaystyle \displaystyle q=\bigg|\frac{x}{x_1}\bigg| < 1 \). Możemy zatem zastosować kryterium porównawcze zbieżności szeregów (patrz Analiza matematyczna 1 twierdzenie 6.9.), z którego wynika, że szereg \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest bezwzględnie zbieżny.

(Ad (2)) Niech \( \displaystyle r < |x_1| \). Wówczas dla dowolnego \( \displaystyle x \) takiego, że \( \displaystyle |x| < r \) mamy

rycina

\( \displaystyle \big|c_nx^n\big| \ =\ \bigg|c_nx_1^n\cdot\frac{x^n}{x_1}\bigg| \ \le\ Mq^n, \)

gdzie \( \displaystyle \displaystyle q=\frac{r}{|x_1|} < 1 \) (zauważmy, że \( \displaystyle q \) nie jest zależne od \( \displaystyle x \)). Korzystając z kryterium Weierstrassa zbieżności szeregów funkcyjnych (patrz twierdzenie 4.15.), wnioskujemy, że szereg \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest zbieżny jednostajnie w przedziale \( \displaystyle (-r,r) \).

Definicja 5.4.

Promieniem zbieżności szeregu potęgowego \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_nx^n \) nazywamy kres górny zbioru modułów wszystkich liczb \( \displaystyle x \), dla których szereg ten jest zbieżny.

Uwaga 5.5.

Z twierdzenia 5.3. (1) wynika, że jeśli \( \displaystyle R \) jest promieniem zbieżności szeregu \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_nx^n \), to szereg ten jest zbieżny (i to bezwzględnie) w przedziale \( \displaystyle (-R,R) \) oraz jest rozbieżny dla \( \displaystyle |x|>R \). Tłumaczy to nazwę "promień zbieżności". Nic nie wiemy natomiast o zbieżności dla \( \displaystyle x=R \) i \( \displaystyle x=-R \). W każdej jednak sytuacji obszarem zbieżności szeregu potęgowego jest przedział w \( \displaystyle \mathbb{R} \).

Przykład 5.6.

Zbadać zbieżność szeregów:

(1) \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} x^n \);

(2) \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty}\frac{x^n}{n!} \);

(3) \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} n^nx^n \).

(Ad (1)) Jest to znany nam szereg geometryczny. Jest on zbieżny dla \( \displaystyle |x| < 1 \) oraz rozbieżny dla \( \displaystyle |x|\ge 1 \) (gdyż dla \( \displaystyle |x|\ge 1 \) nie spełnia warunku koniecznego zbieżności szeregów; patrz Analiza matematyczna 1 twierdzenie 6.3.).
Zatem przedziałem zbieżności szeregu jest \( \displaystyle (-1,1) \).

(Ad (2)) Jest to znany nam szereg Maclaurina dla funkcji \( \displaystyle f(x)=e^x \) (patrz twierdzenie 4.19.). Promień zbieżności wynosi \( \displaystyle R=+\infty \), a obszarem zbieżności jest \( \displaystyle \mathbb{R} \).

(Ad (3)) Szereg ten jest zbieżny tylko dla \( \displaystyle x=0 \). Dla \( \displaystyle x\ne 0 \) nie spełnia on warunku koniecznego zbieżności szeregów. Zatem promieniem zbieżności jest \( \displaystyle R=0 \), a obszarem zbieżności

jest \( \displaystyle \{0\} \).

Kolejne twierdzenie podaje efektywny wzór na liczenie promienia zbieżności szeregu potęgowego.

Twierdzenie 5.7.

Jeśli \( \displaystyle R \) jest promieniem zbieżności szeregu \( \displaystyle \sum_{n=0}^{\infty} c_nx^n \) oraz \( \displaystyle \kappa=\limsup\limits_{n \to +\infty}\sqrt[n]{|c_n|} \),

to

\( \displaystyle R \ =\ \left\{ \begin{array} {ll} \displaystyle \frac{1}{\kappa} & \quad \textrm{jeśli} \displaystyle \ 0 < \kappa < +\infty, \\ +\infty & \quad \textrm{jeśli} \displaystyle \ \kappa=0, \\ 0 & \quad \textrm{jeśli} \displaystyle \ \kappa=+\infty. \end{array} \right. \)

Dowód 5.7.

Przy ustalonym \( \displaystyle x\in\mathbb{R} \), zbadajmy zbieżność szeregu liczbowego \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \), korzystając z kryterium Cauchy'ego (patrz Analiza matematyczna 1 twierdzenie 7.4.). Dla \( \displaystyle x\ne 0 \), mamy:

\( \displaystyle \limsup\limits_{n \to +\infty}\sqrt[n]{|c_nx^n|} \ =\ \left\{ \begin{array} {lll} \kappa|x| & \textrm{gdy} \displaystyle & \kappa < +\infty, \\ +\infty & \textrm{gdy} \displaystyle & \kappa=+\infty. \end{array} \right . \)

Przypadek 1. Gdy \( \displaystyle \kappa\in(0,+\infty) \), to z kryterium Cauchy'ego (patrz Analiza matematyczna 1 twierdzenie 7.4.) wynika, że szereg \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest zbieżny (bezwzględnie) dla \( \displaystyle \displaystyle |x| < \frac{1}{\kappa} \) i rozbieżny dla \( \displaystyle \displaystyle |x|>\frac{1}{\kappa} \). Zatem \( \displaystyle \displaystyle R=\frac{1}{\kappa} \).

Przypadek 2. Gdy \( \displaystyle \kappa=0 \), to z kryterium Cauchy'ego wynika, że szereg \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest zbieżny (bezwzględnie) dla \( \displaystyle x\in\mathbb{R} \). Zatem \( \displaystyle R=+\infty \).

Przypadek 3. Gdy \( \displaystyle \kappa=+\infty \), to z kryterium Cauchy'ego wynika, że szereg \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest zbieżny tylko dla \( \displaystyle x=0 \). Zatem \( \displaystyle R=0 \).

Przykład 5.8.

Wyznacz przedziały zbieżności szeregów:

(1) \( \displaystyle \displaystyle\displaystyle \sum_{n=1}^{\infty}\frac{1}{n}(x-2)^n \);

(2) \( \displaystyle \displaystyle\displaystyle \sum_{n=2}^{\infty}(-1)^n\frac{(x+1)^n}{n\ln^2n} \).

(Ad (1)) Korzystamy z twierdzenia 5.7. Mamy

\( \displaystyle \kappa \ =\ \limsup\limits_{n \to +\infty}\sqrt[n]{\frac{1}{n}} \ =\ 1. \)

Zatem promień zbieżności wynosi \( \displaystyle \displaystyle R=\frac{1}{\kappa}=1 \), czyli szereg jest zbieżny w przedziale \( \displaystyle (2-1,2+1)=(1,3) \) (zauważ, że środkiem szeregu jest tutaj \( \displaystyle 2 \)) oraz jest rozbieżny dla \( \displaystyle x\in(-\infty,1)\cup (3,+\infty) \). Należy jeszcze zbadać zbieżność dla \( \displaystyle x=1 \) i dla \( \displaystyle x=3 \).

Dla \( \displaystyle x=1 \) mamy szereg \( \displaystyle \displaystyle \displaystyle \sum_{n=1}^{\infty} \frac{(-1)^n}{n} \), który jest zbieżny (wynika to z kryterium Leibniza; patrz Analiza matematyczna 1 wniosek 7.13 i przykład 7.14.; jest to znany nam szereg anharmoniczny).

Dla \( \displaystyle x=3 \) dostajemy szereg harmoniczny \( \displaystyle \displaystyle \displaystyle \sum_{n=1}^{\infty}\frac{1}{n} \), który jest rozbieżny (patrz przykład 6.14.).

Zatem przedziałem zbieżności szeregu jest \( \displaystyle [1,3) \).

(Ad (2)) Liczymy

\( \displaystyle \kappa \ =\ \limsup\limits_{n \to +\infty}\sqrt[n]{\frac{1}{n\ln^2n}}. \)

Oszacujmy wyrazy powyższego ciągu następująco:

\( \displaystyle \sqrt[n]{\frac{1}{n^3}} \ \le\ \frac{1}{n\ln^2n} \ \le\ \sqrt[n]{\frac{1}{n}}. \)

Ponieważ ciągi po lewej i po prawej stronie mają granicę \( \displaystyle 1 \), zatem z twierdzenia o trzech ciągach (patrz Analiza matematyczna 1 twierdzenie 4.11.) wnioskujemy, że \( \displaystyle \kappa=1 \). Zatem promień zbieżności wynosi \( \displaystyle \displaystyle R=\frac{1}{\kappa}=1 \), czyli szereg jest zbieżny w przedziale \( \displaystyle (-1-1,-1+2)=(-2,0) \) (zauważ, że środkiem szeregu jest tutaj \( \displaystyle -1 \)) oraz jest rozbieżny dla \( \displaystyle x\in(-\infty,-2)\cup (0,+\infty) \). Należy jeszcze zbadań zbieżność dla \( \displaystyle x=-2 \) i dla \( \displaystyle x=0 \).

Dla \( \displaystyle x=-2 \) dostajemy szereg \( \displaystyle \displaystyle \sum_{n=2}^{\infty}\frac{1}{n\ln^2n} \), który jest zbieżny (można to pokazać, korzystając z kryterium całkowego, patrz Analiza matematyczna 1 przykład 14.27.).

Dla \( \displaystyle x=0 \) mamy szereg \( \displaystyle \displaystyle\sum_{n=2}^{\infty}\frac{(-1)^n}{n\ln^2n} \), który jest zbieżny (wynika to z kryterium Leibniza; patrz Analiza matematyczna 1 wniosek 7.13. lub też z faktu, że jest on bezwzględnie zbieżny, gdyż powyżej zbadaliśmy zbieżność szeregu modułów jego wyrazów).

Zatem przedziałem zbieżności szeregu jest \( \displaystyle [-2,0] \).

Wyrazy szeregu potęgowego (jednomiany \( \displaystyle c_nx^n \)) są funkcjami klasy \( \displaystyle C^{\infty} \). Interesującym jest pytanie o regularność sumy szeregu potęgowego, to znaczy, czy funkcja \( \displaystyle S(x)=\displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest ciągła, różniczkowalna, klasy \( \displaystyle C^1 \), klasy \( \displaystyle C^{\infty} \)? Pierwsze z poniższych twierdzeń mówi, że suma szeregu jest funkcją ciągłą wewnątrz przedziału zbieżności.

wykres

Twierdzenie 5.9.

Suma szeregu potęgowego \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest funkcją ciągłą w przedziale \( \displaystyle (-R,R) \), gdzie \( \displaystyle R>0 \) jest promieniem zbieżności tego szeregu.

Niech \( \displaystyle R>0 \) będzie promieniem zbieżności szeregu \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) (gdy \( \displaystyle R=0 \), teza jest pusto spełniona). Niech \( \displaystyle x\in(-R,R) \). Z własności zbioru liczb rzeczywistych wynika, że

\( \displaystyle \exists r\in\mathbb{R}:\ |x| \ < \ r \ < \ R. \)

Z twierdzenia 5.3. (2) wynika, że szereg \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest jednostajnie zbieżny w \( \displaystyle (-r,r) \). Ponieważ funkcje \( \displaystyle f_n(x)=c_nx^n \) są ciągłe, więc korzystając z twierdzenia 4.13., dostajemy, że suma tego szeregu jest także funkcją ciągłą w \( \displaystyle x \). Ponieważ punkt \( \displaystyle x\in(-R,R) \) był dowolnie wybrany, więc suma szeregu jest funkcją ciągłą w przedziale \( \displaystyle (-R,R) \).

Kolejne twierdzenie mówi, że wewnątrz przedziału zbieżności suma szeregu potęgowego jest nie tylko ciągła, ale także różniczkowalna oraz pochodna sumy szeregu jest sumą szeregu pochodnych wyrazów szeregu wyjściowego. Dowód tego twierdzenia pomijamy.

Twierdzenie 5.10. [o różniczkowaniu szeregu potęgowego wyraz po wyrazie]]

Suma szeregu potęgowego \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_nx^n \) jest funkcją różniczkowalną w każdym punkcie przedziału \( \displaystyle (-R,R) \), gdzie \( \displaystyle R>0 \) jest promieniem zbieżności tego szeregu, a pochodna tej sumy wyraża się wzorem

\( \displaystyle f'(x) \ =\ \displaystyle \sum_{n=0}^{\infty} (n+1)c_{n+1}x^n \qquad\forall\ x\in (-R,R). \)

W szczególności szereg \( \displaystyle \displaystyle \displaystyle \sum_{n=0}^{\infty} (n+1)c_{n+1}x^n \) ma ten sam promień zbieżności co wyjściowy szereg \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_nx^n \).

Uwaga 5.11.

Z powyższego twierdzenia wynika, że pochodna sumy szeregu potęgowego jest też sumą pewnego szeregu potęgowego oraz że jest ona funkcją ciągłą. Zatem suma szeregu potęgowego jest funkcją klasy \( \displaystyle C^1 \). To samo możemy zastosować do pochodnej, itd. Zatem suma szeregu potęgowego jest funkcją klasy \( \displaystyle C^{\infty} \).

Przykład 5.12.

Korzystając z twierdzenia 5.10. oraz ze znajomości szeregów Maclaurina dla funkcji \( \displaystyle e^x \), \( \displaystyle \sin x \) i \( \displaystyle \cos x \) oblicz pochodne tych funkcji.

(1) Ponieważ

\( \displaystyle e^x \ =\ \displaystyle \sum_{n=0}^{\infty}\frac{x^n}{n!} \qquad\forall\ x\in\mathbb{R}, \)

(patrz twierdzenie 4.19.), zatem

\( \displaystyle (e^x)' \ =\ \displaystyle \sum_{n=0}^{\infty}(\frac{x^n}{n!})' \ =\ \displaystyle \sum_{n=1}^{\infty}\frac{x^{n-1}}{(n-1)!} \ =\ \displaystyle \sum_{n=0}^{\infty}\frac{x^n}{n!} \ =\ e^x. \)

(2) Ponieważ

\( \displaystyle \sin x \ =\ \displaystyle \sum_{n=0}^{\infty} (-1)^n\frac{x^{2n+1}}{(2n+1)!} \qquad\forall\ x\in\mathbb{R}, \)

zatem

\( \displaystyle (\sin x)' \ =\ \displaystyle \sum_{n=0}^{\infty} (-1)^n\frac{(2n+1)x^{2n}}{(2n+1)!} \ =\ \displaystyle \displaystyle \sum_{n=0}^{\infty}(-1)^n\frac{x^{2n}}{(2n)!} \ =\ \cos x. \)

(3) Ponieważ

\( \displaystyle \cos x \ =\ \displaystyle \sum_{n=0}^{\infty} (-1)^n\frac{x^{2n}}{(2n)!} \qquad\forall\ x\in\mathbb{R}, \)

zatem

\( \displaystyle \begin{align*} (\cos x)' & = \sum_{n=1}^{\infty} (-1)^n\frac{2nx^{2n-1}}{(2n)!} \ =\ \sum_{n=1}^{\infty} (-1)^n\frac{x^{2n-1}}{(2n-1)!} \ =\ \displaystyle \sum_{n=0}^{\infty} (-1)^{n+1}\frac{x^{2n+1}}{(2n+1)!} \\ & = -\displaystyle \sum_{n=0}^{\infty} (-1)^{n}\frac{x^{2n+1}}{(2n+1)!} \ =\ -\sin x. \end{align*} \)

Wiemy już, że każdy szereg Taylora jest szeregiem potęgowym. Zadamy teraz pytanie odwrotne. Weźmy dowolny szereg potęgowy \( \displaystyle \displaystyle \sum_{n=0}^{\infty} c_nx^n \). Czy szereg ten jest szeregiem Taylora pewnej funkcji? Mówi o tym poniższa uwaga.

Uwaga 5.13.

Rozważmy szereg potęgowy \( \displaystyle \displaystyle\displaystyle \sum_{n=0}^{\infty} c_n(x-x_0)^n \). Niech \( \displaystyle R \) będzie promieniem zbieżności tego szeregu.

Wiemy, że szereg ten jest zbieżny dla \( \displaystyle x \) takich, że \( \displaystyle |x-x_0| < R \) oraz jest rozbieżny dla \( \displaystyle x \) takich, że \( \displaystyle |x-x_0|>R \).

Jeśli \( \displaystyle R>0 \), to funkcja

\( \displaystyle f(x) \ =\ \displaystyle \sum_{n=0}^{\infty} c_n(x-x_0)^n \qquad \) dla \( \displaystyle \ x\in(x_0-R,x_0+R) \)

jest klasy \( \displaystyle C^{\infty} \) na przedziale \( \displaystyle \big(x_0-R,x_0+R\big) \) (patrz uwaga 5.11.) oraz

\( \displaystyle \begin{align*} f'(x) & = \displaystyle \displaystyle \sum_{n=0}^{\infty} (n+1)c_{n+1}(x-x_0)^n, \\ \vdots & & \\ f^{(k)}(x) & = \displaystyle \displaystyle \sum_{n=0}^{\infty} (n+k)\cdot\ldots\cdot(n+1)c_{n+k}(x-x_0)^n. \end{align*} \)

Wstawiając \( \displaystyle x=x_0 \), dostajemy

\( \displaystyle f^{(k)}(x_0) \ =\ k!c_k, \)

czyli

\( \displaystyle c_n \ =\ \frac{f^{(n)}(x_0)}{n!} \qquad \) dla \( \displaystyle \ n\in\mathbb{N} \)

ale to są dokładnie współczynniki we wzorze Taylora. Zatem:
(1) Szereg potęgowy jest szeregiem Taylora swojej sumy wewnątrz obszaru zbieżności.
(2) Przedstawienie danej funkcji w szereg potęgowy jest jednoznaczne i tym szeregiem jest szereg Taylora.

Szeregi trygonometryczne Fouriera

wykres i rycina

Przypomnijmy, że funkcję \( \displaystyle f: \mathbb{R}\to\mathbb{R} \) nazywamy okresową, jeśli istnieje liczba \( \displaystyle T>0 \) taka, że dla wszystkich \( \displaystyle x\in R \)

\( \displaystyle f(x+T)=f(x). \)

Przykład 5.14.

Funkcjami okresowymi są na przykład funkcje sinus i cosinus. Patrz rysunek obok.

Innym przykładem funkcji okresowej jest mantysa, czyli funkcja \( \displaystyle m(x):=x-[x] \) (patrz rysunek poniżej).

Funkcję okresową możemy także otrzymać, biorąc na przykład następującą sumę:

\( \displaystyle f(x) \ =\ \sin(x)+\frac{1}{2}\sin(2x)+\frac{1}{2}\sin(3x). \)

Ogólnie, zauważmy, że biorąc skończoną sumę

\( \displaystyle s(x)=\sum_{j=1}^n a_j\cos{jx}+b_j\sin{jx}, \)

ze stałymi (rzeczywistymi) współczynnikami \( \displaystyle a_j \) i \( \displaystyle b_j \), dostaniemy funkcję okresową.

wykres

\( \displaystyle m(x)=x-[x] \)

\( \displaystyle f(x)= \sin(x)+\frac{1}{2}\sin(2x)+\frac{1}{2}\sin(3x) \)

Problem:
Można zatem zadać sobie pytanie: czy biorąc dowolną funkcję okresowa, możemy ją przedstawić w postaci takiej sumy jak powyżej?

Okazuje się, że jest to dla dużej ilości funkcji możliwe, jeśli zamiast sum skończonych będziemy rozważać sumy nieskończone, czyli szeregi.

Konstrukcja:
Weźmy zatem funkcję okresową \( \displaystyle f:\mathbb{R}\to\mathbb{R} \). Załóżmy, że ma ona okres \( \displaystyle 2\pi \), i że na przedziale \( \displaystyle [-\pi,\pi] \) funkcja jest całkowalna.

Przykłady funkcji spełniających te założenia są na rysunku poniżej:

wykresy

Funkcja okresowa o okresie \( 2\pi \)

Funkcja okresowa o okresie \( 2\pi \)

Przypuśćmy teraz, że możemy zapisać \( \displaystyle f \) jako sumę szeregu zbieżnego jednostajnie, z pewnymi stałymi współczynnikami \( \displaystyle a_n \) i \( \displaystyle b_n \):

\( \displaystyle (★) \quad\quad f(x)=a_0+\sum_{n=1}^{\infty}a_n\cos(nx)+b_n\sin(nx), \)

Pokażemy teraz, że czy istnieją ogólne wzory na współczynniki \( \displaystyle a_n \) i \( \displaystyle b_n \). Aby znaleźć \( \displaystyle a_0 \), scałkujmy obie strony wzoru \( (★) \) od \( \displaystyle -\pi \) do \( \displaystyle \pi \). Dostaniemy wtedy:

\( \displaystyle \displaystyle\int\limits_{-\pi}^{\pi}f(x)dx \ =\ \displaystyle\int\limits_{-\pi}^{\pi}a_0dx+ \sum_{n=1}^{\infty}(a_n\displaystyle\int\limits_{-\pi}^{\pi}\cos(nx)dx+b_n\displaystyle\int\limits_{-\pi}^{\pi}\sin(nx)dx). \)

Zauważmy, że

\( \displaystyle \displaystyle\int\limits_{-\pi}^{\pi}\cos(nx)dx=\frac{\sin(nx)}{n}\bigg|_{-\pi}^{\pi} \ =\ 0, \)

oraz

\( \displaystyle \displaystyle\int\limits_{-\pi}^{\pi}\sin(nx)dx=-\frac{\cos(nx)}{n}\bigg|_{-\pi}^{\pi} \ =\ 0. \)

Dostajemy zatem:

\( \displaystyle \displaystyle\int\limits_{-\pi}^{\pi}f(x)dx \ =\ 2\pi a_0, \)

czyli

\( \displaystyle a_0 \ =\ \frac{1}{2\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(x)dx. \)

Aby wyliczyć \( \displaystyle a_m, m=1,2,3,\ldots \), pomnóżmy obie strony wzoru \( (★) \) przez \( \displaystyle \cos(mx) \) i, tak jak powyżej, całkujmy od \( \displaystyle -\pi \) do \( \displaystyle \pi \).

Dostaniemy wtedy

\( \begin{array}{lll} \displaystyle (★ ★)\displaystyle\int\limits_{-\pi}^{\pi}f(x)\cos(mx)dx & = & \displaystyle\int\limits_{-\pi}^{\pi}a_0\cos(mx)dx \\ & + & \displaystyle \sum_{n=1}^{\infty}(a_n\displaystyle\int\limits_{-\pi}^{\pi}\cos(nx)\cos(mx)dx+b_n\displaystyle\int\limits_{-\pi}^{\pi}\sin(nx)\cos(mx)dx). \end{array} \)

Teraz

\( \displaystyle a_0\displaystyle\int\limits_{-\pi}^{\pi}\cos(mx)dx \ =\ a_0\frac{\sin(mx)}{m}\bigg|_{-\pi}^{\pi}=0. \)

Dla \( \displaystyle m\neq n \) dostaniemy, korzystając ze wzoru na sumę cosinusów \( \displaystyle a_n\displaystyle\int\limits_{-\pi}^{\pi}\cos(nx)\cos(mx)dx \ =\ \frac{1}{2}\displaystyle\int\limits_{-\pi}^{\pi}(\cos((n+m)x)+\cos((n-m)x))dx, \) a korzystając ze wzoru na sumę sinusów, mamy

\( \displaystyle b_n\displaystyle\int\limits_{-\pi}^{\pi}\sin(nx)\cos(mx)dx=\frac{1}{2}\displaystyle\int\limits_{-\pi}^{\pi}(\sin((n+m)x)+\sin((n-m)x))dx. \)

Obliczając, dostajemy \( \displaystyle \frac{1}{2}\displaystyle\int\limits_{-\pi}^{\pi}(\cos((n+m)x)+\cos((n-m)x))dx \ =\ 0 \)

oraz

\( \displaystyle \frac{1}{2}\displaystyle\int\limits_{-\pi}^{\pi}(\sin((n+m)x)+\sin((n-m)x))dx \ =\ 0. \)

Natomiast gdy \( \displaystyle m=n \) dostajemy

\( \displaystyle a_m\displaystyle\int\limits_{-\pi}^{\pi}\cos^2(mx)dx \ =\ \pi a_m. \)

Tak więc widzimy, że z prawej strony wzoru \( (★ ★) \) znikają wszystkie całki, poza całką o współczynniku \( \displaystyle a_m \), a zatem otrzymujemy wzór:

\( \displaystyle a_m \ =\ \frac{1}{\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(x)\cos(mx)dx. \)

Analogicznie, mnożąc obie strony wzoru \( (★) \) przez \( \displaystyle \sin(mx) \), wyznaczamy wzory na współczynniki \( \displaystyle b_m \):

\( \displaystyle b_m \ =\ \frac{1}{\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(x)\sin(mx)dx. \)

(pozostawiamy to jako ćwiczenie).

Możemy teraz wypisać definicję.

rycina

Dla funkcji okresowej \( \displaystyle f: \mathbb{R}\to\mathbb{R} \), o okresie \( \displaystyle 2\pi \), i całkowalnej na \( \displaystyle [-\pi,\pi] \) tworzymy szereg

\( \displaystyle \frac{a_0}{2}+\sum_{n=1}^{\infty}a_n\cos(nx)+b_n\sin(nx), \)

ze współczynnikami

\( \displaystyle \begin{align*} a_0 & = \frac{1}{2\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(x)dx, \\ a_m & = \frac{1}{\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(x)\cos(mx)dx, \ m=1,2,..., \\ b_m & = \frac{1}{\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(x)\sin(mx)dx\ m=1,2... \end{align*} \)

Szereg ten nazywamy szeregiem Fouriera funkcji \( \displaystyle f \). Wzory na współczynniki nazywają się wzorami Eulera-Fouriera.

Powyższa konstrukcja pokazuje, że prawdziwe jest następujące stwierdzenie.

wykres

Wykres funkcji oraz sumy jej szeregu Fouriera

Stwierdzenie 5.16.

Jeśli funkcję \( \displaystyle f: \mathbb{R}\to\mathbb{R} \), okresową, o okresie \( \displaystyle 2\pi \), całkowalną na \( \displaystyle [-\pi,\pi] \), możemy zapisać w postaci jednostajnie zbieżnego szeregu:

\( \displaystyle f(x) \ =\ a_0+\sum_{n=1}^{\infty}a_n\cos(nx)+b_n\sin(nx), \)

to współczynniki \( \displaystyle a_n \) i \( \displaystyle b_n \) wyrażają się wzorami Eulera-Fouriera. (Tak więc przy powyższych założeniach mamy jednoznaczne przedstawienie \( \displaystyle f \) w postaci sumy szeregu trygonometrycznego.)

Uwaga 5.17.

Na początku tej części wykładu założyliśmy, że we wzorze \( (★) \) zachodzi równość, a co więcej, że szereg po prawej stronie tego wzoru jest zbieżny jednostajnie. Zazwyczaj jednak mamy daną funkcję \( \displaystyle f \), ale nie mamy danego szeregu \( \displaystyle a_0+\sum_{n=1}^{\infty}a_n\cos(nx)+b_n\sin(nx) \), tym bardziej nic nie wiemy o jego zbieżności.

Zauważmy jednak, że zawsze możemy wypisać formalnie szereg Fouriera dla danej funkcji (oczywiście dla funkcji spełniającej nasze założenia, czyli okresowej i całkowalnej).

Piszemy wówczas:

\( \displaystyle f(x)\sim a_0+\sum_{n=1}^{\infty}a_n\cos(nx)+b_n\sin(nx), \)

gdzie współczynniki \( \displaystyle a_n \) i \( \displaystyle b_n \) są wyliczone ze wzorów Eulera-Fouriera. Utworzyliśmy zatem szereg Fouriera funkcji \( \displaystyle f \), ale pozostaje pytanie, kiedy i do czego ten szereg jest zbieżny. Zaznaczmy, że suma szeregu Fouriera danej funkcji wcale nie musi być równa tej funkcji.

Na rysunku obok widzimy wykres funkcji (zielony) i wykres sumy szeregu Fouriera tej funkcji (czerwony).

Jedną z odpowiedzi na pytanie o zbieżność szeregu Fouriera daje poniższe kryterium Dirichleta (które podajemy bez dowodu):

Twierdzenie 5.18. [Kryterium Dirichleta]

Załóżmy, że funkcja \( \displaystyle f(x) \) o okresie \( \displaystyle 2\pi \) jest przedziałami monotoniczna w \( \displaystyle [-\pi,\pi] \) (to znaczy, że przedział \( \displaystyle [-\pi,\pi] \) można podzielić na skończoną liczbę przedziałów, w których funkcja jest monotoniczna) i ma co najwyżej skończoną liczbę punktów nieciągłości. Wówczas w każdym punkcie ciągłości \( \displaystyle x_0 \)

\( \displaystyle f(x_0) \ =\ a_0+\sum_{n=1}^{\infty}a_n\cos(nx_0)+b_n\sin(nx_0). \)

Co więcej, dla każdego punktu nieciągłości \( \displaystyle y_0 \)

\( \displaystyle a_0+\sum_{n=1}^{\infty}a_n\cos(ny_0)+b_n\sin(ny_0) \ =\ \frac{f(y_0^+)+f(y_0^-)}{2}, \)

gdzie zapis \( \displaystyle f(y_0^-) \) oznacza lewostronną granicę funkcji w punkcie \( \displaystyle y_0 \) a zapis \( \displaystyle f(y_0^+) \) - granicę prawostronną.

Typowy przykład funkcji spełniającej założenia powyższego kryterium jest przedstawiony na rysunku powyżej (wykres funkcji jest zielony, a wykres sumy szeregu Fouriera czerwony).

wykres

Funkcja \( f(x)=x \)  rozszerzona okresowo

Uwaga 5.19.

W zastosowaniach często mamy do czynienia z funkcjami nieokresowymi, zadanymi w przedziale \( \displaystyle (-\pi, \pi] \). W takich przypadkach musimy funkcję \( \displaystyle f \) na całe \( \displaystyle \mathbb{R} \) rozszerzyć okresowo.

Może się też zdarzyć, że będziemy chcieli rozwinąć w szereg Fouriera funkcję \( \displaystyle f \) okresową, ale o okresie \( \displaystyle 2T \) (a nie \( \displaystyle 2\pi \)). Stosujemy wówczas podstawienie \( \displaystyle x=\frac{Ty}{\pi} \) i dostajemy wzory na współczynniki:

\( \displaystyle \begin{align*} a_0 & = \frac{1}{2\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(\frac{Ty}{\pi})dy, \\ a_m & = \frac{1}{\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(\frac{Ty}{\pi})\cos(my)dy, \ m=1,2,\ldots \\ b_m & = \frac{1}{\pi}\displaystyle\int\limits_{-\pi}^{\pi}f(\frac{Ty}{\pi})\sin(my)dy\ m=1,2,\ldots \end{align*} \)

Dostajemy zatem rozwinięcie

\( \displaystyle f(\frac{Ty}{\pi})=a_0+\sum_{n=1}^{\infty}a_n\cos(ny)+b_n\sin(ny), \)

czyli wracając do zmiennej \( \displaystyle x \):

\( \displaystyle f(x) \ =\ a_0+\sum_{n=1}^{\infty}a_n\cos(\frac{n\pi x}{T})+b_n\sin(\frac{n\pi x}{T}). \)

Przykład 5.20.

Rozwinąć w szereg Fouriera funkcję \( \displaystyle f(x)=x^2 \) zadaną na przedziale \( \displaystyle [-\pi,\pi] \).

Liczymy współczynniki:

\( \displaystyle \begin{align*} a_0 & = \frac{1}{2\pi}\displaystyle\int\limits_{-\pi}^{\pi}x^2dx=\frac{\pi^2}{3}, \\ a_n & = \frac{1}{\pi}\displaystyle\int\limits_{-\pi}^{\pi}x^2\cos(nx)dx=\frac{2}{\pi}\displaystyle\int\limits_{0}^{\pi}x^2\cos(nx)dx \\ & = \frac{2}{\pi}x^2\frac{\sin(nx)}{n}\bigg|_0^{\pi}- \frac{4}{n\pi}\displaystyle\int\limits_{0}^{\pi}x\sin(nx)dx \\ & = \frac{4}{n\pi}x\frac{\cos(nx)}{n}\bigg|_0^{\pi}-\frac{4}{n^2\pi}\displaystyle\int\limits_{0}^{\pi}\cos(nx)dx=(-1)^n\frac{4}{n^2}. \end{align*} \)

Jako ćwiczenie zauważmy, że wszystkie współczynniki \( \displaystyle b_n \) są równe zero.

Tak więc, skoro nasza funkcja spełnia warunki powyższego kryterium zbieżności, możemy napisać:

\( \displaystyle x^2 \ =\ \frac{\pi^2}{3}+4\sum_{n=1}^{\infty}(-1)^n\frac{\cos(nx)}{\pi}. \)

Podstawiając w tym wzorze \( \displaystyle x=\pi \) i pamiętając, że \( \displaystyle \cos(n\pi)=(-1)^n \), otrzymujemy

\( \displaystyle \pi^2 \ = \ \frac{\pi^2}{3}+4\sum_{n=1}^{\infty}(-1)^n\frac{(-1)^n}{n^2}, \)

czyli

\( \displaystyle \sum_{n=1}^{\infty}\frac{1}{n^2}=\frac{\pi^2}{6}, \)

zatem nie tylko wykazaliśmy zbieżność szeregu \( \displaystyle \sum_{n=1}^{\infty}\frac{1}{n^2} \), ale nawet policzyliśmy jego sumę.

Rysunek obok oraz rysunki poniżej pokazują, jak kolejne sumy częściowe szeregu Fouriera „zbliżają się” do granicy.

Ciągłość funkcji wielu zmiennych. Pochodne cząstkowe. Gradient

Przypominamy przykłady funkcji wielu zmiennych, które znamy z życia codziennego. Do badania przebiegu zmienności funkcji, badania ciągłości, wyznaczania ekstremów stosujemy analizę przebiegu poziomic, a następnie wprowadzamy pochodne kierunkowe i cząstkowe.

Przykłady funkcji wielu zmiennych

ryciny

Z funkcjami dwóch zmiennych rzeczywistych spotykamy się na co dzień. Śledząc prognozę pogody po wieczornym wydaniu wiadomości w telewizji (w prasie, w internecie) sprawdzamy, jaka temperatura jest przewidywana na najbliższą noc, na kolejny poranek, popołudnie, w dniach następnych. Temperatura podawana jest przeważnie liczbowo dla kilku regionów naszego kraju albo też - w dokładniejszej formie - na mapie z zaznaczonymi izotermami, tj. liniami, które łączą punkty o takiej samej temperaturze.

Osoby podatne na zmiany ciśnienia atmosferycznego z niepokojem śledzą informacje o spodziewanym załamaniu pogody i wahaniach ciśnienia. Przypomnijmy, że linie łączące punkty o takim samym ciśnieniu atmosferycznym nazywamy izobarami.

Zagęszczenie izobar nad danym obszarem oznacza dużą prędkość wiatru w terenie: im izobary są gęstsze, tym prędkość wiatru większa. Pamiętamy, że wiatr wieje od obszaru o wyższym ciśnieniu do obszaru o niższym ciśnieniu.

Kierunek wiatru także nie jest przypadkowy: odpowiada temu kierunkowi, w którym ciśnienie spada najszybciej, co na mapie odpowiada kierunkowi, w którym izobary najbardziej zagęszczają się.

Ze względu na czytelność map z prognozą pogody, obszary zawarte między kolejnymi poziomicami koloruje się zgodnie z umową tak, że obszary, nad którymi panuje niskie ciśnienie, bądź niska temparatura, oznacza się kolorem fioletowym, ciemno niebieskim, niebieskim. Kolory jasno zielony, zielony, jasno żółty, rezerwuje się do oznaczania obszarów o przeciętnym ciśnieniu czy temperaturze, natomiast obszary o najwyższych wartościach koloruje się na żółto, pomarańczowo, czerwono. Do umowy tej przywykliśmy. Tak bowiem pokolorowana jest mapa fizyczna (mapa hipsometryczna), np. ta przedstawiająca nasz kraj.

ryciny prognoza pogody

Gdybyśmy powędrowali palcem po mapie z południa na północ Polski, zaczynając od Tatr, które po polskiej stronie sięgają prawie 2500 metrów nad poziom morza, wystartowalibyśmy z obszaru pokolorowanego na brązowo, intensywnie czerwono, pomarańczowo. Kierując się do Krakowa i dalej Wyżyną Krakowsko-Częstochowską, przemierzalibyśmy obszar pokolorowany na żółto. Obszar nizinny w centralnej i północnej części naszego kraju zaznaczono na zielono, z wyjątkiem pasm wzgórz na północy, np. na Kaszubach, które zaznaczono na żółto. Jeśli spojrzymy trochę na prawo od ujścia Wisły, między Tczewem a Elblągiem, zauważymy obszar ciemnozielony, którym pokolorowano obszar depresji, tj. obszar położony poniżej poziomu morza. W końcu docieramy do brzegu Bałtyku, którego poziom stanowi umowny punkt odniesienia wysokości obszaru nad poziom morza. Pamiętamy, że głębokość dna morza na mapie również została zaznaczona różnymi kolorami: od białego (którym zaznaczono płytkie obszary tuż przy brzegu i mielizny), przez niebieski, aż po ciemnoniebieski, którym zaznaczono głębsze obszary.

ryciny mapa tatr

Linie na mapie, łączące punkty o samej wysokości nad poziom morza, nazywamy poziomicami.

Wędrując po górach, w zależności od upodobania, wybieramy szlak, który krótszą, ale bardziej stromą drogą doprowadzi nas do celu, bądź też szlak mniej stromy, łagodny. Każdy, kto wędrował choć raz po górach z mapą w ręku wie, że im gęściej szlak poprzecinany jest kolejnymi poziomicami, tym jest bardziej stromy i wymaga większego wysiłku fizycznego. Szlak, który przebiega między dwiema poziomicami, prawie żadnej nie przecina, jest zdecydowanie łagodniejszy, bez stromych podejść, nie wymaga wysiłku.

Na ogół szlaki turystyczne w górach omijają obszary, gdzie poziomice przebiegają bardzo gęsto, bądź wręcz urywają się. Nic dziwnego: tak na mapie zaznaczono strome zbocza i urwiska.

Zauważmy, że poziomice odpowiadające różnym wysokościom są krzywymi rozłącznymi. Na mapie, która przeważnie przedstawia pewien prostokątny (w przybliżeniu) obszar terenu, krzywe te są zamknięte lub nie. Nasze doświadczenie podpowiada nam, że wewnątrz obszaru ograniczonego poziomicą, która jest linią zamkniętą, zawsze da się wskazać punkt położony najwyżej (np. szczyt wzniesienia) lub najniżej (np. dno doliny).

W ramach Analizy matematycznej I poznaliśmy twierdzenie, które opisuje taką sytuację: funkcja ciągła na zbiorze zwartym osiąga swoje kresy. Jest to twierdzenie Weierstrassa, które pozostaje prawdziwe nie tylko w przypadku funkcji jednej zmiennej.

Mapa fizyczna danego obszaru, mapa rozkładu ciśnienia, mapa rozkładu temperatury to przykłady graficznej reprezentacji (wykresu) funkcji dwóch zmiennych rzeczywistych (długości i szerokości geograficznej) o wartościach w zbiorze liczb rzeczywistych, bowiem wysokość punktu nad poziom morza, wartość ciśnienia atmosferycznego, temperatura to wielkości liczbowe.

Granica i ciągłość funkcji wielu zmiennych

Większość pojęć i twierdzeń, którymi będziemy posługiwać się w tym module, poznaliśmy już przy okazji omawiania własności funkcji ciągłych w przestrzeniach metrycznych. Przypomnijmy parę z nich.

Niech \( \displaystyle (X,d) \), \( \displaystyle (Y,\rho) \) będą przestrzeniami metrycznymi. Będziemy zajmowali się badaniem funkcji

\( \displaystyle f:X\mapsto Y. \)

Większość praktycznych przykładów zastosowania teorii będzie dotyczyć funkcji określonych na zbiorze \( \displaystyle \mathbb{R}^n \), \( \displaystyle n=2,3,\dots \), z metryką \( \displaystyle d(x,y)=\|x-y\| \) zadaną przez pewną ustaloną normę \( \displaystyle \|\cdot\| \) w \( \displaystyle \mathbb{R}^n \), np.

\( \displaystyle \begin{align*} \|x\|_p & =\big(|x_1|^p+|x_2|^p+\dots+|x_n|^p\big)^{\frac{1}{p}}, \text{ dla } 1\leq p < \infty \\ & \text{ w szczególności } \\ \|x\|_1 & =|x_1|+|x_2|+\dots+|x_n| \\ \|x\|_2 & =\sqrt{|x_1|^2 +|x_2|^2 +\dots+|x_n|^2} \\ & \text{ bądź też } \\ \|x\|_{\infty} & =\max\{|x_1|, \ |x_2|, \ \dots, \ |x_n| \}. \end{align*} \)

Zbiorem wartości funkcji \( \displaystyle f \) najczęściej będzie zbiór liczb rzeczywistych \( \displaystyle \mathbb{R} \) z metryką zadaną przez wartość bezwzględną, tj. \( \displaystyle \rho(a,b)=|a-b| \).

Definicja 6.1.

Mówimy, że \( \displaystyle g\in Y \) jest granicą funkcji \( \displaystyle f:X\mapsto Y \) w punkcie \( \displaystyle x \) będącym punktem skupienia dziedziny funkcji \( \displaystyle f \), jeśli

\( \displaystyle \forall \epsilon>0 \exists \delta>0 : \forall y: 0 < d(x,y) < \delta\Longrightarrow \rho(g,f(y)) < \epsilon. \)

Definicja 6.2.

Mówimy, że funkcja \( \displaystyle f:X\mapsto Y \) jest ciągła w punkcie x, jeśli

\( \displaystyle \forall \epsilon>0 \exists \delta>0 : \forall y: d(x,y) < \delta \Longrightarrow \rho(f(x),f(y)) < \epsilon. \)

Pamiętamy również, że zachodzi następujące

Twierdzenie 6.3.

Niech \( \displaystyle X, \ Y \) będą przestrzeniami metrycznymi i niech \( \displaystyle f:X\mapsto Y \) będzie funkcją. Wówczas następujące warunki są równoważne:

1) funkcja \( \displaystyle f \) jest ciągła w punkcie \( \displaystyle a\in X \),

2) istnieje granica \( \displaystyle \lim_{x\to a}f(x) \) i jest równa wartości funkcji \( \displaystyle f(a) \).

Niech \( \displaystyle X \), \( \displaystyle Y \), \( \displaystyle Z \) będą przestrzeniami metrycznymi.

Twierdzenie 6.4.

Złożenie \( \displaystyle g\circ f: X\mapsto Z \) funkcji ciągłych \( \displaystyle f:X\mapsto Y \) i \( \displaystyle g: Y\mapsto Z \) jest funkcją ciągłą.

Twierdzenie 6.5.

Jeśli \( \displaystyle f:X\mapsto \mathbb{R} \) oraz \( \displaystyle g:X\mapsto \mathbb{R} \) są funkcjami ciągłymi, to suma \( \displaystyle f+g \) oraz iloczyn \( \displaystyle f\cdot g \) są funkcjami ciągłymi. Ponadto odwrotność \( \displaystyle \displaystyle \frac{1}{g} :Z\ni x\mapsto \frac{1}{g(x)}\in\mathbb{R} \) oraz iloraz \( \displaystyle \displaystyle \frac{f}{g}: Z\ni x\mapsto \frac{f(x)}{g(x)}\in\mathbb{R} \)

są funkcjami ciągłymi na zbiorze \( \displaystyle Z:=X\setminus\{x\in X: g(x)=0\} \). Przypomnijmy jeszcze następujące twierdzenie Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym.

Twierdzenie 6.6.

Jeśli \( \displaystyle f:X\mapsto \mathbb{R} \) jest funkcją ciągłą określoną na przestrzeni zwartej \( \displaystyle X \), to istnieją punkty \( \displaystyle a, b\in X \), w których funkcja \( \displaystyle f \) osiąga kresy: kres dolny \( \displaystyle \inf\{f(x), x\in X\}=f(a) \) i kres górny \( \displaystyle \sup\{f(x), x\in X\}=f(b) \).

Rozważmy przykład, który pokazuje, że zachowanie funkcji wielu zmiennych może wykraczać poza naszą intuicję ukształtowaną podczas badania funkcji jednej zmiennej.

Przykład 6.7.

Funkcja \( \displaystyle \displaystyle f(x,y)=\frac{x y}{x^2 +y^2} \) określona jest we wszystkich punktach płaszczyzny \( \displaystyle \mathbb{R}^2 \) z wyjątkiem punktu \( \displaystyle (0,0) \). Wyraźmy ją we współrzędnych biegunowych

\( \displaystyle \Phi: (r,\varphi)\mapsto \left\{ \begin{align*} x(r,\varphi)=r\cos\varphi \\ y(r,\varphi)=r\sin\varphi \end{align*} \right. \)

W punktach leżących poza początkiem układu współrzędnych, tj. gdy \( \displaystyle r>0 \), otrzymamy:

\( \displaystyle (f\circ\Phi)(r, \varphi)=\frac{r^2\cos\varphi \sin\varphi }{r^2 (\cos^2 \varphi+\sin^2 \varphi)}=\frac{1}{2}\sin 2\varphi. \)

Zauważmy, że zbiorem wartości tej funkcji jest przedział \( \displaystyle [-\frac{1}{2},\frac{1}{2} ] \). Ponadto funkcja \( \displaystyle (r, \varphi)\mapsto \frac{1}{2}\sin 2\varphi \) nie zależy od zmiennej \( \displaystyle r \). Oznacza to, że zacieśnienie funkcji \( \displaystyle f \) do którejkolwiek półprostej danej równaniem \( \displaystyle \varphi=\varphi_0 \) (tj. półprostej, która tworzy z dodatnią półosią osi rzędnych ustalony kąt \( \displaystyle \varphi_0 \)) jest funkcją o stałej wartości \( \displaystyle \frac{1}{2}\sin 2\varphi_0 \), niezależnej od odległości \( \displaystyle r \) punktu od początku układu współrzędnych. Każde z tych zacieśnień do prostej \( \displaystyle \{\varphi=\varphi_0\}\cup \{\varphi=\varphi_0+\pi\} \) ma granicę przy \( \displaystyle r\to 0 \) równą \( \displaystyle \frac{1}{2}\sin 2\varphi_0 \). Jednak wartość ta zależy od wyboru kąta \( \displaystyle \varphi_0 \), stąd nie istnieje granica funkcji \( \displaystyle (x,y)\mapsto f(x,y) \), gdy \( \displaystyle (x,y)\to (0,0) \). Zauważmy, że gdy rozważymy osobno funkcje jednej zmiennej, ustalając drugą zmienną, tzn. \( \displaystyle y \) lub odpowiednio \( \displaystyle x \):

\( \displaystyle \begin{align*} f_y & =f(\cdot , y): \mathbb{R} \ni x\mapsto \frac{xy}{x^2+y^2} \\ f_x & = (x , \cdot ): \mathbb{R} \ni y\mapsto \frac{xy}{x^2+y^2},\end{align*} \)

to zarówno \( \displaystyle \displaystyle \lim_{x\to 0}f_y(x)=0 \), jak też \( \displaystyle \displaystyle \lim_{y\to 0}f_x(y) =0 \), a więc w szczególności istnieją granice iterowane

\( \displaystyle \begin{align*} \lim_{x\to 0}\big( \lim_{y\to 0} f(x,y) \big) =0, \\ \lim_{y\to 0} \big( \lim_{x\to 0} f(x,y)\big)=0 \end{align*} \)

i są równe.

wykres a

Wykres funkcji \( \displaystyle \displaystyle f(x,y)=\frac{xy}{x^2 +y^2} \)

Przykład pokazuje więc, że

Wniosek 6.8.

Z istnienia granic iterowanych

\( \displaystyle \begin{align*} \lim_{x\to a}\big( \lim_{y\to b} f(x,y) \big) \\ \lim_{y\to b} \big( \lim_{x\to a} f(x,y)\big)\end{align*} \)

i równości tych granic nie wynika istnienie granicy funkcji \( \displaystyle f \) w punkcie \( \displaystyle (a,b) \).

Prawdziwa natomiast jest implikacja:

Uwaga 6.9.

Jeśli funkcja \( \displaystyle f: \mathbb{R}\times \mathbb{R}\mapsto \mathbb{R} \) ma granicę w punkcie \( \displaystyle (a,b) \), to istnieją obie granice iterowane

\( \displaystyle \begin{align*} \lim_{x\to a}\big( \lim_{y\to b} f(x,y) \big) \\ \lim_{y\to b} \big( \lim_{x\to a} f(x,y)\big)\end{align*} \)

i są równe granicy funkcji \( \displaystyle f \) w punkcie \( \displaystyle (a,b) \).

Uwaga ta stanowi warunek konieczny istnienia granicy \( \displaystyle \displaystyle\lim_{(x,y)\to (a, b)}f(x,y) \). Jeśli bowiem nie istnieje któraś z granic iterowanych, bądź nie są one równe, to funkcja \( \displaystyle f \) nie ma granicy w punkcie \( \displaystyle (a,b) \). Podkreślmy jeszcze raz fakt, że istnienie i równość obu granic iterowanych nie gwarantuje istnienia granicy funkcji.

Poziomice

Niech \( \displaystyle f:X\mapsto \mathbb{R} \) będzie funkcją określoną na przestrzeni metrycznej \( \displaystyle X \) o wartościach rzeczywistych.

Definicja 6.10.

Poziomicą funkcji \( \displaystyle f \)

odpowiadającą wartości \( \displaystyle a\in \mathbb{R} \) nazywamy zbiór

\( \displaystyle \{f=a\}=\{x\in X: f(x)=a\}, \)

czyli przeciwobraz zbioru jednopunktowego \( \displaystyle \{a\} \) przez funkcję \( \displaystyle f \).

Często pobieżna nawet analiza przebiegu poziomic pozwala ustalić, czy dana funkcja osiąga ekstrema (zob. definicja ekstremum w module 9 Analizy matematycznej 1), czy też nie.

Przykład 6.11.

Niech \( \displaystyle f(x,y)=x^2+y^2-4 \).

wykres

Poziomica \( \displaystyle \{f=a\}=\{(x,y): x^2+y^2-4=a\} \) jest okręgiem o środku w punkcie \( \displaystyle (0,0) \) i promieniu \( \displaystyle \sqrt{4+a} \), gdy \( \displaystyle a>-4 \). Poziomica \( \displaystyle \{f=-4\} \) składa się tylko z jednego punktu \( \displaystyle (0,0) \), natomiast jeśli \( \displaystyle a < -4 \), to poziomica \( \displaystyle \{f=a\} \) jest zbiorem pustym. Funkcja \( \displaystyle f \) osiąga minimum globalne w punkcie \( \displaystyle (0,0) \) równe \( \displaystyle f(0,0)=-4 \).

Przykład 6.12.

Niech \( \displaystyle f(x,y)=x^2-y^2 \).

wykres

Poziomica zerowa \( \displaystyle \{f=0\}=\{(x,y): x^2-y^2=0\}=\{x=y\}\cup \{x=-y\} \) jest sumą dwóch prostych: \( \displaystyle x=y \) i \( \displaystyle x=-y \). Jeśli \( \displaystyle a\neq 0 \) poziomica \( \displaystyle \{f=a\}=\{x^2-y^2=a\} \) jest hiperbolą o asymptotach \( \displaystyle x=y \) i \( \displaystyle x=-y \). Przebieg poziomic pozwala ustalić, że funkcja \( \displaystyle f \) w żadnym punkcie płaszczyzny nie osiąga ekstremum, bowiem w dowolnie małym otoczeniu każdego punktu \( \displaystyle (x,y) \) potrafimy z łatwością wskazać punkty, w których funkcja przyjmuje zarówno wartości mniejsze jak i większe od wartości funkcji \( \displaystyle f \) w punkcie \( \displaystyle (x,y) \).

Przykład 6.13.

wykres

Niech \( \displaystyle f(x,y)=|x|+|y| \).

Funkcja \( \displaystyle f \) jest normą w \( \displaystyle \mathbb{R}^2 \), przyjmuje więc wyłącznie wartości nieujemne, stąd \( \displaystyle \{f=a\}=\emptyset \), gdy \( \displaystyle a < 0 \). Poziomica zerowa \( \displaystyle \{f=0\}=\{(0,0)\} \) składa się tylko z jednego punktu. Gdy \( \displaystyle a>0 \), poziomica \( \displaystyle \{f=a\}=\{|x|+|y|=a\} \) jest kwadratem o wierzchołkach \( \displaystyle (a,0) \), \( \displaystyle (0,a) \), \( \displaystyle (-a, 0) \), \( \displaystyle (0, -a) \). Funkcja \( \displaystyle f \) osiąga minimum globalne w punkcie \( \displaystyle (0,0) \), gdyż \( \displaystyle f(x,y)>0 \) w dowolnym punkcie \( \displaystyle (x,y)\neq (0,0) \). Podobnie jak w poprzednim przykładzie przebieg poziomic pozwala ustalić, że funkcja \( \displaystyle f \) w żadnym punkcie płaszczyzny poza punktem \( \displaystyle (0,0) \) nie osiąga ekstremum, bowiem w dowolnie małym otoczeniu każdego punktu \( \displaystyle (x,y)\neq (0,0) \) potrafimy z łatwością wskazać punkty, w których funkcja przyjmuje zarówno wartości mniejsze jak i większe od wartości funkcji \( \displaystyle f \) w punkcie \( \displaystyle (x,y) \).

Przykład 6.14.

wykres

Niech \( \displaystyle f(x,y)=|x|^{\frac{2}{3}}+|y|^{\frac{2}{3}} \).

Funkcja \( \displaystyle f \) przyjmuje wyłącznie wartości nieujemne, stąd \( \displaystyle \{f=a\}=\emptyset \), gdy \( \displaystyle a < 0 \). Poziomica zerowa \( \displaystyle \{f=0\}=\{(0,0)\} \) składa się tylko z jednego punktu. Gdy \( \displaystyle a>0 \), poziomica \( \displaystyle \{f=a\}=\{|x|^{\frac{2}{3}}+|y|^{\frac{2}{3}}=a\} \) jest krzywą zawartą w kwadracie o wierzchołkach \( \displaystyle (\sqrt{a^3},0) \), \( \displaystyle (0,\sqrt{a^3}) \), \( \displaystyle (-\sqrt{a^3}, 0) \), \( \displaystyle (0, -\sqrt{a^3}) \). Krzywą tę nazywamy asteroidą. Zauważmy, że funkcja osiąga minimum globalne w punkcie \( \displaystyle (0,0) \), gdyż \( \displaystyle f(x,y)>0 \), w dowolnym punkcie \( \displaystyle (x,y)\neq (0,0) \). Podobnie jak w poprzednich przykładach przebieg poziomic pozwala stwierdzić, że jest to jedyne ekstremum tej funkcji na płaszczyźnie \( \displaystyle \mathbb{R}^2 \).

Przykład 6.15.

Niech \( \displaystyle f(x,y)=x y (1-x-y) \).

Poziomicą zerową \( \displaystyle \{f=0\} \) tej funkcji jest suma trzech prostych: \( \displaystyle x=0 \), \( \displaystyle y=0 \) oraz \( \displaystyle x+y=1 \). Zauważmy, że w dowolnie małym otoczeniu któregokolwiek punktu leżącego na tej poziomicy znajdziemy punkty, w których funkcja osiąga zarówno wartości mniejsze jak i większe od zera. Stąd w żadnym punkcie zbioru \( \displaystyle \{f=0\} \) funkcja \( \displaystyle f \) nie osiąga ekstremum. Zwróćmy jednak uwagę, że wnętrze trójkąta o wierzchołkach \( \displaystyle (0,0) \), \( \displaystyle (1,0) \), \( \displaystyle (0,1) \) zawarte jest w zbiorze \( \displaystyle \{f < 0\} \) tych punktów, w których funkcja przyjmuje wartości ujemne. W sumie mnogościowej z brzegiem trójkąta o podanych wierzchołkach zbiór ten jest zwarty. Z twierdzenia Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym wynika, że we wnętrzu tego trójkąta funkcja \( \displaystyle f \) osiąga minimum. Dalsza analiza przebiegu poziomic we wnętrzu trójkąta nie jest efektywnym narzędziem prowadzącym do precyzyjne określenia, w którym punkcie minimum to jest osiągane, ponieważ kreślenie poziomic \( \displaystyle \{f=a\} \), gdy \( \displaystyle a\neq 0 \), nie jest prostym zadaniem. Warto jednak zauważyć, że żaden punkt leżący na poziomicy zerowej funkcji \( \displaystyle f \) nie może być jej punktem ekstremalnym, gdyż w otoczeniu któregokolwiek punktu z tej poziomicy funkcja przyjmuje zarówno wartości dodatnie jak i ujemne.

wykres

Wykres funkcji \( \displaystyle f(x,y)=x y (1-x-y) \)

rycina

Kartezjusz (1596-1650)

Przykład 6.16.

wykres

Niech \( \displaystyle f(x,y)=x^3+y^3-3xy \).

Poziomicą zerową \( \displaystyle \{f=0\} \) tej funkcji jest nieograniczona krzywa, którą nazywamy liściem Kartezjusza. Krzywa ta ma asymptotę o równaniu \( \displaystyle x+y+1=0 \). W pierwszej ćwiartce \( \displaystyle \{(x,y)\in \mathbb{R}^2: x\geq 0, y\geq 0\} \) tworzy petlę ograniczającą obszar, we wnętrzu którego funkcja \( \displaystyle f \) przyjmuje wartości ujemne. Podobnie jak w poprzednim przykładzie, z twierdzenia Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym wynika, że we wnętrzu pętli liścia Kartezjusza funkcja \( \displaystyle f \) osiąga minimum. Dalsza analiza przebiegu poziomic nie prowadzi efektywnie do precyzyjne określenia, w którym punkcie minimum to jest osiągane. Warto jednak zauważyć, że w żadnym z punktów liścia Kartezjusza funkcja \( \displaystyle f \) nie może osiągać ekstremum, gdyż w dowolnie małym otoczeniu któregokolwiek punktu tej krzywej funkcja \( \displaystyle f \) osiąga wartości dodatnie jak i ujemne.

Przykład 6.17.

wykres

Jakob Bernoulli (1654-1705)

Niech \( \displaystyle f(x,y)=(x^2+y^2)^2-2 (x^2- y^2) \).

Poziomicą zerową \( \displaystyle \{f=0\} \) tej funkcji jest krzywa, zwana lemniskatą Bernoullego. Przebieg lemniskaty \( \displaystyle \{f=0\} \) najwygodniej zbadać we współrzędnych biegunowych:

\( \displaystyle \begin{align*} (x^2+y^2)^2 & =2 (x^2- y^2) \\ (r^2 \cos^2 \varphi+r^2 \sin^2 \varphi)^2 & =2 (r^2 \cos^2 \varphi-r^2 \sin^2 \varphi) \\ r^4 & =2 r^2 \cos 2 \varphi \\ r=0 & \text{ lub } r=\sqrt{2 \cos 2 \varphi}, \end{align*} \)

przy czym wyrażenie pod znakiem pierwiastka jest nieujemne dla \( \displaystyle \varphi\in [-\frac{\pi}{4}, \frac{\pi}{4}]\cup [\frac{3\pi}{4}, \frac{5\pi}{4}] \). Lemniskata Bernoullego jest więc zawarta w części wspólnej koła o promieniu \( \displaystyle \sqrt{2} \) i dwóch obszarów wyciętych z płaszczyzny półprostymi tworzącymi z osią rzędnych kąty \( \displaystyle -\frac{\pi}{4}, \ \frac{\pi}{4}, \ \frac{3\pi}{4},\ -\frac{3\pi}{4} \). Zauważmy, że we wnętrzu obszaru ograniczonego lemniskatą Bernoullego funkcja \( \displaystyle f \) osiąga wartości ujemne. Na zewnątrz zaś - dodatnie. Podobnie jak w obu poprzednich przykładach twierdzenie Weierstrassa gwarantuje istnienie minimum lokalnego w obszarze \( \displaystyle \{(x,y): f(x,y)\leq 0\} \) ograniczonym lemniskatą Bernoullego. Z kolei w dowolnie małym otoczeniu każdego punktu poziomicy zerowej \( \displaystyle \{f=0\} \) funkcja przyjmuje zarówno wartości dodatnie jak i ujemne. Funkcja \( \displaystyle f \) nie osiąga więc ekstremum w żadnym punkcie należącym do swojej poziomicy zerowej.

Trzy ostatnie przykłady każą nam szukać doskonalszego narzędzia do precyzyjnego lokalizownia punktów ekstremalnych funkcji wielu zmiennych, gdy analiza przebiegu poziomic jest niewystarczająca. Tym narzędziem są

Pochodna kierunkowa i pochodne cząstkowe

Niech \( \displaystyle A\subset X \) będzie otwartym podzbiorem przestrzeni unormowanej \( \displaystyle X \). Niech \( \displaystyle v\neq 0, v\in X \) będzie ustalonym niezerowym wektorem tej przestrzeni.

Definicja 6.18.

Mówimy, że funkcja \( \displaystyle f:A\mapsto \mathbb{R} \) ma w punkcie \( \displaystyle a \) pochodną kierunkową w kierunku wektora \( \displaystyle v \), jeśli

istnieje granica ilorazu różnicowego:

\( \displaystyle \lim_{h\to 0}\frac{f(a+hv)-f(a)}{h}. \)

Granicę tę oznaczamy symbolem \( \displaystyle \partial_v f(a) \) i nazywamy pochodną kierunkową funkcji \( \displaystyle f \) w kierunku wektora \( \displaystyle v \) w punkcie \( \displaystyle a \).

Zwróćmy uwagę, że zbiór \( \displaystyle \{a+t v, t\in \mathbb{R}\} \) jest prostą przechodzącą przez punkt \( \displaystyle a \) równoległą do wektora \( \displaystyle v \). Stąd pochodna \( \displaystyle \partial_v f(a) \) jest w istocie pochodną w punkcie \( \displaystyle t=0 \) funkcji jednej zmiennej rzeczywistej \( \displaystyle t\mapsto f(a+tv) \), czyli restrykcji funkcji \( \displaystyle f \) do podzbioru otwartego \( \displaystyle A\cap \{a+t v, t\in \mathbb{R}\} \) rozważanej prostej \( \displaystyle \{a+t v, t\in \mathbb{R}\} \). Wobec tego możemy powtórzyć jednowymiarowy warunek konieczny istnienia ekstremum w punkcie, w którym istnieje pochodna kierunkowa funkcji (zob. moduł 9, Analiza matematyczna I).

Twierdzenie 6.19.
Niech \( \displaystyle A\subset X \) będzie otwartym podzbiorem przestrzeni unormowanej \( \displaystyle X \) i niech \( \displaystyle v\in X \), \( \displaystyle v\neq 0 \). Jeśli funkcja \( \displaystyle f:A\mapsto \mathbb{R} \) osiąga ekstremum w punkcie \( \displaystyle a\in A \) i istnieje pochodna kierunkowa \( \displaystyle \partial_v f(a) \), to

pochodna ta zeruje się.

Dowód 6.19.

Jeśli funkcja \( \displaystyle A\ni x\mapsto f(x)\in \mathbb{R} \) osiąga maksimum (odpowiednio: minimum) w punkcie \( \displaystyle a \), to funkcja jednej zmiennej \( \displaystyle t\mapsto f(a+tv) \) osiąga maksimum (odpowiednio: minimum) w punkcie \( \displaystyle t=0 \). Z warunku koniecznego istnienia ekstremum funkcji jednej zmiennej wynika, że pochodna (o ile istnieje) funkcji \( \displaystyle t\mapsto f(a+tv) \) zeruje się w punkcie \( \displaystyle t=0 \). Stąd \( \displaystyle \partial_v f(a)=0 \)

O ile w przypadku funkcji określonej na otwartym przedziale prostej \( \displaystyle \mathbb{R} \) sytuacja jest oczywista (na prostej mamy tylko jeden kierunek), o tyle już w przypadku funkcji dwóch zmiennych (na płaszczyźnie można wskazać nieskończenie wiele kierunków!) powstaje pytanie o liczbę kierunków, które należy ustalić, aby rozwiązać praktyczny problem lokalizacji punktów ekstremalnych danej funkcji. Warto zauważyć, że w przypadku funkcji określonej na \( \displaystyle n \) wymiarowej przestrzeni unormowanej \( \displaystyle X \) nie ma potrzeby rozważać pochodnych kierunkowych w kierunku wektorów liniowo zależnych, a więc większej niż wynosi wymiar przestrzeni. Wyróżnijmy wobec tego pochodne kierunkowe w kierunku wektorów bazowych.

Niech \( \displaystyle X=\mathbb{R}^n \) i niech \( \displaystyle e_1=(1,0,0,\dots, 0) \), \( \displaystyle e_2=(0,1,0,\dots, 0) \), ..., \( \displaystyle e_n=(0,0,0,\dots, 1) \) będzie bazą kanoniczną tej przestrzeni. Niech \( \displaystyle A \) będzie otwartym podzbiorem przestrzeni \( \displaystyle \mathbb{R}^n \).

Definicja 6.20.

Pochodne kierunkowe (o ile istnieją) \( \displaystyle \partial_{e_1} f(a) \), \( \displaystyle \partial_{e_2} f(a) \), ..., \( \displaystyle \partial_{e_n} f(a) \) funkcji \( \displaystyle f:A\mapsto \mathbb{R} \) w kierunku wektorów bazy \( \displaystyle \{e_1, e_2, \dots, e_n\} \) nazywamy pochodnymi cząstkowymi funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \). Pochodną cząstkową funkcji \( \displaystyle (x_1, x_2, \dots, x_n) \mapsto f(x_1, x_2, \dots, x_n)\in \mathbb{R} \) w kierunku wektora

\( \displaystyle e_i \) oznaczamy tradycyjnie symbolem:

\( \displaystyle \frac{\partial f}{\partial x_i}(a), \ \frac{\partial}{\partial x_i}f(a), \ f_{x_i}(a) \ \text{ lub } \ f'_{x_i}(a). \)

W przypadku, gdy nie numerujemy współrzędnych argumentu funkcji \( \displaystyle (x,y,z)\mapsto f(x,y,z) \) pochodne cząstkowe oznaczamy symbolami

\( \displaystyle \frac{\partial f}{\partial x}(a), \quad \frac{\partial f}{\partial y}(a), \quad\frac{\partial f}{\partial z}(a) \).

Przeformułujmy warunek konieczny istnienia ekstremum funkcji określonej na zbiorze otwartym \( \displaystyle A\subset \mathbb{R}^n \).

Twierdzenie 6.21.

Jeśli funkcja \( \displaystyle f:A\mapsto \mathbb{R} \) osiąga ekstremum w punkcie \( \displaystyle a\in A \), w którym istnieją pochodne cząstkowe \( \displaystyle \frac{\partial}{\partial x_k}f(a) \), \( \displaystyle k\in\{1,2,\dots, n\} \), to pochodne te zerują się w tym punkcie, tj.

\( \displaystyle \forall k\in\{1,2,\dots, n\} : \frac{\partial}{\partial x_k}f(a)=0. \)

Zwróćmy uwagę, że twierdzenie podaje jedynie warunek konieczny istnienia ekstremum. Punkt \( \displaystyle a \), który spełnia układ równań:

\( \displaystyle \left\{\begin{align*} \frac{\partial f}{\partial x_1}(a) & =0 \\ \frac{\partial f}{\partial x_2}(a) & =0 \\ & \vdots \\ \frac{\partial f}{\partial x_n}(a) & =0\end{align*} \right. \)

nie musi być punktem ekstremalnym funkcji \( \displaystyle f \).

Wróćmy do przykładów, w których stwierdziliśmy potrzebę znalezienia dokładniejszego narzędzia do lokalizacji ekstremów.

Przykład 6.22.

Z przebiegu poziomicy zerowej funkcji \( \displaystyle f(x,y)=xy (1-x-y) \) wywnioskowaliśmy - w oparciu o twierdzenie Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym - że funkcja ta osiąga minimum w pewnym punkcie wewnątrz trójkąta o wierzchołkach \( \displaystyle (0,0) \), \( \displaystyle (1, 0) \), \( \displaystyle (0,1) \). Rozwiązując układ dwóch równań

\( \displaystyle \left\{\begin{align*} \frac{\partial f}{\partial x}=0 \\ \frac{\partial f}{\partial y}=0 \end{align*} \right .\ \ \Longleftrightarrow \ \left\{\begin{align*} y-2xy-y^2=0 \\ x-x^2 -2xy=0 \end{align*} \right . \)

otrzymujemy układ

\( \displaystyle \left\{\begin{align*} y=0 \text{ lub } 1-2x-y=0 \\ x=0 \text{ lub } 1-x -2y=0 \end{align*} \right.\ , \)

który spełniają współrzędne czterech punktów \( \displaystyle P_1=(0,0) \), \( \displaystyle P_2=(1,0) \), \( \displaystyle P_3=(0,1) \), \( \displaystyle P_4=(\frac{1}{3}, \frac{1}{3}) \). Jedynym punktem z wnętrza wskazanego trójkąta jest punkt \( \displaystyle P_4 \), w którym funkcja \( \displaystyle f \) osiąga minimum równe \( \displaystyle f(P_4)=\frac{1}{27} \). Pozostałe punkty \( \displaystyle P_1 \), \( \displaystyle P_2 \), \( \displaystyle P_3 \) leżą na poziomicy zerowej funkcji \( \displaystyle f \), która - jak już sprawdziliśmy - nie może zawierać żadnego punktu ekstremalnego funkcji \( \displaystyle f \) (zob. przykład 6.15.).

Przykład 6.23.

Z przebiegu poziomicy zerowej funkcji \( \displaystyle f(x,y)=x^3+y^3-3xy \) wywnioskowaliśmy - w oparciu o twierdzenie Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym - że funkcja ta osiąga minimum w pewnym punkcie wewnątrz pętli liścia Kartezjusza. Rozwiązując układ dwóch równań

\( \displaystyle \left\{\begin{align*} \frac{\partial f}{\partial x}=0 \\ \frac{\partial f}{\partial y}=0 \end{align*} \right .\ \ \Longleftrightarrow \ \left\{\begin{align*} 3x^2-3y=0 \\ 3y^2-3x=0 \end{align*} \right . \)

otrzymujemy układ

\( \displaystyle \left\{\begin{align*} y=0 & \text{ lub } y=1 \\ x & =y^2 \end{align*} \right .\ , \)

który spełniają współrzędne dwóch punktów \( \displaystyle P_1=(0,0) \), \( \displaystyle P_2=(1,1) \). Jedynym punktem z wnętrza obszaru ograniczonego przez pętlę liścia Kartezjusza jest punkt \( \displaystyle P_2 \), w którym funkcja \( \displaystyle f \) osiąga minimum równe \( \displaystyle f(P_2)=-1 \). Punkt \( \displaystyle P_1 \) leży na poziomicy zerowej funkcji \( \displaystyle f \), która - jak już sprawdziliśmy - nie może zawierać żadnego punktu ekstremalnego funkcji \( \displaystyle f \) (zob. przykład 6.16.).

Przykład 6.24.

Podobnie jak w obu poprzednich przykładach z przebiegu poziomicy zerowej funkcji \( \displaystyle f(x,y)=(x^2+y^2)^2-2(x^2-y^2) \) wywnioskowaliśmy - w oparciu o twierdzenie Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym - że funkcja ta osiąga minimum w pewnym punkcie wewnątrz obszaru ograniczonego lemniskatą Bernoullego. Rozwiązując układ dwóch równań

\( \displaystyle \left\{\begin{align*} \frac{\partial f}{\partial x}=0 \\ \frac{\partial f}{\partial y}=0 \end{align*} .\ \ \Longleftrightarrow \ \{\begin{align*} 2(x^2+y^2)2x-4x=0 \\ 2(x^2+y^2)2y+4y=0 \end{align*} \right. \)

otrzymujemy układ

\( \displaystyle \left\{\begin{align*} x=0 \text{ lub } x^2+y^2-1=0 \\ y=0 \text{ lub } x^2+y^2+1=0 \end{align*} \right.\ , \)

który spełniają współrzędne trzech punktów \( \displaystyle P_1=(0,0) \), \( \displaystyle P_2=(-1,0) \), \( \displaystyle P_3=(1,0) \). We wnętrzu obszaru ograniczonego lemniskatą Bernoullego leżą punkty \( \displaystyle P_2 \) i \( \displaystyle P_3 \), w których funkcja \( \displaystyle f \) osiąga minima równe \( \displaystyle f(P_2)=f(P_3)=-1 \). Punkt \( \displaystyle P_1 \) leży na poziomicy zerowej funkcji \( \displaystyle f \), która - jak już sprawdziliśmy - nie może zawierać żadnego punktu ekstremalnego funkcji \( \displaystyle f \) (zobacz przykład 6.17.).

Pochodne cząstkowe wyższych rzędów

Rozważmy funkcję \( \displaystyle \frac{\partial f}{\partial x_i} \), która punktowi \( \displaystyle x\in U \) przyporządkowuje pochodną cząstkową funkcji \( \displaystyle f \) po zmiennej \( \displaystyle x_i \) w punkcie \( \displaystyle a \), czyli funkcję

\( \displaystyle \frac{\partial f}{\partial x_i}: U\ni a\mapsto \frac{\partial f}{\partial x_i}(a)\in \mathbb{R}. \)

Definicja 6.25.

Jeśli w punkcie \( \displaystyle a\in U \) istnieje pochodna cząstkowa funkcji \( \displaystyle \frac{\partial f}{\partial x_i} \) po zmiennej \( \displaystyle x_j \), to mówimy, że funkcja \( \displaystyle f \) ma pochodną cząstkową rzędu drugiego po zmiennych \( \displaystyle x_i \) oraz \( \displaystyle x_j \). Pochodną tę oznaczamy symbolem \( \displaystyle \frac{\partial }{\partial x_j }\frac{\partial }{\partial x_i }f (a) \), bądź krótko \( \displaystyle \frac{\partial ^2}{\partial x_j\partial x_i}f(a) \) lub \( \displaystyle \frac{\partial ^2f (a)}{\partial x_j\partial x_i} \). Gdy \( \displaystyle i=j \)

piszemy \( \displaystyle \frac{\partial ^2f (a)}{\partial x_i^2} \) zamiast \( \displaystyle \frac{\partial ^2f (a)}{\partial x_i\partial x_i} \).

Uwaga 6.26.

Jeśli \( \displaystyle f: \mathbb{R}^n \ni (x,y, z, \dots, t)\mapsto f(x,y, z, \dots, t)\in \mathbb{R} \) jest funkcją \( \displaystyle n \) zmiennych, to często zamiast pisać

\( \displaystyle \frac{\partial^2 f(a)}{\partial x^2}, \ \frac{\partial^2 f(a)}{\partial x\partial y}, \ \frac{\partial^2 f(a)}{\partial x\partial z}, \dots, \)

piszemy

\( \displaystyle f_{xx}(a), \ f_{xy}(a), \ f_{xz}(a), \dots, \)

bądź

\( \displaystyle f'_{xx}(a), \ f'_{xy}(a), \ f'_{xz}(a), \dots \)

Powstaje naturalne pytanie, czy zachodzi równość między pochodnymi \( \displaystyle \frac{\partial }{\partial x_j }\frac{\partial }{\partial x_i }f (a) \) oraz \( \displaystyle \frac{\partial }{\partial x_i }\frac{\partial }{\partial x_j }f (a) \), jeśli obie istnieją.

Zanim sformułujemy twierdzenie, które stanowi pozytywną odpowiedź na pytanie, rozważmy następujący

Przykład 6.27.

Funkcja

\( \displaystyle f(x,y)=\left\{\begin{align*} & \frac{xy (x^2-y^2)}{x^2+y^2}, & \text{ gdy } (x,y)\neq (0,0) \\ & 0, & \text{ gdy } (x,y)=(0,0)\end{align*} \right. \)

ma w punkcie \( \displaystyle (0,0) \) obie pochodne cząstkowe mieszane \( \displaystyle \frac{\partial}{\partial x }\frac{\partial }{\partial y}f (0,0) \) oraz \( \displaystyle \frac{\partial }{\partial y }\frac{\partial }{\partial x }f (0,0) \), lecz są one różne. A mianowice \( \displaystyle \frac{\partial }{\partial x }\frac{\partial }{\partial y}f (0,0)=1 \), podczas gdy \( \displaystyle \frac{\partial }{\partial y }\frac{\partial }{\partial x}f (0,0)=-1. \)

Okazuje się jednak, że wystarczy przyjąć naturalne założenie o ciągłości pochodnych cząstkowych mieszanych \( \displaystyle \frac{\partial }{\partial x }\frac{\partial }{\partial y}f \) oraz \( \displaystyle \frac{\partial }{\partial y }\frac{\partial }{\partial x }f \) w otoczeniu punktu \( \displaystyle a \), aby mieć gwarancję ich równości w danym punkcie.

Uwaga 6.28.

Jeśli \( \displaystyle f:\mathbb{R}^n \supset U\ni x\mapsto f(x) \in \mathbb{R} \) jest funkcją, która w punkcie \( \displaystyle a\in U \) ma ciągłe

pochodne cząstkowe \( \displaystyle \frac{\partial }{\partial x_j }\frac{\partial }{\partial x_i }f \) oraz \( \displaystyle \frac{\partial }{\partial x_i }\frac{\partial }{\partial x_j }f \), to w punkcie \( \displaystyle a \) są one równe, tj.

\( \displaystyle \frac{\partial }{\partial x_j }\frac{\partial }{\partial x_i }f (a)= \frac{\partial }{\partial x_i }\frac{\partial }{\partial x_j }f(a). \)

Dowód uwagi pomijamy (można go znaleźć np. w podręczniku Ryszarda Rudnickiego Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001).

W podobny sposób definiujemy pochodne cząstkowe wyższych rzędów. Wprowadźmy wygodne oznaczenie pochodnych cząstkowych za pomocą wielowskaźników \( \displaystyle \alpha =(\alpha_1, \alpha_2, \dots, \alpha_n)\in \mathbb{N}_0^n \). Niech \( \displaystyle f:\mathbb{R}^n\supset U\mapsto \mathbb{R} \) będzie funkcją określoną na zbiorze otwartym \( \displaystyle U \).

Oznaczmy symbolem \( \displaystyle \frac{\partial^{\alpha_i}}{\partial x_i^{\alpha_i}} \) operację, która funkcji \( \displaystyle f \) przypisuje pochodną cząstkową rzędu \( \displaystyle \alpha_i \) po zmiennej \( \displaystyle x_i \), o ile ta pochodna istnieje.

Definicja 6.29.

Załóżmy, że istnieją kolejno pochodne cząstkowe

\( \displaystyle \frac{\partial^{\alpha_n}}{\partial x_n^{\alpha_n}} \bigg(\dots \frac{\partial^{\alpha_2}}{\partial x_2^{\alpha_2}} \big(\frac{\partial^{\alpha_1}}{\partial x_1^{\alpha_1}}f\big)\dots\bigg) (a) \)

i nie zależą od kolejności różniczkowania. Mówimy wówczas, że funkcja \( \displaystyle f \) ma pochodną

cząstkową

\( \displaystyle \frac{\partial ^{|\alpha|}f(a)}{\partial x^\alpha}:=\frac{\partial^{\alpha_n}}{\partial x_n^{\alpha_n}} \bigg(\dots\frac{\partial^{\alpha_2}}{\partial x_2^{\alpha_2}} \big(\frac{\partial^{\alpha_1}}{\partial x_i^{\alpha_1}}f\big)\dots\bigg) (a) \)

rzędu \( \displaystyle |\alpha|=\alpha_1+\alpha_2+\dots+\alpha_n \) w punkcie \( \displaystyle a \). Pochodną tę notujemy też często symbolem \( \displaystyle D^\alpha f (a) \).

Pochodne cząstkowe w fizyce. Elementy teorii pola

Niech \( \displaystyle f:D\mapsto \mathbb{R} \) będzie funkcją określoną na pewnym zbiorze otwartym \( \displaystyle D\subset \mathbb{R}^n \). Załóżmy, że w pewnym punkcie \( \displaystyle a\in D \) istnieją pochodne cząstkowe \( \displaystyle \displaystyle \frac{\partial f}{\partial x_1}(a), \frac{\partial f}{\partial x_2}(a), \dots, \frac{\partial f}{\partial x_n}(a) \).

Definicja 6.30.

Wektor \( \displaystyle \displaystyle \mathrm{grad}\, f(a)=\bigg(\frac{\partial f}{\partial x_1}(a), \frac{\partial f}{\partial x_2}(a), \dots, \frac{\partial f}{\partial x_n}(a)\bigg)\in \mathbb{R}^n \) nazywamy gradientem funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \). Wektor ten oznaczamy też często symbolem nabla: \( \displaystyle \nabla f(a) \). Punkt \( \displaystyle a \), w którym wyznaczamy gradient funkcji \( \displaystyle f \), zapisujemy czasem w formie indeksu dolnego: \( \displaystyle \mathrm{grad}\,_a f \), \( \displaystyle \nabla_a f \).

Uwaga 6.31.

Jeśli funkcje \( \displaystyle f,g: \mathbb{R}^n\supset D\mapsto \mathbb{R} \) mają w punkcie \( \displaystyle a\in D \) pochodne cząstkowe \( \displaystyle \frac{\partial f}{\partial x_i}(a) \), \( \displaystyle \frac{\partial g}{\partial x_i}(a) \), \( \displaystyle i=1,2,\dots, n \), to

a) \( \displaystyle \mathrm{grad}\, (f+g)(a)=\mathrm{grad}\, f(a) +\mathrm{grad}\, g(a), \)

b) \( \displaystyle \mathrm{grad}\, (f g)(a)=g(a) \mathrm{grad}\, f(a) +f(a) \mathrm{grad}\, g(a). \)

Dowód 6.31.

Korzystając z twierdzenia o pochodnej sumy i iloczynu funkcji \( \displaystyle f,g \), wyznaczamy kolejne współrzędne wektorów \( \displaystyle \mathrm{grad}\,(f+g)(a) \) oraz \( \displaystyle \mathrm{grad}\,(fg)(a) \):

\( \displaystyle \frac{\partial}{\partial x_i}(f+g)(a)=\frac{\partial}{\partial x_i}f(a)+\frac{\partial}{\partial x_i}g(a) \)

oraz

\( \displaystyle \frac{\partial}{\partial x_i}(fg)(a)=g(a)\frac{\partial}{\partial x_i}f(a)+ f(a)\frac{\partial}{\partial x_i}g(a), \)

gdy \( \displaystyle i=1,2,\dots, n \). Stąd otrzymujemy równości a) oraz b).

W ramach następnego modułu wykażemy, że

Uwaga 6.32.

Pochodna kierunkowa w kierunku gradientu jest największa. W fizyce funkcję \( \displaystyle f:\mathbb{R}^3\mapsto \mathbb{R} \) o wartościach liczbowych nazywa się funkcją skalarną, natomiast funkcję \( \displaystyle F: \mathbb{R}^3\mapsto \mathbb{R}^3 \) nazywa się polem (wektorowym). Przykładem funkcji skalarnych są np. temperatura, potencjał pola grawitacyjnego. Przykładem pola, które znamy ze szkoły, jest pole grawitacyjne. Jeśli w początku układu współrzędnych w przestrzeni \( \displaystyle \mathbb{R}^3 \) znajduje się punkt materialny o masie \( \displaystyle M \), to - zgodnie z prawem powszechnego ciążenia Newtona - na dowolny inny punkt materialny położony w punkcie \( \displaystyle \vec{r}=(x,y,z) \) o masie \( \displaystyle m \) działa siła \( \displaystyle F=(F_x, F_y, F_z) \), której składowe wynoszą:

\( \displaystyle \begin{align*} F_x (\vec{r}) & =-k\frac{x}{r^3}, \\ F_y (\vec{r}) & =-k\frac{y}{r^3}, \\ F_z (\vec{r}) & =-k\frac{z}{r^3},\end{align*} \)

gdzie \( \displaystyle k=G m M \) jest iloczynem mas obu punktów materialnych i stałej grawitacji

\( \displaystyle G=6,67259... \cdot 10^{-11} N\cdot m^2\cdot kg^{-2}, \)

natomiast \( \displaystyle r=\|\vec{r}\|_2=\|(x,y,z)\|_2=\sqrt{x^2 +y^2+z^2} \) jest odległością obu punktów. Zwróćmy uwagę, że

\( \displaystyle F(\vec{r})=-\frac{k}{r^3}\vec{r}, \)

stąd

\( \displaystyle \|F(\vec{r})\|_2=\frac{k}{r^3}\|\vec{r}\|_2=\frac{k}{r^3}r=\frac{k}{r^2} \)

siła ta jest odwrotnie proporcjonalna do kwadratu odległości obu punktów materialnych.

Definicja 6.33.

Pole wektorowe \( \displaystyle F:\mathbb{R}^3\supset D \mapsto \mathbb{R}^3 \) nazywamy polem potencjalnym, jeśli istnieje funkcja skalarna \( \displaystyle U:D\mapsto \mathbb{R} \) taka, że \( \displaystyle \mathrm{grad}\, U(a)=F(a) \) w dowolnym punkcie \( \displaystyle a \) zbioru otwartego \( \displaystyle D\subset \mathbb{R}^3 \).
Funkcję \( \displaystyle U \) nazywamy wówczas potencjałem pola wektorowego \( \displaystyle F \).

Uwaga 6.34.

Pole grawitacyjne \( \displaystyle \displaystyle F(\vec{r})=-\frac{k}{r^3}\vec{r} \) jest polem potencjalnym. Potencjałem tego pola jest funkcja skalarna \( \displaystyle U(\vec{r})=\frac{k}{r} \), gdzie (jak powyżej) \( \displaystyle \vec{r}=(x,y,z) \)

oraz \( \displaystyle r=\|\vec{r}\|_2=\sqrt{x^2+y^2+z^2} \).

Dowód 6.34.

Policzmy pochodne cząstkowe funkcji \( \displaystyle U(x,y,z)=\frac{k}{\sqrt{x^2+y^2+z^2}}=\frac{k}{r} \) określonej w zbiorze otwartym \( \displaystyle D=\mathbb{R}^3 \setminus \{0\} \), czyli wszędzie w przestrzeni \( \displaystyle \mathbb{R}^3 \) poza początkiem układu współrzędnych. Mamy

\( \displaystyle \begin{align*} \frac{\partial}{\partial x}U(\vec{r}) & =\frac{\partial}{\partial x}\frac{k}{r}=-\frac{k}{r^2}\cdot \frac{\partial r}{\partial x}=-\frac{k}{r^2}\cdot \frac{2 x}{2 r}=-\frac{k}{r^3}x \\ \frac{\partial}{\partial y}U(\vec{r}) & =\frac{\partial}{\partial y}\frac{k}{r}=-\frac{k}{r^2}\cdot \frac{\partial r}{\partial y}=-\frac{k}{r^2}\cdot \frac{2 y}{2 r}=-\frac{k}{r^3}y \\ \frac{\partial}{\partial z}U(\vec{r}) & =\frac{\partial}{\partial z}\frac{k}{r}=-\frac{k}{r^2}\cdot \frac{\partial r}{\partial z}=-\frac{k}{r^2}\cdot \frac{2 z}{2 r}=-\frac{k}{r^3}z,\end{align*} \)

czyli

\( \displaystyle \begin{align*} \mathrm{grad}\, U(\vec{r}) & = \mathrm{grad}\, U(x,y,z)=(-\frac{k}{r^3} x, -\frac{k}{r^3} y, -\frac{k}{r^3} z) \\ & =-\frac{k}{r^3} (x,y,z)=-\frac{k}{r^3} \vec{r} \\ & = F(\vec{r}).\end{align*} \)

Definicja 6.35.

Dywergencją pola wektorowego \( \displaystyle F=(F_x, F_y, F_z):\mathbb{R}^3\supset D\mapsto \mathbb{R}^3 \) w punkcie \( \displaystyle a\in D \) nazywamy liczbę

\( \displaystyle \mathrm{div}\, F(a)=\frac{\partial F_x}{\partial x}(a)+\frac{\partial F_y}{\partial y}(a)+\frac{\partial F_z}{\partial z}(a), \)

o ile istnieją pochodne cząstkowe \( \displaystyle \frac{\partial F_x}{\partial x}(a), \ \frac{\partial F_y}{\partial y}(a), \ \frac{\partial F_z}{\partial z}(a) \). Jeśli w dowolnym punkcie \( \displaystyle a\in D \) dywergencja \( \displaystyle \mathrm{div}\, F(a)=0 \), to pole wektorowe \( \displaystyle F \) nazywamy polem bezźródłowym.

Uwaga 6.36.

Pole grawitacyjne \( \displaystyle \displaystyle F(\vec{r})=-\frac{k}{r^3}\vec{r} \) jest polem bezźródłowym w \( \displaystyle \mathbb{R}^3\setminus\{0\} \).

Dowód 6.36.

W dowolnym punkcie \( \displaystyle \vec{r}=(x,y,z)\neq 0 \) mamy

\( \begin{array}{lll} \displaystyle \frac{\partial F_x}{\partial x}(\vec{r}) & = & \displaystyle \frac{\partial }{\partial x}\bigg(-\frac{k}{r^3} x\bigg)=-k\bigg(\frac{\partial x}{\partial x}\frac{1}{r^3}+x\frac{\partial }{\partial x}\frac{1}{r^3}\bigg) \\ & = & \displaystyle -k\bigg(\frac{1}{r^3}+x\cdot \frac{(-3)}{r^4}\frac{\partial r}{\partial x}\bigg)=-k\bigg(\frac{1}{r^3}- \frac{3x^2}{r^5}\bigg) \end{array} \)

i podobnie

\( \displaystyle \displaystyle \frac{\partial F_y}{\partial y}(\vec{r})=-k\bigg(\frac{1}{r^3}- \frac{3y^2}{r^5}\bigg) \text{ oraz } \frac{\partial F_z}{\partial z}(\vec{r})=-k\bigg(\frac{1}{r^3}- \frac{3z^2}{r^5}\bigg). \)

Stąd

\( \displaystyle \begin{align*} \mathrm{div}\, F(\vec{r}) & =\frac{\partial F_x}{\partial x}(\vec{r})+\frac{\partial F_y}{\partial y}(\vec{r})+\frac{\partial F_z}{\partial z}(\vec{r}) \\ & =-k\bigg(\frac{1}{r^3}- \frac{3x^2}{r^5}\bigg)-k\bigg(\frac{1}{r^3}- \frac{3y^2}{r^5}\bigg)-k\bigg(\frac{1}{r^3}- \frac{3z^2}{r^5}\bigg) \\ & =-k\bigg(\frac{3}{r^3}- \frac{3(x^2+y^2+z^2)}{r^5}\bigg)=-k\bigg(\frac{3}{r^3}- \frac{3r^2}{r^5}\bigg)=0.\end{align*} \)

Definicja 6.37.

Rotacją pola wektorowego \( \displaystyle F=(F_x, F_y, F_z):\mathbb{R}^3\supset D\mapsto \mathbb{R}^3 \) w punkcie \( \displaystyle a\in D \)

nazywamy wektor

\( \displaystyle \mathrm{rot}\, F(a)=\bigg(\frac{\partial F_z}{\partial y}(a)-\frac{\partial F_y}{\partial z}(a), \ \frac{\partial F_x}{\partial z}(a)-\frac{\partial F_z}{\partial x}(a), \ \frac{\partial F_y}{\partial x}(a)-\frac{\partial F_x}{\partial y}(a) \bigg). \)

Wektor ten oznaczamy też czasem symbolem \( \displaystyle \nabla\times F(a) \). Jeśli w każdym punkcie \( \displaystyle a\in D \) rotacja \( \displaystyle \mathrm{rot}\, F(a)=0 \), to pole wektorowe \( \displaystyle F \) nazywamy bezwirowym.

Uwaga 6.38.

Pole grawitacyjne \( \displaystyle \displaystyle F(\vec{r})=-\frac{k}{r^3}\vec{r} \) jest polem bezwirowym w \( \displaystyle \mathbb{R}^3\setminus\{0\} \).

Dowód 6.38.

W dowolnym punkcie \( \displaystyle \vec{r}=(x,y,z)\neq 0 \) mamy

\( \displaystyle \frac{\partial }{\partial y}F_z(\vec{r})=\frac{\partial }{\partial y}\bigg(-k\frac{1}{r^3}z\bigg)=-kz\frac{\partial }{\partial y}\bigg(\frac{1}{r^3}\bigg)=-kz\frac{(-3)}{r^4}\frac{\partial r }{\partial y}=3kz \frac{y}{r^5}=zy\frac{3k}{r^5} \)

oraz podobnie

\( \displaystyle \frac{\partial }{\partial z}F_y(\vec{r})=yz\frac{3k}{r^5}. \)

Pierwsza współrzędna wektora rotacji jest więc równa zeru, gdyż

\( \displaystyle \frac{\partial F_z}{\partial y}(\vec{r})-\frac{\partial F_y}{\partial z}(\vec{r})=zy\frac{3k}{r^5}-yz\frac{3k}{r^5}=0. \)

W ten sam sposób sprawdzamy, że również druga i trzecia współrzędna wektora rotacji zerują się:

\( \displaystyle \begin{align*} \frac{\partial F_x}{\partial z}(\vec{r})-\frac{\partial F_z}{\partial x}(\vec{r}) & =xz\frac{3k}{r^5}-zx\frac{3k}{r^5}=0 \\ \frac{\partial F_y}{\partial x}(\vec{r})-\frac{\partial F_x}{\partial y}(\vec{r}) & =yx\frac{3k}{r^5}-xy\frac{3k}{r^5}=0.\end{align*} \)

Stąd \( \displaystyle \mathrm{rot}\, F(\vec{r})=0 \), dla \( \displaystyle \vec{r}\neq 0 \).

Różniczka. Różniczki wyższych rzędów. Wzór Taylora

Uogólniamy znane z Analizy matematycznej I pojęcie pochodnej na przypadek funkcji wielu zmiennych. Definiujemy pochodną funkcji o wartościach wektorowych oraz różniczkę zupełną w sensie Frecheta. Dowodzimy własności różniczki zupełnej i wyrażamy ją za pomocą pochodnych cząstkowych. Definiujemy także różniczki wyższych rzędów.

Pochodna funkcji jednej zmiennej o wartościach wektorowych

Wprowadzenie pojęcia pochodnej funkcji poprzedziliśmy przypomnieniem dwóch wielkości fizycznych: prędkości średniej i prędkości chwilowej w ruchu prostoliniowym. Zwróćmy uwagę na to, że w otaczającym nas świecie ruch po prostej jest rzadkością, gdyż większość obiektów, które obserwujemy, porusza się po drodze na płaszczyźnie dwuwymiarowej, bądź w przestrzeni trójwymiarowej. Wprowadźmy więc pojęcie pochodnej, które odpowiada m.in. potrzebie opisu ruchu w realnym świecie.

Niech \( \displaystyle f: (a,b)\ni t\mapsto f(t)\in Y \) będzie funkcją określoną na przedziale otwartym o wartościach w przestrzeni unormowanej \( \displaystyle Y \). Możemy mieć na myśli na przykład przestrzeń unormowaną \( \displaystyle Y=\mathbb{R}^n \), w której długość wektora \( \displaystyle y=(y_1, y_2, \dots, y_n) \) wyraża norma \( \displaystyle \|y\|=\sqrt{|y_1|^2+|y_2|^2+\dots+|y_n|^2} \).

Definicja 7.1.

Mówimy, że funkcja \( \displaystyle f: (a,b)\mapsto Y \) jest różniczkowalna w punkcie \( \displaystyle t_0\in (a,b) \), jeśli istnieje wektor \( \displaystyle y_0\in Y \) taki, że iloraz różnicowy \( \displaystyle \frac{1}{h}\big(f(t_0+h)-f(t_0)\big) \) zmierza do \( \displaystyle y_0 \) w normie przestrzeni \( \displaystyle Y \), to znaczy

\( \displaystyle \bigg\|\frac{1}{h}\big(f(t_0+h)-f(t_0)\big)-y_0\bigg\|\to 0, \text{ gdy }h\to 0 . \) Wektor \( \displaystyle y_0\in Y \) nazywamy pochodną funkcji \( \displaystyle f \) w punkcie \( \displaystyle t_0 \) i oznaczamy symbolem \( \displaystyle \frac{d}{dt}f(t_0) \) lub \( \displaystyle f'(t_0) \).

Uwaga 7.2.

W szczególnym przypadku, gdy \( \displaystyle Y=\mathbb{R}^n \), funkcja

\( \displaystyle f:(a,b)\ni t \mapsto f(t)=\big(f_1 (t), f_2(t), \dots, f_n(t)\big)\in \mathbb{R}^n \)

jest zestawieniem \( \displaystyle n \) funkcji \( \displaystyle f_k : (a,b) \ni t\mapsto f_k(t)\in \mathbb{R} \) o wartościach liczbowych. Stąd istnienie pochodnej \( \displaystyle \frac{d}{dt}f(t_0) \) jest równoważne istnieniu pochodnych wszystkich składowych funkcji \( \displaystyle f \) w punkcie \( \displaystyle t_0 \). Wówczas też pochodna \( \displaystyle f \) jest zestawieniem pochodnych swoich składowych, tzn.

\( \displaystyle \frac{d}{dt}f(t_0)=\big(\frac{d}{dt}f_1(t_0), \frac{d}{dt}f_2(t_0), \dots, \frac{d}{dt}f_n(t_0)\big). \)

Przykład 7.3.

Rozważmy ruch punktu materialnego opisany równaniami:

\( \displaystyle \left\{\begin{align*} x(t)=a\cos t \\ y(t)=b \sin t\end{align*} \right. \ \ \ \ \text{ gdzie }a\geq b>0. \)

Jak łatwo zauważyć punkt porusza się po elipsie o równaniu

\( \displaystyle \frac{x^2}{a^2}+ \frac{y^2}{b^2}=1, \)

gdyż (na podstawie jedynki trygonometrycznej) mamy równość

\( \displaystyle \displaystyle \frac{x(t)^2}{a^2}+ \frac{y(t)^2}{b^2}=\cos^2 t+\sin^2 t=1. \)

Ruch ten jest okresowy, wystarczy więc ograniczyć zbiór wartości parametru \( \displaystyle t \) do przedziału \( \displaystyle [0, 2\pi] \). Prędkość w tym ruchu jest wektorem o dwóch składowych

\( \displaystyle v(t)=\big(\frac{d}{dt} x(t) , \frac{d}{dt}y(t)\big) =(-a \sin t, b\cos t). \)

Długość wektora prędkości \( \displaystyle v(t) \) jest pierwiastkiem z sumy kwadratów składowych tego wektora:

\( \displaystyle |v(t)|=\sqrt{a^2 \sin^2 t+b^2\cos^2 t}=\sqrt{(a^2-b^2) \sin^2 t+b^2} \)

i jest największa wówczas, gdy funkcja \( \displaystyle t\mapsto \sin^2 t \) przyjmuje wartość największą (równą jedności), a więc w przedziale \( \displaystyle 0\leq t\leq 2\pi \) w chwili \( \displaystyle t=\frac{\pi}{2} \) oraz \( \displaystyle t=\frac{3\pi}{2} \), tj. w punktach \( \displaystyle (0,b) \) oraz \( \displaystyle (0, -b) \) elipsy. Z kolei prędkość \( \displaystyle |v(t)| \) jest najmniejsza wówczas, gdy funkcja \( \displaystyle t\mapsto \sin^2 t \) osiąga wartość najmniejszą (równą zeru). W przedziale \( \displaystyle 0\leq t\leq 2\pi \) zachodzi to w chwili \( \displaystyle t=0 \) oraz \( \displaystyle t=\pi \), co odpowiada położeniu w punktach \( \displaystyle (a,0) \) oraz \( \displaystyle (-a,0) \). Rozwiązanie zadania jest intuicyjnie oczywiste: chcąc bezpiecznie pokonać ostrzejszy zakręt, musimy zwolnić. Na łagodnym łuku (na łuku o małej krzywiźnie) można przyśpieszyć.

Przykład 7.4.

Rozważmy ruch punktu materialnego opisany równaniami:

\( \displaystyle \left\{\begin{align*} x(t)=\cos^3 t \\ y(t)= \sin^3 t\end{align*} \right.\ . \)

Punkt ten porusza się po krzywej zwanej asteroidą o równaniu

\( \displaystyle |x|^\frac{2}{3}+|y|^\frac{2}{3}=1, \)

gdyż (na mocy jedynki trygonometrycznej) mamy równość \( \displaystyle \displaystyle |x(t)|^\frac{2}{3}+|y(t)|^\frac{2}{3}=\cos^2 t+\sin^2 t=1 \). Prędkość w tym ruchu jest wektorem o dwóch składowych

\( \displaystyle v(t)=\big(\frac{d}{dt} x(t) , \frac{d}{dt}y(t)\big) =(-3\cos^2 t \sin t, 3\sin^2 t\cos t). \)

Długość wektora prędkości \( \displaystyle v(t) \) jest pierwiastkiem z sumy kwadratów jego składowych:

\( \displaystyle \begin{align*} |v(t)| & =\sqrt{9\cos^4 t\sin^2 t+9\sin^4 \cos^2t} \\ & =\sqrt{9\cos^2 t\sin^2 t(\cos^2 t+\sin^2 t)}=3|\cos t\sin t|=\frac{3}{2}|\sin 2t|.\end{align*} \)

Podobnie jak w poprzednim przykładzie ruch ten jest okresowy o okresie \( \displaystyle 2\pi \), wystarczy więc zbadać go w przedziale \( \displaystyle 0\leq t\leq 2\pi \). Zauważmy, że w opisanym ruchu prędkość jest największa wówczas, gdy \( \displaystyle t\mapsto |\sin 2t| \) przyjmuje największą wartość (równą jedności), co w przedziale \( \displaystyle 0\leq t\leq 2\pi \) ma miejsce w czterech chwilach: gdy \( \displaystyle t=\frac{\pi}{4} \), \( \displaystyle t=\frac{3\pi}{4} \), \( \displaystyle t=\frac{5\pi}{4} \), \( \displaystyle t=\frac{7\pi}{4} \). Punkt materialny znajduje się wówczas w jednym z punktów \( \displaystyle (a,a) \), \( \displaystyle (-a,a) \), \( \displaystyle (-a,-a) \), \( \displaystyle (a, -a) \), gdzie \( \displaystyle a=\frac{1}{2\sqrt{2}} \), które -- jak nietrudno zauważyć -- leżą w środku łagodnego łuku asteroidy. Z kolei w chwili \( \displaystyle t=0 \), \( \displaystyle t=\frac{\pi}{2} \), \( \displaystyle t={\pi} \), \( \displaystyle t=\frac{3\pi}{2} \) funkcja \( \displaystyle t\mapsto |\sin 2t| \) osiąga wartość najmniejszą równą zeru. Punkt materialny znajduje się wówczas w jednym z ostrzy asteroidy: w punkcie \( \displaystyle (1,0) \), \( \displaystyle (0,1) \), \( \displaystyle (-1,0) \) lub \( \displaystyle (0, -1) \). Zerowa prędkość punktu w tych położeniach jest również intuicyjnie oczywista: chcąc gładko pokonać tak ostry zakręt, na którym wręcz trzeba zawrócić, należy się na chwilę zatrzymać.

W ramach kursu Analizy matematycznej I określiliśmy pojęcie pochodnej w punkcie \( \displaystyle a \) funkcji \( \displaystyle f \) jednej zmiennej o wartościach rzeczywistych, a na początku tego wykładu rozszerzyliśmy pojęcie pochodnej na przypadek funkcji jednej zmiennej o wartościach w dowolnej przestrzeni wektorowej \( \displaystyle Y \) za pomocą granicy ilorazu różnicowego

\( \displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h}, \)

którą (o ile istnieje) oznaczamy symbolem \( \displaystyle f'(x_0) \) lub \( \displaystyle \frac{d}{dt}f(x_0) \). Zwróćmy uwagę, że w przypadku, gdy funkcja \( \displaystyle f:\mathbb{R}\supset (a,b)\mapsto Y \) osiąga wartości w przestrzeni wektorowej \( \displaystyle Y \), pochodna \( \displaystyle f'(x_0)\in Y \) jest wektorem.

Różniczka zupełna

Uwaga 7.5.

Funkcja \( \displaystyle f: (a,b)\mapsto Y \) o wartościach w przestrzeni unormowanej \( \displaystyle Y \) ma pochodną w punkcie \( \displaystyle x_0\in (a,b) \) wtedy i tylko wtedy, gdy istnieje wektor \( \displaystyle y_0\in Y \) taki, że

\( \displaystyle \|f(x_0+h)-f(x_0)-hy_0\|=o(|h|) \), czyli

\( \displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}=0. \)

Dowód 7.5.

Jeśli iloraz różnicowy

\( \displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h} \)

zmierza do \( \displaystyle f'(a)\in Y \) w normie przestrzeni \( \displaystyle Y \), to

\( \displaystyle \bigg\|\frac{f(x_0+h)-f(x_0)}{h}-f'(x_0)\bigg\|\to 0, \text{ gdy } h\to 0, \)

czyli

\( \displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}=0, \)

gdy \( \displaystyle y_0=f'(x_0 ) \). Z kolei z istnienia wektora \( \displaystyle y_0\in Y \) takiego, że istnieje

\( \displaystyle \lim_{h\to 0}\frac{\|f(x_0+h)-f(x_0)-h y_0\|_Y}{|h|}= 0 \)

wynika, że istnieje granica ilorazu różnicowego

\( \displaystyle \lim_{h\to 0} \frac{f(x_0+h)-f(x_0)}{h}, \)

i jest równa \( \displaystyle y_0 \), a więc \( \displaystyle f'(x_0)=y_0 \), gdyż ciąg zbieżny w przestrzeni unormowanej ma granicę określoną jednoznacznie.

Zauważmy, że funkcja

\( \displaystyle \mathbb{R} \ni h\mapsto h y_0\in Y \)

jest liniowa. Spostrzeżenie to prowadzi do uogólnienia pojęcia pochodnej funkcji jednej zmiennej na przypadek funkcji określonej na przestrzeni unormowanej \( \displaystyle X \) o wartościach w przestrzeni unormowanej \( \displaystyle Y \).

Niech \( \displaystyle X \) oraz \( \displaystyle Y \) będą przestrzeniami Banacha, tj. zupełnymi przestrzeniami unormowanymi z normami odpowiednio \( \displaystyle \|\cdot\|_X \) oraz \( \displaystyle \|\cdot\|_Y \). Niech \( \displaystyle U \) będzie podzbiorem otwartym przestrzeni \( \displaystyle X \).

Definicja 7.6.

Mówimy, że funkcja \( \displaystyle f: U\mapsto Y \) jest różniczkowalna w sensie Frecheta w punkcie \( \displaystyle a\in U \) (lub krótko: jest różniczkowalna w punkcie \( \displaystyle a \)), jeśli istnieje odwzorowanie \( \displaystyle L \) liniowe i ciągłe przestrzeni \( \displaystyle X \) w \( \displaystyle Y \) takie, że \( \displaystyle \|f(a+h)-f(a)-L(h)\|_{Y}=o(\|h\|_X) \), to znaczy

\( \displaystyle \frac{\|f(a+h)-f(a)-L(h)\|_{Y}}{\|h\|_X}\to 0, \text{ gdy }\to 0. \)

Odwzorowanie liniowe i ciągłe \( \displaystyle L \) nazywamy różniczką zupełną (lub różniczką (w sensie) Frecheta, bądź pochodną (w sensie) Frecheta) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) i oznaczamy symbolem \( \displaystyle d_a f \) bądź \( \displaystyle f'(a) \). Wartość różniczki funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) na wektorze \( \displaystyle h\in X \) oznaczamy symbolem \( \displaystyle d_a f(h) \) lub \( \displaystyle d_a f.h \) albo też \( \displaystyle f'(a).h \)

Do tej pory studiując odwzorowania liniowe w ramach algebry liniowej z geometrią w przypadku skończenie wymiarowym, przywykliśmy do faktu, że

Uwaga 7.7.

Każde odwzorowanie liniowe \( \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^m \) określone na przestrzeni o skończonym wymiarze jest ciągłe.

Może więc zastanawiać żądanie ciągłości odwzorowania liniowego \( \displaystyle L \) w definicji różniczki Frecheta. Zanim podamy przykład odwzorowania liniowego, które nie jest ciągłe, sformułujemy warunki równoważne ciągłości odwzorowania liniowego.

Uwaga 7.8.

Niech \( \displaystyle X,Y \) będą przestrzeniami unormowanymi. Niech \( \displaystyle L: X\mapsto Y \) będzie odwzorowaniem liniowym (tj. addytywnym i jednorodnym). Następujące warunki są równoważne

1) \( \displaystyle L \) jest ciągłe,

2) \( \displaystyle L \) jest ciągłe w zerze,

3) \( \displaystyle L \) jest ograniczone, tzn. \( \displaystyle \sup_{x\neq 0}\frac{\|L x\|}{\|x\|} < \infty. \)

Wobec tych uwag przykład odwzorowania liniowego, które nie jest ciągłe, musimy podać na przestrzeni unormowanej o nieskończonym wymiarze.

Przykład 7.9.

Zbiór \( \displaystyle X \) wszystkich funkcji ciągłych określonych na przedziale domkniętym \( \displaystyle [0,1] \) o wartościach w \( \displaystyle \mathbb{R} \) z normą

\( \displaystyle \|x\|=\sup \{|x(t)|, t\in [0,1]\} \)

stanowi przestrzeń Banacha, gdyż jest przestrzenią unormowaną z normą \( \displaystyle \|\cdot \| \) (co łatwo sprawdzić) i jest zupełna, ponieważ granica (w podanej normie) ciągu funkcji ciągłych jest funkcją ciągłą. Rozważmy odwzorowanie \( \displaystyle L: f\mapsto f' \), które funkcji ciągłej \( \displaystyle f \) i różniczkowalnej w \( \displaystyle X \) przyporządkowuje jej pochodną \( \displaystyle f' \). Z własności pochodnej wynika, że odwzorowanie \( \displaystyle L \) jest

-- addytywne, tj. \( \displaystyle L(f_1+f_2)=Lf_1 +Lf_2 \), dla dowolnych funkcji różniczkowalnych \( \displaystyle f_1 \), \( \displaystyle f_2 \),

-- jednorodne, tj. \( \displaystyle L(\lambda f)=\lambda L(f) \), dla dowolnej funkcji różniczkowalnej \( \displaystyle f \) i stałej \( \displaystyle \lambda \),

jest więc liniowe. Nie jest jednak ciągłe, gdyż nie jest ograniczone. Weźmy na przykład ciąg jednomianów \( \displaystyle x^n \):

\( \displaystyle \forall n\in \mathbb{N} : \|x^n\|=1. \)

Jednomiany te mają normę ograniczoną z góry przez \( \displaystyle 1 \). Gdyby odwzorowanie \( \displaystyle L \) było ciągłe, normy \( \displaystyle L(x^n ) \) byłyby ograniczone,

lecz nie są gdyż

\( \displaystyle \|L(x^n)\|=\|nx^{n-1}\|=n\to\infty, \text{ gdy }n\to\infty. \)

Wynika stąd, że \( \displaystyle L: f\mapsto f' \) nie jest ograniczone. Nie jest więc ciągłe, mimo że jest liniowe.

Kolejne twierdzenie podaje podstawowe własności różniczki Frecheta.

Twierdzenie 7.10.

Niech \( \displaystyle X, Y \) będą przestrzeniami Banacha.

a) Odwzorowanie afiniczne

\( \displaystyle F: X\ni x\mapsto x_0 +\Lambda(x)\in Y, \ \text{ gdzie } \Lambda \in L(X,Y), \)

jest różniczkowalne w sensie Frecheta w dowolnym punkcie \( \displaystyle x\in X \), a jego różniczką w każdym punkcie jest cześć liniowa odwzorowania afinicznego \( \displaystyle F \), tzn.

\( \displaystyle \forall x\in X \ \exists d_x F=\Lambda. \)

W szczególności różniczka odwzorowania liniowego i ciągłego jest tym samym odwzorowaniem:

\( \displaystyle d_x \Lambda =\Lambda, \ \Lambda \in L(X, Y). \)

b) Zestawienie funkcji

\( \displaystyle F: X\ni x\mapsto F(x)=\big(f_1(x), f_2(x)\big)\in Y_1\times Y_2 \)

jest różniczkowalne w punkcie \( \displaystyle a\in X \) wtedy i tylko wtedy, gdy różniczkowalne w punkcie \( \displaystyle a \) są składowe \( \displaystyle f_1: X\mapsto Y_1 \) oraz \( \displaystyle f_2: X\mapsto Y_2 \). Zachodzi wówczas równość

\( \displaystyle d_a F=(d_a f_1, d_a f_2). \) Innymi słowy różniczka zestawienia funkcji jest zestawieniem różniczek składowych odwzorowania. W szczególnym przypadku, gdy

\( \displaystyle F: X\ni x\mapsto \big(f_1(x), f_2(x), \dots, f_n(x)\big)\in \mathbb{R}^n, \)

mamy równość

\( \displaystyle d_a F=(d_a f_1, d_a f_2, \dots, d_a f_n). \)

c) Suma funkcji różniczkowalnych \( \displaystyle f: X\mapsto Y \), \( \displaystyle g:X\mapsto Y \) w punkcie \( \displaystyle a \) jest funkcją różniczkowalną. Różniczką sumy jest suma różniczek, tzn.

\( \displaystyle d_a(f+g)=d_a f+d_a g. \)

d) Iloczyn stałej \( \displaystyle C \) i funkcji różniczkowalnej \( \displaystyle f: X\mapsto Y \) w punkcie \( \displaystyle a\in X \) jest funkcją różniczkowalną w tym punkcie, przy czym

\( \displaystyle d_a (C\,f)=C \, d_a f. \)

Innymi słowy, stałą można wyłączyć przed różniczkę.

e) Jeśli funkcja \( \displaystyle f: X\mapsto Y \) jest różniczkowalna w sensie Frecheta w punkcie \( \displaystyle a \), to w tym punkcie jest ciągła.

Dowód 7.10.

Podane własności różniczki wynikają bezpośrednio z definicji.

Szczegółowe uzasadnienia pomijamy.

Kolejne twierdzenie dotyczy istnienia różniczki złożenia funkcji.

Twierdzenie 7.11.

Niech \( \displaystyle X, Y, Z \) będą przestrzeniami Banacha. Jeśli funkcja \( \displaystyle f: X\mapsto Y \) jest różniczkowalna w punkcie \( \displaystyle a \), a funkcja \( \displaystyle g:Y\mapsto Y \) jest różniczkowalna w punkcie \( \displaystyle f(a) \), to złożenie \( \displaystyle g\circ f : X\mapsto Z \) jest różniczkowalne w punkcie \( \displaystyle a \) i zachodzi równość:

\( \displaystyle d_a (g\circ f)=d_{f(a)}g \circ d_a f. \)

Innymi słowy, różniczka złożenia funkcji jest złożeniem ich różniczek.

Dowód 7.11.

Funkcja \( \displaystyle f \) jest różniczkowalna w punkcie \( \displaystyle a \), a funkcja \( \displaystyle g \) -- w punkcie \( \displaystyle y=f(a) \), więc

\( \displaystyle \begin{align*} & \|f(a+h)-f(a)-d_a f(h)\|_Y & =o(\|h\|_X) \\ & \|g(y+k)-g(y)-d_y g(k)\|_Z & =o(\|k\|_Y). \end{align*} \)

Stąd wobec ograniczoności różniczek \( \displaystyle d_a f \) oraz \( \displaystyle d_y g \) dostajemy

\( \displaystyle \|g(f(a+h))-g(f(a))-(d_y g\circ d_a f)(h)\|_Z=o(\|h\|_X), \text{ gdzie }y=f(a), \)

co dowodzi różniczkowalności złożenia \( \displaystyle g\circ f \) w punkcie \( \displaystyle a \) oraz równości \( \displaystyle d_a (g\circ f)=d_{f(a)}g \circ d_a f. \) Szczegółowe przekształcenia pomijamy (można je znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977).

Ważnym twierdzeniem w teorii różniczki Frecheta jest twierdzenie o różniczce odwzorowania odwrotnego.

Twierdzenie 7.12.

Niech \( \displaystyle f:X\supset U\ni x\mapsto f(x) \in Y \) będzie funkcją określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \) o wartościach w przestrzeni Banacha \( \displaystyle Y \).

Jeśli w pewnym otoczeniu \( \displaystyle U_1 \) punktu \( \displaystyle a\in X \) funkcja \( \displaystyle f \) ma ciągłą różniczkę

\( \displaystyle U_1\ni x\mapsto d_x f\in L(X, Y) \)

oraz różniczka \( \displaystyle d_a f\in L(X,Y) \) jest izomorfizmem przestrzeni \( \displaystyle X \) i \( \displaystyle Y \), to

1) w pewnym otoczeniu \( \displaystyle U_2\subset U_1 \) punktu \( \displaystyle a \) funkcja \( \displaystyle f: U_2\mapsto Y \) jest różnowartościowa;

2) funkcja odwrotna \( \displaystyle g: Y\supset f(U_2)\mapsto U_2\subset X \) do funkcji \( \displaystyle f \) (zacieśnionej do zbioru \( \displaystyle U_2 \)) jest ciągła;

3) funkcja odwrotna \( \displaystyle g \) jest różniczkowalna w punkcie \( \displaystyle f(a) \) i zachodzi równość

\( \displaystyle d_{f(a)}g=(d_a f)^{-1}. \)

Innymi słowy, różniczka funkcji odwrotnej jest odwrotnością różniczki.

Dowód 7.12.

(szkic) Szczegóły dowodu (które pomijamy) można znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977. Zauważmy, że jeśli funkcja \( \displaystyle g \) jest odwrotna do \( \displaystyle f \), to złożenie \( \displaystyle g(f(x))=x \), dla każdego \( \displaystyle x\in X \), tzn. \( \displaystyle g\circ f: X \mapsto X \) jest identycznością na przestrzeni \( \displaystyle X \). Ponieważ \( \displaystyle \mathrm{id}\,: X\mapsto X \) odwzorowaniem liniowym i ciągłym, więc jest różniczkowalne i jego różniczką jest \( \displaystyle \mathrm{id}\, \). Stąd na mocy twierdzenia o różniczce złożenia mamy

\( \displaystyle d_{f(a)}g\circ d_a f = d_a (g\circ f)=d_a\mathrm{id}\, =\mathrm{id}\,. \)

Wobec założenia o izomorficzności \( \displaystyle d_a f\in L(X,Y) \) istnieje odwzorowanie odwrotne \( \displaystyle (d_a f)^{-1} \in L(Y,X) \), które jest różniczką funkcji odwrotnej \( \displaystyle g \) w punkcie \( \displaystyle f(a) \), czyli \( \displaystyle d_{f(a)}g=(d_a f)^{-1} \).

Twierdzenie, które sformułowaliśmy, nazywa się twierdzeniem o lokalnej odwracalności odwzorowania lub twierdzeniem o lokalnym dyfeomorfizmie.

Wyrażenie różniczki Frecheta za pomocą pochodnych cząstkowych

W poprzednim module zdefiniowaliśmy pochodną kierunkową funkcji \( \displaystyle f:X\mapsto \mathbb{R} \) w punkcie \( \displaystyle a \) w kierunku \( \displaystyle v\neq 0 \). Możemy tę samą definicję powtórzyć również w przypadku funkcji \( \displaystyle f:X\mapsto Y \), w przypadku, gdy zbiorem wartości funkcji \( \displaystyle f:X\mapsto Y \), jest dowolna przestrzeń unormowana \( \displaystyle Y \):

\( \displaystyle \partial_v f(a)=\lim_{t\to 0}\frac{f(a+tv)-f(a)}{t}, \)

gdzie \( \displaystyle t\in \mathbb{R} \), a zbieżność ilorazów różnicowych do granicy \( \displaystyle \partial_v f(a)\in Y \) przy \( \displaystyle t\to 0 \) rozumiemy w sensie zbieżności w normie przestrzeni \( \displaystyle Y \).

Uwaga 7.13.

Niech \( \displaystyle v\in X \) będzie dowolnym wektorem jednostkowym z przestrzeni \( \displaystyle X \), tzn. \( \displaystyle \|v\|=1 \). Jeśli funkcja \( \displaystyle f: X\mapsto Y \) jest różniczkowalna w sensie Frecheta w punkcie \( \displaystyle a \), to istnieje pochodna kierunkowa \( \displaystyle \partial_v f(a) \) w dowolnym kierunku \( \displaystyle v \),

przy czym zachodzi równość

\( \displaystyle \partial_v f(a)=d_a f(v) \text{ dla } \|v\|=1. \)

Ponadto funkcja \( \displaystyle v\mapsto \partial_v f(a) \) jest liniowa i ciągła.

Dowód 7.13.

Skoro

\( \displaystyle \displaystyle \frac{\|f(a+h)-f(a)-d_a f (h)\|}{\|h\|}\to 0, \text{ przy }\|h\|\to 0, \)

więc w szczególności dla \( \displaystyle h=tv \) mamy

\( \displaystyle \frac{\|f(a+tv)-f(a)-d_a f (tv)\|}{\|tv\|}\to 0. \)

Wobec liniowości różniczki \( \displaystyle d_a f(tv)=t d_a f(v) \) oraz faktu, że \( \displaystyle \|tv \|=|t| \), mamy

\( \displaystyle \bigg\|\frac{f(a+tv)-f(a)}{t}-d_a f (v)\bigg\|\to 0, \)

czyli iloraz różnicowy \( \displaystyle \frac{f(a+tv)-f(a)}{t} \) zmierza przy \( \displaystyle t\to 0 \) do granicy \( \displaystyle d_a f(v) \), więc istnieje pochodna kierunkowa \( \displaystyle \partial_v f(a) \) i jest równa wartości różniczki zupełnej funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) na wektorze \( \displaystyle v \). Stąd funkcja \( \displaystyle v\mapsto \partial_v f(a)=d_a f (v) \) jest liniowa i ciągła.

Uwaga 7.14.

Niech \( \displaystyle f:X\mapsto Y \) będzie funkcją różniczkowalną w punkcie \( \displaystyle a\in X \). Wówczas \( \displaystyle d_a f=0 \) wtedy i tylko wtedy, gdy zeruje się

pochodna kierunkowa \( \displaystyle \partial_v f(a)=0 \) w dowolnym kierunku.

Powstaje pytanie o istnienie różniczki Frecheta funkcji \( \displaystyle f: X\mapsto Y \) w punkcie, w którym istnieją pochodne kierunkowe w dowolnym kierunku. Negatywną odpowiedź na to pytanie podaje

Przykład 7.15.

Funkcja \( \displaystyle f(x,y)=\root{3}\of{x^3+y^3} \) ma w punkcie \( \displaystyle 0\in \mathbb{R}^2 \) pochodne kierunkowe \( \displaystyle \partial_v f(0) \) w dowolnym kierunku \( \displaystyle \|v\|=1 \), nie jest jednak różniczkowalna w sensie Frecheta w tym punkcie. Zauważmy, że dowolny wektor \( \displaystyle \|v\|=1 \) można na płaszczyźnie \( \displaystyle \mathbb{R}^2 \) jednoznacznie przedstawić w postaci \( \displaystyle v=(\cos\varphi, \sin\varphi) \), gdzie \( \displaystyle 0\leq \varphi < 2\pi \). Stąd \( \displaystyle \lim_{t\to 0}\frac{f(0+tv)-f(0)}{t}=\sqrt{\cos^3\varphi+\sin^3\varphi} \).

Jednak funkcja \( \displaystyle v\mapsto \partial_v f(0) \) nie jest liniowa.

Przykład 7.16.

Funkcja

\( \displaystyle f(x,y)=\left\{\begin{align*} \frac{x^2 y}{x^2+y^2}, \text{ dla } (x,y)\neq 0 \\ 0, \text{ dla } (x,y)=0\end{align*} \right. \)

ma w punkcie \( \displaystyle 0 \) pochodną kierunkową w każdym kierunku, nie ma jednak różniczki Frecheta w tym punkcie.

Z praktycznego punktu widzenia w zastosowaniach najważniejsza jest możliwość wyrażenia różniczki w sensie Frecheta za pomocą pochodnych cząstkowych.

Twierdzenie 7.17.

Niech \( \displaystyle f=(f_1, f_2, \dots, f_m):\mathbb{R}^n \supset U\mapsto \mathbb{R}^m \) będzie funkcją różniczkowalną w sensie Frecheta w punkcie \( \displaystyle a\in U \). Istnieją wówczas pochodne cząstkowe

\( \displaystyle \begin{align*} & \frac{\partial f_1}{\partial x_1}(a), & \frac{\partial f_1}{\partial x_2}(a), & \dots, & \frac{\partial f_1}{\partial x_n}(a) \\ & \frac{\partial f_2}{\partial x_1}(a), & \frac{\partial f_2}{\partial x_2}(a), & \dots, & \frac{\partial f_2}{\partial x_n}(a) \\ & \vdots & \vdots \quad & \dots & \vdots \\ & \frac{\partial f_m}{\partial x_1}(a), & \frac{\partial f_m}{\partial x_2}(a), & \dots, & \frac{\partial f_m}{\partial x_n}(a)\end{align*} \)

i są one wyrazami macierzy odwzorowania liniowego \( \displaystyle d_a f\in L(\mathbb{R}^n, \mathbb{R}^m) \) w bazie kanonicznej, to znaczy, dla dowolnego wektora \( \displaystyle h\in \mathbb{R}^n \) wartość \( \displaystyle d_a f(h) \) odwzorowania \( \displaystyle d_a f \) na wektorze \( \displaystyle h \) jest wektorem z \( \displaystyle \mathbb{R}^m \) o współrzędnych

\( \displaystyle \bigg(\sum_{j=1}^n \frac{\partial f_1}{\partial x_j}(a) h_j, \sum_{j=1}^n \frac{\partial f_2}{\partial x_j}(a) h_j,\dots, \sum_{j=1}^n \frac{\partial f_m}{\partial x_j}(a) h_j\bigg). \)

Dowód 7.17.

Wykazaliśmy, że zachodzi równość \( \displaystyle \partial_v f(a)=d_a f (v) \). Ponieważ \( \displaystyle d_a f =(d_a f_1, d_a f_2, \dots, d_a f_m) \), więc wystarczy wykazać twierdzenie dla składowych odwzorowania \( \displaystyle f \), tj. dla funkcji \( \displaystyle f_i: \mathbb{R}^n\mapsto \mathbb{R} \). W dalszym ciągu dowodu będziemy pomijać indeks dolny \( \displaystyle i \), zakładając, że \( \displaystyle f_i=f \) jest funkcją o wartościach w zbiorze liczb rzeczywistych. Dla dowolnego wektora \( \displaystyle e_i \), \( \displaystyle i=1,2,\dots, n \) bazy kanonicznej przestrzeni \( \displaystyle \mathbb{R}^n \) mamy (z definicji pochodnej cząstkowej) równość \( \displaystyle \partial_{e_i} f(a)=\frac{\partial f}{\partial x_i}(a) \), więc dla dowolnego wektora \( \displaystyle h=h_1e_1+h_2e_2+\dots+h_ne_n \) mamy

\( \displaystyle \begin{align*} d_a f(h) & =d_a f(h_1e_1+h_2e_2+\dots+h_ne_n) \\ & =h_1 d_a f(e_1)+h_2 d_a f(e_2)+\dots+h_n d_a f(e_n) \\ & =h_1\frac{\partial f}{\partial x_1}(a)+h_2\frac{\partial f}{\partial x_2}(a)+\dots+h_n\frac{\partial f}{\partial x_n}(a).\end{align*} \)

Uwaga 7.18.

W ramach kursu algebry liniowej zwykliśmy zapisywać wektory \( \displaystyle h=(h_1, h_2, \dots, h_n)\in \mathbb{R}^n \) w postaci macierzy kolumnowej:

\( \displaystyle \left[\begin{array}{r} h_1 \\ h_2 \\ \vdots \\ h_n\end{array} \right]. \)

Jeśli w taki sam sposób zapiszemy również zestawienie różniczek funkcji \( \displaystyle f=(f_1, f_2, \dots, f_m) \):

\( \displaystyle \left[\begin{array}{r} d_a f_1 \\ d_a f_2 \\ \vdots \\ d_a f_m\end{array} \right], \)

to macierz pochodnych cząstkowych \( \displaystyle \frac{\partial f_i}{\partial x_j}(a) \), \( \displaystyle i=1,2,\dots, m \), \( \displaystyle j=1,2,\dots, n \), powinniśmy zapisać następująco:

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

aby móc stosować algorytm mnożenia (składania) macierzy:

\( \displaystyle \left[\begin{array}{r} d_a f_1 \\ d_a f_2 \\ \vdots \\ d_a f_m\end{array} \right]= \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right]\, \left[\begin{array}{r} h_1 \\ h_2 \\ \vdots \\ h_n\end{array} \right], \)

który w tym przypadku prowadzi do uzyskanego przez nas wzoru:

\( \displaystyle \begin{align*} d_a f_i(h) & =\frac{\partial f_i}{\partial x_1}(a)h_1+\frac{\partial f_i}{\partial x_2}(a)h_2+\dots+\frac{\partial f_i}{\partial x_n}(a)h_n \\ & =\sum_{k=1}^n \frac{\partial f_i}{\partial x_k}(a)h_k, \end{align*} \)

gdzie \( \displaystyle i=1,2,\dots, m \).

Definicja 7.19.

Macierz \( \displaystyle \left[\frac{\partial f_i }{\partial x_j}(a)\right] \), \( \displaystyle i=1,2,\dots, m \), \( \displaystyle j=1,2,\dots, n \), tj. macierz

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

nazywamy macierzą Jacobiego funkcji (odwzorowania) \( \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^m \) w punkcie \( \displaystyle a\in\mathbb{R}^n \). Zwróćmy uwagę, że macierz Jacobiego jest macierzą prostokątną o \( \displaystyle n \) kolumnach i \( \displaystyle m \) wierszach. W szczególnym przypadku, gdy \( \displaystyle n=m \) (tj: \( \displaystyle f: \mathbb{R}^n\mapsto \mathbb{R}^n \)) możemy policzyć wyznacznik macierzy Jacobiego

\( \displaystyle \text{jac}_a f: =\det \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

który nazywamy jakobianem funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) i oznaczamy symbolami \( \displaystyle \text{jac}_a f \), \( \displaystyle \text{jac} f(a) \), \( \displaystyle J_a f \), \( \displaystyle |f'(a)| \), \( \displaystyle |d_a f| \) lub \( \displaystyle \det d_a f \).

Uwaga 7.20.

Autorzy podręczników używają wielu różnych (często niejednolitych) oznaczeń na oznaczenie macierzy Jacobiego i jakobianu. Pamiętajmy jednak, że jakobian jest liczbą równą wyznacznikowi macierzy Jacobiego, tj. macierzy

pochodnych cząstkowych funkcji \( \displaystyle f:\mathbb{R}^n\mapsto \mathbb{R}^n \).

Kolejny wniosek dotyczy wyrażenia różniczki złożenia dwóch funkcji. Jest bardzo często wykorzystywany w praktycznych obliczeniach

Wniosek 7.21.

Niech \( \displaystyle f=(f_1, f_2, \dots, f_m): \mathbb{R}^n\mapsto \mathbb{R}^m \) będzie funkcją różniczkowalną w punkcie \( \displaystyle a\in \mathbb{R}^n \) i niech \( \displaystyle g=(g_1, g_2, \dots, g_k) : \mathbb{R}^m\mapsto \mathbb{R}^k \) będzie funkcją różniczkowalną w punkcie \( \displaystyle f(a) \). Wiemy już, że istnieje różniczka złożenia \( \displaystyle g\circ f: \mathbb{R}^n\mapsto \mathbb{R}^k \) w punkcie \( \displaystyle a \) i jest złożeniem różniczek \( \displaystyle d_{f(a)}g \) oraz \( \displaystyle d_a f \). Różniczkę \( \displaystyle d_a f \) reprezentuje macierz pochodnych cząstkowych:

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array}\right], \)

a różniczkę \( \displaystyle d_{f(a)}g \) macierz

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial g_1}{\partial x_1}(b) & \displaystyle\frac{\partial g_1}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_1}{\partial x_n}(b) \\ \displaystyle \frac{\partial g_2}{\partial x_1}(b) & \displaystyle\frac{\partial g_2}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_2}{\partial x_n}(b) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial g_m}{\partial x_1}(b) & \displaystyle\frac{\partial g_m}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_m}{\partial x_n}(b) \end{array} \right], \)

gdzie \( \displaystyle b=f(a) \). Złożenie odwzorowań liniowych \( \displaystyle d_{f(a)}g\circ d_a f \) reprezentuje iloczyn podanych macierzy:

\( \displaystyle \left [ \begin{array}{rrrr} \displaystyle \frac{\partial g_1}{\partial x_1}(b) & \displaystyle\frac{\partial g_1}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_1}{\partial x_n}(b) \\ \displaystyle \frac{\partial g_2}{\partial x_1}(b) & \displaystyle\frac{\partial g_2}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_2}{\partial x_n}(b) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial g_m}{\partial x_1}(b) & \displaystyle\frac{\partial g_m}{\partial x_2}(b) & \dots & \displaystyle\frac{\partial g_m}{\partial x_n}(b) \end{array} \right], \)

\( \displaystyle \left[ \begin{array}{rrrr} \displaystyle \frac{\partial f_1}{\partial x_1}(a) & \displaystyle\frac{\partial f_1}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_1}{\partial x_n}(a) \\ \displaystyle \frac{\partial f_2}{\partial x_1}(a) & \displaystyle\frac{\partial f_2}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_2}{\partial x_n}(a) \\ \displaystyle \dots & \dots & \dots & \dots \\ \displaystyle \frac{\partial f_m}{\partial x_1}(a) & \displaystyle\frac{\partial f_m}{\partial x_2}(a) & \dots & \displaystyle\frac{\partial f_m}{\partial x_n}(a) \end{array} \right], \)

Stąd pochodną cząstkową \( \displaystyle i \)-tej składowej złożenia \( \displaystyle g\circ f \) wyraża suma

\( \displaystyle \frac{\partial (g\circ f)_i}{\partial x_j}(a)=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} (f(a))\cdot \frac{\partial f_r}{\partial x_j}(a). \)

Uwaga 7.22.

Otrzymany wzór na pochodne cząstkowe złożenia często zapisuje się bez wyszczególniania argumentów w postaci

\( \displaystyle \frac{\partial (g\circ f)_i}{\partial x_j}=\sum_{r=1}^m \bigg(\frac{\partial g_i}{\partial y_r}\circ f\bigg)\cdot \frac{\partial f_r}{\partial x_j}. \)

Czasem też wzór ten upraszcza się (gdy nie ma obawy nieporozumienia)

\( \displaystyle \frac{\partial g_i}{\partial x_j}=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} \cdot \frac{\partial f_r}{\partial x_j}. \)

lub jeszcze prościej

\( \displaystyle \frac{\partial g_i}{\partial x_j}=\sum_{r=1}^m \frac{\partial g_i}{\partial y_r} \cdot \frac{\partial y_r}{\partial x_j}, \)

gdzie przez \( \displaystyle y=(y_1, \dots, y_r, \dots, y_m) \) rozumie się zmienną niezależną (po której różniczkuje się funkcję \( \displaystyle g_i \) w pierwszym czynniku), a równocześnie \( \displaystyle (y_1, \dots, y_r, \dots, y_m)=f \) oznacza składowe funkcji \( \displaystyle f \).

Uwaga 7.23.

W wielu klasycznych podręcznikach symbolem \( \displaystyle dx_i : \mathbb{R}^n \ni (x_1, x_2, \dots, x_i, \dots, x_n)\mapsto x_i\in \mathbb{R} \) oznacza się rzutowanie na \( \displaystyle i \)-tą współrzędną. Zwróćmy uwagę, że każde z rzutowań \( \displaystyle dx_1, dx_2, \dots, dx_n \) jest odwzorowaniem liniowym i ciągłym z \( \displaystyle \mathbb{R}^n \) do \( \displaystyle \mathbb{R} \). Wobec tego zamiast przedstawiać

wartość różniczki na wektorze \( \displaystyle h=(h_1, h_2, \dots, h_n) \) za pomocą sumy

\( \displaystyle d_a f(h)=h_1\frac{\partial f(a)}{\partial x_1}+h_2\frac{\partial f(a)}{\partial x_2}+\dots+h_n\frac{\partial f(a)}{\partial x_n} \)

możemy zapisać bezargumentowo jako kombinację liniową rzutowań \( \displaystyle dx_i \) o współczynnikach liczbowych \( \displaystyle \frac{\partial f(a)}{\partial x_i} \), czyli

\( \displaystyle d_a f=\frac{\partial f(a)}{\partial x_1}dx_1+\frac{\partial f(a)}{\partial x_2}dx_2 +\dots+\frac{\partial f(a)}{\partial x_n}dx_n. \)

Wówczas wartość różniczki \( \displaystyle d_a f \) na wektorze \( \displaystyle h=(h_1, h_2, \dots, h_n) \) wyraża się tym samym wzorem, co poprzednio:

\( \displaystyle \begin{align*} d_a f(h) & =\bigg(\frac{\partial f(a)}{\partial x_1}dx_1+\frac{\partial f(a)}{\partial x_2}dx_2 +\dots+\frac{\partial f(a)}{\partial x_n}dx\bigg)(h) \\ & =\frac{\partial f(a)}{\partial x_1}dx_1(h)+\frac{\partial f(a)}{\partial x_2}dx_2(h) +\dots+\frac{\partial f(a)}{\partial x_n}dx_n(h) \\ & =\frac{\partial f(a)}{\partial x_1 } h_1+\frac{\partial f(a)}{\partial x_2 } h_2 + \dots + \frac{\partial f(a)}{\partial x_n} h_n .\end{align*} \)

Wniosek 7.24.

Jeśli \( \displaystyle f : \mathbb{R}^n \supset U\mapsto \mathbb{R} \) jest funkcją różniczkowalną w punkcie \( \displaystyle a\in U \), to dla dowolnego wektora \( \displaystyle h\in \mathbb{R}^n \) wartość różniczki \( \displaystyle d_a f \) na wektorze \( \displaystyle h \) jest iloczynem skalarnym gradientu \( \displaystyle \mathrm{grad}\, f(a) \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) i wektora \( \displaystyle h \), tj.

\( \displaystyle d_a f(h)=(\mathrm{grad}\, f(a) | h)=\frac{\partial f(a)}{\partial x_1 } h_1+\frac{\partial f(a)}{\partial x_2 } h_2 + \dots + \frac{\partial f(a)}{\partial x_n} h_n, \)

gdzie \( \displaystyle (x | y)=x_1 y_1+x_2y_2+\dots+x_n y_n \) oznacza iloczyn skalarny wektorów \( \displaystyle x=(x_1, x_2, \dots, x_n) \) i \( \displaystyle y=(y_1, y_2, \dots, y_n) \) w przestrzeni \( \displaystyle \mathbb{R}^n \).

Ponieważ iloczyn skalarny wektorów \( \displaystyle x \) oraz \( \displaystyle y \) oznacza się także często za pomocą kropki: \( \displaystyle x.y \) albo \( \displaystyle x\cdot y \), stąd wartość różniczki \( \displaystyle d_a f \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) na wektorze \( \displaystyle h \) oznacza się też czasem symbolem: \( \displaystyle d_a f.h \) zamiast \( \displaystyle d_a f(h) \).

Pamiętamy, że dla dowolnych wektorów \( \displaystyle x=(x_1, x_2, \dots, x_n) \) oraz \( \displaystyle y=(y_1, y_2, \dots, y_n) \) zachodzi nierówność Schwarza:

\( \displaystyle |(x|y)|\leq \|x\| \ \|y\|, \)

czyli

\( \displaystyle |x_1 y_1+x_2y_2+\dots+x_n y_n|\leq \sqrt{|x_1|^2+|x_2|^2+\dots+|x_n|^2} \ \sqrt{|y_1|^2+|y_2|^2+\dots+|y_n|^2}, \)

przy czym równość w tej nierówności zachodzi wówczas, gdy wektory \( \displaystyle x \) oraz \( \displaystyle y \) są liniowo zależne. Wnioskiem z nierówności Schwarza jest więc

Uwaga 7.25.

Niech \( \displaystyle \|v\|=1 \) będzie wektorem o jednostkowej długości w \( \displaystyle \mathbb{R}^n \). Pochodna kierunkowa \( \displaystyle \partial_v f(a) \) osiąga największą wartość (co do wartości bezwzględnej) w kierunku wektora gradientu.

Dowód 7.25.

Skoro \( \displaystyle d_a f (v)=\partial_v f(a) \) oraz \( \displaystyle d_a f(v)=\sum_{k=1}^n \frac{\partial f(a)}{\partial x_k}v_k=(\mathrm{grad}\, f(a) | v) \), więc \( \displaystyle \partial_v f(a)=(\mathrm{grad}\, f(a) | v) \). Stąd na mocy nierówności Schwarza:

\( \displaystyle |\partial_v f(a)|=|(\mathrm{grad}\, f (a) |v )|\leq \|\mathrm{grad}\, f (a)\| \ \|v\|, \)

przy czym funkcja \( \displaystyle S^{n-1}\supset v\mapsto |\partial_v f (a)| \) osiąga wartość największą na sferze jednostkowej \( \displaystyle S^{n-1}=\{v\in \mathbb{R}^n: (v|v)=1\} \), gdy wektor \( \displaystyle v \) jest równoległy do wektora gradientu \( \displaystyle \mathrm{grad}\, f(a) \).

Powstaje naturalne pytanie o warunki, jakie powinny spełniać pochodne cząstkowe, aby istniała różniczka. Warunek taki podaje

Twierdzenie 7.26.

(twierdzenie o istnieniu różniczki) Niech \( \displaystyle f=(f_1, f_2, \dots, f_m ):\mathbb{R}^n\mapsto \mathbb{R}^m \) będzie funkcją określoną w pewnym

otwartym otoczeniu \( \displaystyle U\subset \mathbb{R}^n \) punktu \( \displaystyle \alpha \). Jeśli pochodne cząstkowe \( \displaystyle \frac{\partial f_i}{\partial x_j}(\alpha) \) istnieją i są ciągłe w otoczeniu punktu \( \displaystyle \alpha \), to istnieje różniczka \( \displaystyle d_\alpha f \).

Dowód twierdzenia pomijamy (można go znaleźć np. na stronie 175. podręcznika Ryszarda Rudnickiego, Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001).

Interpretacja geometryczna różniczki

Pamiętamy, że jeśli funkcja jednej zmiennej \( \displaystyle f:\mathbb{R}\mapsto \mathbb{R} \) jest różniczkowalna w punkcie \( \displaystyle a \), to jej wykres ma styczną w punkcie \( \displaystyle (a, f(a)) \) o równaniu \( \displaystyle y-f(a)=f'(a)(x-a) \). Innymi słowy pochodna funkcji jednej zmiennej jest współczynnikiem kierunkowym stycznej do wykresu funkcji w punkcie \( \displaystyle (a, f(a)) \).

Uwaga 7.27.

Jeśli \( \displaystyle f:\mathbb{R}^2\mapsto \mathbb{R} \) jest funkcją różniczkowalną w sensie Frecheta w punkcie \( \displaystyle (a,b)\in \mathbb{R}^2 \), to powierzchnia o równaniu \( \displaystyle z=f(x,y) \), która jest wykresem funkcji \( \displaystyle f \), ma płaszczyznę styczną w punkcie \( \displaystyle (a,b, f(a,b)) \) o równaniu

\( \displaystyle z-f(a,b)=\frac{\partial f(a,b)}{\partial x}(x-a)+\frac{\partial f(a,b)}{\partial y}(y-b). \)

Przykład 7.28.

Płaszczyzna styczna do paraboloidy

\( \displaystyle P=\{(x,y,z)\in \mathbb{R}^3 : z=x^2+y^2\} \)

w punkcie \( \displaystyle (a,b, a^2+b^2)\in P \) ma równanie

\( \displaystyle z-(a^2+b^2) = 2(x-a)+2(y-b). \)

Różniczki wyższych rzędów

rycina

Niech \( \displaystyle X, Y \) będą przestrzeniami Banacha i niech \( \displaystyle f: U\mapsto Y \) będzie funkcją określoną na zbiorze otwartym \( \displaystyle U\subset X \). Załóżmy, że w każdym punkcie \( \displaystyle a\in U \) istnieje różniczka \( \displaystyle d_a f\in L(X,Y) \), która -- przypomnijmy -- jest odwzorowaniem liniowym i ciągłym z \( \displaystyle X \) do \( \displaystyle Y \).

Definicja 7.29.

Mówimy, że funkcja \( \displaystyle f: U\mapsto Y \) jest dwukrotnie różniczkowalna w punkcie \( \displaystyle a \), jeśli różniczkowalna jest w punkcie \( \displaystyle a \) funkcja \( \displaystyle d. f: U\ni x\mapsto d_x f\in L(X, Y) \). Różniczkę funkcji \( \displaystyle d. f \) w punkcie \( \displaystyle a \), która jest elementem przestrzeni \( \displaystyle L(X, L(X, Y)) \), nazywamy drugą różniczką funkcji \( \displaystyle f \) (lub różniczką rzędu drugiego funkcji \( \displaystyle f \)) w punkcie \( \displaystyle a \) i oznaczamy symbolem \( \displaystyle d_a ^2 f \).

Uwaga 7.30.

W ramach algebry liniowej dowodzi się, że przestrzenie \( \displaystyle L(X, L(X,Y)) \) oraz \( \displaystyle L^2 (X,Y) \) (czyli przestrzeń odwzorowań dwuliniowych ciągłych na \( \displaystyle X \) o wartościach w \( \displaystyle Y \)) są izomorficzne. Stąd też często mówimy, że różniczka rzędu drugiego jest odwzorowaniem dwuliniowym ciągłym na \( \displaystyle X \) o wartościach w \( \displaystyle Y \).

Podobnie jak w przypadku funkcji jednej zmiennej, nazwijmy różniczką rzędu zerowego funkcji \( \displaystyle f \) samą funkcję \( \displaystyle f \), tzn. \( \displaystyle d^0 f=f \). Ponadto, aby uprościć zapis i wypowiedzi twierdzeń, przyjmijmy, że \( \displaystyle L^0 (X,Y):=Y \).
Załóżmy, że w każdym punkcie \( \displaystyle a\in U \) istnieje \( \displaystyle d^k _a f \) różniczka rzędu \( \displaystyle k \) funkcji \( \displaystyle f: U\mapsto Y \), \( \displaystyle k\geq 0 \), która jest elementem przestrzeni \( \displaystyle L^k (X, Y) \) odwzorowań \( \displaystyle k \) liniowych ciągłych na \( \displaystyle X \) o wartościach w przestrzeni \( \displaystyle Y \).

>Definicja 7.31.

Mówimy, że funkcja \( \displaystyle f \) jest \( \displaystyle k+1 \) krotnie różniczkowalna w punkcie \( \displaystyle a\in U \), jeśli w punkcie tym różniczkowalna jest funkcja \( \displaystyle d.^{k}f : U\ni x\mapsto d^{k}_x f\in L^k (X, Y) \). Różniczkę funkcji \( \displaystyle d.^k f \) w punkcie \( \displaystyle a \), która jest elementem przestrzeni (izomorficznej w przestrzenią) \( \displaystyle L(X, L^k (X, Y)) \), będziemy oznaczać symbolem \( \displaystyle d^{k+1} _a f \) i będziemy nazywać różniczką rzędu \( \displaystyle k+1 \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) (lub krócej:

\( \displaystyle k+1 \) różniczką funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \)).

Uwaga 7.32.

Dowodzi się, że także przestrzenie \( \displaystyle L(X, L^k (X, Y)) \) oraz \( \displaystyle L^{k+1} (X, Y) \) (czyli przestrzeń odwzorowań \( \displaystyle k+1 \) liniowych i ciągłych na \( \displaystyle X \) o wartościach w przestrzeni \( \displaystyle Y \)) są izomorficzne, więc często różniczkę rzędu \( \displaystyle k+1 \) funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) będziemy nazywać odwzorowaniem \( \displaystyle k+1 \) liniowym i ciągłym na \( \displaystyle X \) o wartościach w \( \displaystyle Y \).

Pamiętamy, że jeśli \( \displaystyle X=\mathbb{R}^n \) i \( \displaystyle Y=\mathbb{R} \), to wartość różniczki \( \displaystyle d_a f\in L(\mathbb{R}^n, \mathbb{R}) \) na wektorze \( \displaystyle h=(h_1, h_2, \dots, h_n)\in\mathbb{R}^n \) wyraża suma

\( \displaystyle d_a f(h)=\frac{\partial f(a)}{\partial x_1} h_1 + \frac{\partial f(a)}{\partial x_2} h_2+ \dots +\frac{\partial f(a)} {\partial x_n} h_n. \)

Sumę tę można także wyrazić bez argumentu \( \displaystyle h \)

\( \displaystyle d_a f=\frac{\partial f(a)}{\partial x_1} dx_1 + \frac{\partial f(a)}{\partial x_2} dx_2+ \dots +\frac{\partial f(a)} {\partial x_n} dx_n, \)

gdzie

\( \displaystyle dx_i :\mathbb{R}^n \ni h=(h_1, h_2, \dots, h_n)\mapsto dx_i (h)=h_i\in\mathbb{R} \)

jest rzutowaniem na \( \displaystyle i \)-tą współrzędną.

Podobnie jak w przypadku funkcji jednej zmiennej definiujemy funkcje klasy \( \displaystyle C^k \).

Definicja 7.33.

Mówimy, że \( \displaystyle f: X\supset U\mapsto Y \) jest klasy \( \displaystyle C^k \) w zbiorze \( \displaystyle U \) (\( \displaystyle k=0,1,2,\dots \)), jeśli w każdym punkcie \( \displaystyle a\in U \) istnieje różniczka rzędu \( \displaystyle k \) funkcji \( \displaystyle f \) i odwzorowanie \( \displaystyle U\ni a\mapsto d^k _a f\in L^k (X,Y) \) jest ciągłe.

Wniosek 7.34.

Jeśli \( \displaystyle f \) jest klasy \( \displaystyle C^2 (U) \), to w każdym punkcie tego zbioru pochodne cząstkowe mieszane są równe, tzn. zachodzi równość

\( \displaystyle \frac{\partial }{\partial x_j }\frac{\partial }{\partial x_i }f (a)= \frac{\partial }{\partial x_i }\frac{\partial }{\partial x_j }f(a) \)

dla dowolnych \( \displaystyle i, j\in\{1,2,\dots, n\} \) w dowolnym punkcie \( \displaystyle a\in U \).

Innymi słowy: druga różniczka \( \displaystyle d^2 _a f \) jest odwzorowaniem dwuliniowym symetrycznym.

Załóżmy, że \( \displaystyle f\in C^m (U) \), gdzie \( \displaystyle U\subset \mathbb{R}^n \) jest podzbiorem otwartym przestrzeni skończenie wymiarowej \( \displaystyle \mathbb{R}^n \). Wówczas różniczkę rzędu \( \displaystyle m \) można wyrazić efektywnie za pomocą pochodnych cząstkowych rzędu \( \displaystyle m \).

Twierdzenie 7.35.

Jeśli \( \displaystyle f\in C^m (U) \), to w dowolnym punkcie \( \displaystyle a\in U \) wartość różniczki rzędu \( \displaystyle m \) na \( \displaystyle m \)-ce jednakowych wektorów \( \displaystyle h=(h_1, h_2, \dots, h_n)\in \mathbb{R}^n \) wyraża suma

\( \displaystyle d^m _a f\underbrace{(h,h, \dots, h)}_{m \text{ wektorów }h} =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m}{\partial x^\alpha} f(a)h^\alpha, \)

gdzie sumowanie przebiega po wszystkich

możliwych wielowskaźnikach (\( \displaystyle n \)-wskaźnikach)

\( \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n)\in \mathbb{N}_0^n \)

o długości

\( \displaystyle |\alpha|=\alpha_1+\alpha_2+\dots+\alpha_n= m, \)

natomiast

\( \displaystyle {m \choose \alpha}:=\frac{m!}{(m-|\alpha|)!\,\alpha!}, \)

jest uogólnieniem symbolu Newtona, w którym silnię wielowskaźnika \( \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n) \) definiujemy za pomocą iloczynu silni jego współrzędnych, tj.

\( \displaystyle \alpha !=\alpha_1 !\, \alpha_2 ! \dots \alpha_n ! \)

oraz

\( \displaystyle h^\alpha =h_1 ^{\alpha_1} \, h_2 ^{\alpha_2} \dots h_n ^{\alpha_n}. \)

Uwaga 7.36.

Wzór \( \displaystyle d^m _a f(h, h, \dots, h) =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m}{\partial x^\alpha} f(a)h^\alpha, \)

który podaliśmy w tezie twierdzenia czasem zapisuje się bez wyszczególniania argumentów w następującej postaci

\( \displaystyle d^m _a f =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m f(a)}{\partial x^\alpha} dx^\alpha \)

lub

\( \displaystyle d^m_. f =\sum_{|\alpha|=m} {m \choose \alpha} \frac{\partial ^m f}{\partial x^\alpha} dx^\alpha, \)

gdzie \( \displaystyle dx^\alpha : \mathbb{R}^n\mapsto \mathbb{R} \)

definiujemy na wektorze \( \displaystyle h\in \mathbb{R}^n \) wzorem

\( \displaystyle dx^\alpha (h):=h^\alpha=h_1^{\alpha_1} h_2^{\alpha_2} \dots h_n^{\alpha_n} \in \mathbb{R}. \)

Dowód 7.36.

Wykażemy podany wzór w przypadku funkcji dwóch zmiennych, aby uprościć notację. W ogólnym przypadku uzasadnienie jest podobne. Jeśli \( \displaystyle f:\mathbb{R}^2 \supset U\ni (x_1, x_2)\mapsto f(x_1, x_2) \) jest różniczkowalna, to wartość jej różniczki w punkcie \( \displaystyle a\in U \) na wektorze \( \displaystyle h=(h_1, h_2) \) wyraża suma

\( \displaystyle d_a f (h)=\frac{\partial }{\partial x_1} f(a) h_1+\frac{\partial }{\partial x_2} f(a)h_2. \)

Jeśli \( \displaystyle f \) jest dwukrotnie różniczkowalna, to

\( \displaystyle \begin{align*} d^2 f & =d\bigg(\frac{\partial f}{\partial x_1}dx_1+ \frac{\partial f}{\partial x_2}dx_2\bigg) \\ & =\frac{\partial }{\partial x_1} \bigg(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\bigg)dx_1 +\frac{\partial }{\partial x_2}\big(\frac{\partial f}{\partial x_1}dx_1 +\frac{\partial f}{\partial x_2}dx_2\big)dx_2 \\ & = \frac{\partial ^2 f}{\partial x_1\partial x_1}dx_1dx_1+\frac{\partial ^2 f}{\partial x_2\partial x_1}dx_2dx_1+\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2\partial x_2}dx_2dx_2 \\ & = \frac{\partial ^2 f}{\partial x_1^2}dx_1^2+2\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\frac{\partial ^2 f}{\partial x_2^2}dx_2^2 \\ & = \binom{2}{0}\frac{\partial ^2 f}{\partial x_1^2}dx_1^2+\binom{2}{1}\frac{\partial ^2 f}{\partial x_1\partial x_2}dx_1dx_2+\binom{2}{2}\frac{\partial ^2 f}{\partial x_2^2}dx_2^2 \\ & =\sum_{|\alpha|=2}\binom{2}{\alpha}\frac{\partial^\alpha f}{\partial x^\alpha}dx^\alpha,\end{align*} \)

gdyż pochodne cząstkowe mieszane \( \displaystyle \frac{\partial ^2 f}{\partial x_1\partial x_2} \) oraz \( \displaystyle \frac{\partial ^2 f}{\partial x_2\partial x_1} \) są równe wobec założenia o klasie funkcji \( \displaystyle f \). Następnie zakładając,

że wzór zachodzi dla różniczki rzędu \( \displaystyle 2\leq k < m \), dowodzimy go dla różniczki rzędu \( \displaystyle k+1 \). Szczegółowe przekształcenia pomijamy.

Ekstrema funkcji wielu zmiennych

Ekstrema funkcji wielu zmiennych.


Dowodzimy wzoru Taylora dla funkcji wielu zmiennych. Jego konsekwencją jest warunek wystarczający istnienia ekstremum. Pokazujemy szereg przykładów prowadzących do zastosowania wykazanego warunku wystarczającego oraz takich, w których nie jest to niezbędne.

Wzór Taylora dla funkcji wielu zmiennych

Niech \( \displaystyle f:X\mapsto Y \) będzie funkcją klasy \( \displaystyle C^{m+1} \) określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \) o wartościach w przestrzeni Banacha \( \displaystyle Y \). Podobnie jak w przypadku funkcji jednej zmiennej rzeczywistej zachodzi następujące

Twierdzenie 8.1. [twierdzenie Taylora]

Dla dowolnych punktów \( \displaystyle a \) oraz \( \displaystyle a+h \) zbioru \( \displaystyle U \) takich, że odcinek

\( \displaystyle \{a+th, \ t\in [0,1]\}\subset U, \)

zachodzi równość

\( \displaystyle f(a+h)=f(a)+d_a f(h)+\frac{1}{2!}d^2_a f(h,h)+\frac{1}{3!}d^3_a f(h,h,h)+\dots+\frac{1}{m!}d^m_a f\underbrace{(h,h,\dots, h)}_{m \text{ wektorów } h} +R_m f(a, h), \)

gdzie

\( \displaystyle \|R_m f(a,b)\|_{y}\leq \frac{1}{(m+1)!}\sup\{|d^{m+1} _{a+th}(h,h, \dots, h)|, \ t\in[0,1]\}. \)

Definicja 8.2.

Funkcję \( \displaystyle \begin{align*} X\in h\mapsto T_a^m f(h) & = f(a)+d_a f(h)+\frac{1}{2!}d^2 _a f(h,h)+\dots+\frac{1}{m!}d^m _a f\underbrace{(h, h, \dots, h)}_{m \text{ razy }} \\ & = \sum_{k=0}^m \frac{1}{k!}d^k_a\underbrace{(h, h, \dots, h)}_{k \text{ razy }}\in Y\end{align*} \)

nazywamy wielomianem Taylora rzędu \( \displaystyle m \) funkcji \( \displaystyle f \) o środku w punkcie \( \displaystyle a \).

Uwaga 8.3.

Zauważmy, że jeśli \( \displaystyle X=\mathbb{R}^n \) i \( \displaystyle Y=\mathbb{R} \), to wielomian Taylora funkcji \( \displaystyle f: \mathbb{R}^n\mapsto \mathbb{R} \) rzędu \( \displaystyle m \) o środku w punkcie \( \displaystyle a \) można wyrazić za pomocą pochodnych cząstkowych funkcji \( \displaystyle f \) w następujący sposób:

\( \displaystyle \begin{align*} T_a^m f(h) & =\sum_{k=0}^m \frac{1}{k!}\sum_{|\alpha|=k}\binom{k}{\alpha}\frac{\partial^k}{\partial x^\alpha}f(a)h^\alpha \\ & =\sum_{k=0}^m \sum_{|\alpha|=k}\frac{1}{\alpha!}\frac{\partial^k}{\partial x^\alpha}f(a)h^\alpha \\ & = \sum_{|\alpha|\leq m}\frac{1}{\alpha!}\frac{\partial^{|\alpha|}}{\partial x^\alpha}f(a)h^\alpha ,\end{align*} \)

gdzie \( \displaystyle \alpha=(\alpha_1, \alpha_2, \dots, \alpha_n)\in \mathbb{N}_0^n \) jest \( \displaystyle n \)-wskaźnikiem o długości \( \displaystyle |\alpha|=\alpha_1+\alpha_2+\dots+\alpha_n \). (Oznaczenia: \( \displaystyle \alpha! \), \( \displaystyle h^\alpha \), \( \displaystyle \frac{\partial^k }{\partial x^\alpha} \) wprowadziliśmy przy omawianiu różniczek wyższego rzędu). W szczególnym (ale bardzo często spotykanym) przypadku funkcji \( \displaystyle f: \mathbb{R}^2\ni (x_1, x_2)\mapsto f(x_1, x_2)\in \mathbb{R} \) dwóch zmiennych \( \displaystyle x_1, x_2 \) wielomian Taylora o środku w punkcie \( \displaystyle a=(a_1, a_2)\in \mathbb{R}^2 \) przyjmuje postać

\( \displaystyle \begin{align*} T_a ^m f(h) & =\sum_{k=0}^m \sum_{\alpha_1+\alpha_2=k} \frac{1}{\alpha_1 !\alpha_2 !}\frac{\partial^k f(a)}{\partial x_1^{\alpha_1}\partial x_2^{\alpha_2}}h_1^{\alpha_1}h_2^{\alpha_2} \\ & =\sum_{\alpha_1+\alpha_2\leq m} \frac{1}{\alpha_1 !\alpha_2 !}\frac{\partial^{\alpha_1+\alpha_2} f(a)}{\partial x_1^{\alpha_1}\partial x_2^{\alpha_2}}h_1^{\alpha_1}h_2^{\alpha_2},\end{align*} \)

gdzie \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \).

Dowód 8.3.

Twierdzenie Taylora wykażemy w szczególnym przypadku, gdy \( \displaystyle f: X\supset U\mapsto \mathbb{R} \) jest funkcją o wartościach rzeczywistych, określoną na otwartym podzbiorze \( \displaystyle U \) przestrzeni Banacha \( \displaystyle X \). Niech, zgodnie z założeniem, \( \displaystyle a \) oraz \( \displaystyle a+h \) będą takimi

punktami zbioru \( \displaystyle U \), że odcinek \( \displaystyle \{a+th, 0\leq t\leq 1\}\subset U \). Rozważmy funkcję

\( \displaystyle g:(0-\epsilon, 1+\epsilon)\ni t\mapsto f(a+th)\in\mathbb{R} \)

określoną w pewnym otoczeniu otwartym odcinka \( \displaystyle [0,1] \). Funkcja \( \displaystyle g \) jest w tym zbiorze klasy \( \displaystyle C^{m+1} \), gdyż \( \displaystyle f \) jest tej klasy w otoczeniu odcinka \( \displaystyle \{a+th, \ 0\leq t\leq 1\}\subset U \). Ponadto z twierdzenia o różniczkowaniu złożenia funkcji mamy dla dowolnej liczby \( \displaystyle 0\leq t\leq 1 \) równość

\( \displaystyle \frac{d^k}{dt^k}g(0)=d^k_a f\circ \underbrace{(d_0 (a+th), d_0 (a+th), \dots, d_0 (a+th))}_{k \text{ razy}} =d^k_a f\underbrace{(h, h, \dots, h)}_{k \text{ razy}}. \)

Ze twierdzenia Taylora dla funkcji jednej zmiennej \( \displaystyle g \) oraz z powyższej równości mamy

\( \displaystyle \begin{align*} f(a+h)= & g(0+1) \\ & =g(0)+g'(0)1+\frac{1}{2!}g''(0)1^2+\dots+\frac{1}{m!}g^{(m)}(0)1^m+\frac{1}{(m+1)!}g^{(m+1)}(0+\theta \cdot 1)1^{m+1} \\ & =f(a)+d_a f(h)+\frac{1}{2!}d^2_a f(h,h)+\dots+\frac{1}{m!}d^m_a f(h,h,\dots, h)+\frac{1}{(m+1)!}d^{m+1}_{a+\theta h} f(h,h,\dots, h, h),\end{align*} \)

gdzie \( \displaystyle \theta\in (0,1) \) jest pewnym punktem pośrednim. Stąd mamy też oszacowanie reszty we wzorze Taylora:

\( \displaystyle |R_m f (a,h)|=\bigg|\frac{1}{(m+1)!}d^{m+1}_{a+\theta h} f(h,h,\dots, h, h\bigg|\leq \frac{1}{(m+1)!}\sup\{|d^{m+1}_{a+\theta h} f(h,h,\dots, h, h)|, 0\leq \theta\leq 1\}. \)

Ekstrema funkcji wielu zmiennych

Pamiętamy, że dowolna przestrzeń unormowana \( \displaystyle X \) jest przestrzenią metryczną z metryką \( \displaystyle d(x,y)=\|x-y\| \) zadaną przez normę \( \displaystyle \|\cdot \| \) przestrzeni \( \displaystyle X \). Stąd też definicja ekstremum funkcji \( \displaystyle f: X\mapsto \mathbb{R} \) o wartościach rzeczywistych określonej na przestrzeni unormowanej jest taka sama jak w przypadku przestrzeni metrycznej, czyli funkcja \( \displaystyle f \) przyjmuje w punkcie \( \displaystyle a\in \mathrm{dom}\, f \) minimum lokalne (odpowiednio: maksimum lokalne, ścisłe minimum lokalne, ścisłe maksimum lokalne), jeśli istnieje liczba \( \displaystyle \delta >0 \) taka, że zachodzą odpowiednio implikacje:

\( \displaystyle d(x, a) < \delta\Longrightarrow f(x)\geq f(a) \)

\( \displaystyle d(x, a) < \delta \Longrightarrow f(x)\leq f(a) \)

\( \displaystyle 0 < d(x,a) < \delta\Longrightarrow f(x)>f(a) \)

\( \displaystyle 0 < d(x,a) < \delta \Longrightarrow f(x) < f(a). \)

Minimum funkcji w punkcie \( \displaystyle a \) nazywamy globalnym, jeśli \( \displaystyle f \) osiąga w punkcie \( \displaystyle a \) kres dolny wartości. Jeśli zaś w punkcie \( \displaystyle a \) funkcja osiąga kres górny, to mówimy, że osiąga w punkcie \( \displaystyle a \) maksimum globalne.

Sformułujmy wpierw warunek konieczny istnienia ekstremum funkcji \( \displaystyle f \).

Twierdzenie 8.4.

Jeśli funkcja różniczkowalna \( \displaystyle f: X\subset U\mapsto \mathbb{R} \) osiąga ekstremum w punkcie \( \displaystyle a \) zbioru otwartego \( \displaystyle U \), to w punkcie tym zeruje się różniczka funkcji \( \displaystyle f \), tzn. \( \displaystyle d_a f(h)=0 \), gdzie \( \displaystyle h\in X \) jest dowolnym wektorem przestrzeni \( \displaystyle X \).

Dowód 8.4.

Załóżmy, że funkcja \( \displaystyle f \) osiąga maksimum lokalne w punkcie \( \displaystyle a\in U \). Ustalmy pewien wektor \( \displaystyle h\in X \), \( \displaystyle \|h\|=1 \) i rozważmy

zacieśnienie funkcji \( \displaystyle f \) do prostej

\( \displaystyle \{a+th, t\in\mathbb{R}\} \)

o kierunku \( \displaystyle h \) przechodzącej przez punkt \( \displaystyle a \). Zacieśnienie to

\( \displaystyle \mathbb{R}\ni t\to f(a+th)\in \mathbb{R} \)

jest funkcją jednej zmiennej, osiągającą maksimum w \( \displaystyle t=0 \). Stąd pochodna w zerze funkcji \( \displaystyle t\mapsto f(a+th) \) jest równa zeru. Ale pochodna ta jest tożsama z pochodną kierunkową funkcji \( \displaystyle f \) w kierunku wektora \( \displaystyle h \). Wobec dowolności \( \displaystyle h \) różniczka \( \displaystyle d_a f=0 \).

Uwaga 8.5.

Zwróćmy uwagę, że funkcja może osiągać ekstremum w punkcie, w którym nie jest różniczkowalna. Na przykład \( \displaystyle f(x,y)=|x|+|y| \) osiąga wartość minimalną w punkcie \( \displaystyle (0,0) \), w którym nie jest różniczkowalna.

wykres

Wykres funkcji \( \displaystyle f(x,y)=|x|+|y| \)

Przyjmijmy wobec tego następującą definicję.

Definicja 8.6.

Mówimy, że \( \displaystyle a\in \mathrm{dom}\, f \) jest punktem krytycznym funkcji \( \displaystyle f \), jeśli \( \displaystyle a \) należy do dziedziny różniczki funkcji \( \displaystyle f \) i różniczka zeruje się w tym punkcie, bądź też punkt \( \displaystyle a \) należy do dziedziny funkcji i nie istnieje różniczka \( \displaystyle d_a f \).

Wniosek 8.7.

Jeśli funkcja \( \displaystyle f \) osiąga ekstremum w punkcie \( \displaystyle a\in \mathrm{dom}\, f \), to punkt ten jest krytyczny.

Implikacja te stanowi warunek konieczny istnienia ekstremum także w przypadku funkcji, od których nie żądamy różniczkowalności w otoczeniu wszystkich punktów dziedziny.

Wzór Taylora umożliwia, podobnie jak w przypadku jednowymiarowym, sformułowanie warunku wystarczającego istnienia ekstremum.

Definicja 8.8.

Niech \( \displaystyle A\in L^2(X, \mathbb{R}) \) będzie odwzorowaniem dwuliniowym symetrycznym określonym na \( \displaystyle X\times X \), gdzie \( \displaystyle X \) jest pewną przestrzenią Banacha. Mówimy, że forma

kwadratowa

\( \displaystyle X\ni h\mapsto A(h,h) \)

jest

  • dodatnio określona, jeśli istnieje stała \( \displaystyle C>0 \) taka, że

\( \displaystyle A(h,h)\geq C\|h\|^2, \text{ dla dowolnego wektora } h \in X, \)

  • ujemnie określona, jeśli istnieje stała \( \displaystyle C>0 \) taka, że

\( \displaystyle A(h,h)\leq - C\|h\|^2, \text{ dla dowolnego wektora } h \in X, \)

  • nieujemnie określona, jeśli

\( \displaystyle A(h,h)\geq 0, \text{ dla dowolnego wektora } h \in X, \)

  • niedodatnio określona, jeśli

\( \displaystyle A(h,h)\leq 0, \text{ dla dowolnego wektora } h \in X, \)

  • nieokreślona, jeśli nie jest ani dodatnio, ani ujemnie,

ani nieujemnie, ani niedodatnio określona.

Często mówimy też, że odwzorowanie dwuliniowe symetryczne \( \displaystyle A\in L^2 (X, \mathbb{R}) \) jest dodatnio określone (odpowiednio: ujemnie określone, nieujemnie określone, niedodatnio określone, nieokreślone), jeśli forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest określona dodatnio (odpowiednio: określona ujemnie, określona nieujemnie, określona niedodatnio, bądź jest nieokreślona).

Uwaga 8.9.

a) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest dodatnio określona wtedy i tylko wtedy, gdy forma \( \displaystyle h\mapsto -A(h,h) \) jest ujemnie określona.

b) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest nieujemnie określona wtedy i tylko wtedy, gdy forma \( \displaystyle h\mapsto -A(h,h) \) jest niedodatnio określona.

c) Forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest nieokreślona wtedy i tylko wtedy, gdy nieokreślona jest forma \( \displaystyle h\mapsto -A(h,h) \).

Korzystając ze wzoru Taylora, wykażemy warunek wystarczający istnienia ekstremum funkcji wielu zmiennych.

Twierdzenie 8.10.

Niech \( \displaystyle f \) będzie funkcją klasy \( \displaystyle C^2 \) w otwartym otoczeniu \( \displaystyle U \) punktu \( \displaystyle a \). Załóżmy, że różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle a \) jest równa zeru.

a) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest dodatnio określona, funkcja \( \displaystyle f \) osiąga ścisłe minimum lokalne w punkcie \( \displaystyle a \).

b) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest ujemnie określona, funkcja \( \displaystyle f \) osiąga ścisłe maksimum lokalne w punkcie \( \displaystyle a \).

c) Jeśli druga różniczka \( \displaystyle d^2 _af \) jest nieokreślona, funkcja \( \displaystyle f \)

nie osiąga ekstremum w punkcie \( \displaystyle a \).

Dowód 8.10.

a) Ze wzoru Taylora (wobec założenia o pierwszej różniczce: \( \displaystyle d_a f=0 \)) dostajemy równość prawdziwą w otoczeniu punktu \( \displaystyle a \) na tyle małym, aby odcinek \( \displaystyle \{a+th, 0\leq t\leq 1\} \) był w nim zawarty.

\( \displaystyle \begin{align*} f(a+h) & =f(a)+d_a f (h)+\frac{1}{2}d^2_{a+\theta h} f(h,h) \\ & =f(a)+0+\frac{1}{2}d^2_{a+\theta h} f(h,h),\end{align*} \)

czyli \( \displaystyle f(a+h)-f(a)=\frac{1}{2}d^2_{a+\theta h} f(h,h), \)

gdzie

\( \displaystyle 0 < \theta < 1 \) jest pewną liczbą. Jeśli forma \( \displaystyle h\mapsto d^2_{a} f(h,h) \) jest dodatnio określona, to wobec ciągłości drugiej różniczki, również w pewnym małym otoczeniu punktu \( \displaystyle a \) w punkcie \( \displaystyle a+\theta h \) forma \( \displaystyle h\mapsto d^2_{a+\theta h} f(h,h) \) jest dodatnio określona. Wobec tego

\( \displaystyle f(a+h)-f(a)=\frac{1}{2}d^2_{a+\theta h} f(h,h)>0, \)

czyli \( \displaystyle f(a+h)>f(a) \) dla dowolnego niezerowego wektora \( \displaystyle h \) z pewnego małego otoczenia punktu \( \displaystyle 0 \). Oznacza to, że funkcja \( \displaystyle f \) osiąga w tym punkcie ścisłe minimum lokalne.

b) Podobnie jak w punkcie a) wykazujemy, że funkcja \( \displaystyle f \) osiąga ścisłe maksimum lokalne, gdy druga różniczka jest ujemnie określona w punkcie, w którym zeruje się jej pierwsza różniczka.

c) Jeśli druga różniczka \( \displaystyle d^2_a f \) jest nieokreślona, to istnieją dwa wektory \( \displaystyle h, k\in X \) takie, że \( \displaystyle d^2_a f(h,h)>0 \) natomiast \( \displaystyle d^2_a f(k,k) < 0 \). Jeśli więc zacieśnimy funkcję \( \displaystyle f \) do prostej o

kierunku \( \displaystyle h \):

\( \displaystyle a+\mathbb{R} h=\{a+th, t\in\mathbb{R}\}\subset X, \) to na prostej tej w pewnym małym otoczeniu punktu \( \displaystyle a \) (dla \( \displaystyle t \) bliskich zeru) otrzymamy nierówność:

\( \displaystyle f(a+th)-f(a)=\frac{1}{2}d^2_{a+\theta th} f(th,th)>0, \)

natomiast na prostej o kierunku \( \displaystyle k \):

\( \displaystyle a+\mathbb{R} k=\{a+tk, t\in\mathbb{R}\}\subset X, \)

dostaniemy, podobnie w małym otoczeniu punktu \( \displaystyle a \), nierówność przeciwną:

\( \displaystyle f(a+tk)-f(a)=\frac{1}{2}d^2_{a+\theta tk} f(tk,tk) < 0. \)

Stąd funkcja \( \displaystyle f \) nie osiąga w punkcie \( \displaystyle a \) żadnego ekstremum, gdyż w dowolnie małym otoczeniu punktu \( \displaystyle a \) przyjmuje zarówno wartości mniejsze, jak i większe od \( \displaystyle f(a) \).

Uwaga 8.11.

Twierdzenie nie rozstrzyga o istnieniu ekstremum ani o jego typie, gdy druga różniczka \( \displaystyle d^2 _a f \) jest niedodatnio lub nieujemnie określona. Rozważmy trzy proste przykłady.

Przykład 8.12.

Funkcja \( \displaystyle f(x,y)=x^4+y^4 \) osiąga w punkcie \( \displaystyle (0,0) \) ścisłe minimum lokalne równe zeru, gdyż dla dowolnego punktu \( \displaystyle (x,y)\neq (0,0) \) mamy \( \displaystyle f(x,y)>0 \).

Zwróćmy uwagę, że zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle (0,0) \) zerują się. W szczególności druga różniczka jest nieujemnie określona w każdym punkcie płaszczyzny \( \displaystyle \mathbb{R}^2 \), gdyż dla dowolnego wektora \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \) mamy

\( \displaystyle d^2_{(x,y)}(h,h)=12(x^2 h_1^2+y^2 h_2^2)\geq 0. \)

W szczególności

\( \displaystyle d^2_{(0,0)}(h,h)=12(0^2 h_1^2+0^2 h_2^2)=0\geq 0. \)

wykres

Przykład 8.13.

Funkcja \( \displaystyle f(x,y)=-x^4-y^4 \) osiąga w punkcie \( \displaystyle (0,0) \) ścisłe maksimum lokalne równe zeru, gdyż dla dowolnego punktu \( \displaystyle (x,y)\neq (0,0) \) mamy \( \displaystyle f(x,y) < 0 \).

Zwróćmy uwagę, że podobnie jak w poprzednim przykładzie zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) w punkcie \( \displaystyle (0,0) \) zerują się. W szczególności druga różniczka jest niedodatnio określona w każdym punkcie płaszczyzny \( \displaystyle \mathbb{R}^2 \), gdyż dla dowolnego wektora \( \displaystyle h=(h_1, h_2)\in \mathbb{R}^2 \) mamy

\( \displaystyle d^2_{(x,y)}(h,h)=-12(x^2 h_1^2+y^2 h_2^2)\leq 0. \)

W szczególności

\( \displaystyle d^2_{(0,0)}(h,h)=-12(0^2 h_1^2+0^2 h_2^2)=0\leq 0. \)

wykres

Przykład 8.14.

Funkcja \( \displaystyle f(x,y)=x^4-y^4 \) nie osiąga w punkcie \( \displaystyle (0,0) \) żadnego ekstremum, gdyż dla dowolnego punktu \( \displaystyle (x,0)\neq (0,0) \) mamy \( \displaystyle f(x,0)>0 \), natomiast w punktach \( \displaystyle (0,y)\neq (0,0) \) mamy z kolei \( \displaystyle f(0,y) < 0. \)

Zwróćmy uwagę, że podobnie jak w obu poprzednich przykładach zarówno pierwsza jak i druga różniczka funkcji \( \displaystyle f \) zerują się w punkcie \( \displaystyle (0,0) \). W punktach \( \displaystyle h=(h_1,h_2)\neq (0,0) \), tj. poza początkiem układu współrzędnych, druga różniczka

\( \displaystyle d^2_{(x,y)}(h,h)=12(x^2 h_1^2-y^2 h_2^2) \)

jest nieokreślona, bo w punktach \( \displaystyle (x,0)\neq (0,0) \) forma kwadratowa \( \displaystyle h\mapsto d^2_{(x,y)}f \) jest dodatnia, a w punktach

\( \displaystyle (0,y)\neq (0,0) \) jest ujemna. W samym zaś punkcie \( \displaystyle (0,0) \) forma kwadratowa

\( \displaystyle d^2_{(0,0)}(h,h)=12(0^2 h_1^2-0^2 h_2^2)=0 \)

jest zerowa. Analiza formy kwadratowej w otoczeniu punktu \( \displaystyle (0,0) \) pozwala nam jednak dostrzec, że zacieśnienie funkcji \( \displaystyle f \) do prostej \( \displaystyle y=0 \) (tj. w punktach postaci \( \displaystyle (x,0) \)) jest funkcją \( \displaystyle f(x,0)=x^4 \), która na tej prostej osiąga minimum lokalne. Z kolei zacieśnienie do prostej \( \displaystyle x=0 \) (czyli w punktach postaci \( \displaystyle (0,y) \)) funkcja \( \displaystyle f(0,y)=-y^4 \) osiąga maksimum w punkcie \( \displaystyle y=0 \). Stąd funkcja \( \displaystyle (x,y)\mapsto f(x,y) \) nie osiąga żadnego ekstremum w punkcie \( \displaystyle (0,0) \).

wykres

Wykres funkcji \( \displaystyle f(x,y)=x^4-y^4 \)

Kolejne twierdzenie, które nazywamy kryterium Sylvestera, bardzo usprawnia badanie określoności drugiej różniczki w przpadku funkcji wielu zmiennych.

Niech \( \displaystyle A=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), będzie macierzą kwadratową symetryczną (tzn. \( \displaystyle a_{ij}=a_{ji} \) dla dowolnych \( \displaystyle i,j \)). Niech

\( \displaystyle A_k :=\det \left[\begin{array}{rrr} a_{11} & \dots & a_{1k} \\ \dots & \dots & \dots \\ a_{k1} & \dots & a_{kk}\end{array}\right ] \)

będzie minorem głównym rzędu \( \displaystyle k \) macierzy \( \displaystyle A \), \( \displaystyle k\in\{1,2,\dots, n\} \).

Twierdzenie 8.15. [twierdzenie Sylvestera]

Forma kwadratowa \( \displaystyle \mathbb{R}^n\in h\mapsto \sum_{i=1}^n\sum_{j=1}^n a_{ij}h_i h_j \) zadana przez symetryczną macierz kwadratową \( \displaystyle A=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), jest dodatnio określona wtedy i tylko wtedy, gdy wszystkie minory główne macierzy \( \displaystyle A \) są dodatnie, tzn. \( \displaystyle A_k>0 \)

dla dowolnego \( \displaystyle k\in\{1,2,\dots, n\} \).

Dowód 8.15.

Twierdzenia dowodzi się indukcyjnie. Niech wpierw macierz \( \displaystyle A \) będzie złożona z jednej liczby \( \displaystyle [a_{11}] \). Należy zauważyć, że forma \( \displaystyle h\mapsto a_{11} h^2 \) jest dodatnio określona wtedy i tylko wtedy, gdy \( \displaystyle a_{11}>0 \). Następnie dowodzi się implikacji, że z dodatniej określoności formy zadanej przez macierz \( \displaystyle \tilde{A}=[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n-1 \) wobec założenia o dodatniości minora \( \displaystyle A_n =\det[a_{ij}] \), \( \displaystyle i,j=1,2,\dots, n \), wynika dodatnia określoność formy kwadratowej zadanej przez macierz \( \displaystyle A=[a_{ij}],\displaystyle i,j=1,2,\dots, n \). Szczegóły (które pomijamy) można znaleźć w podręcznikach algebry liniowej (np. Jacek Komorowski, Od liczb zespolonych do tensorów, spinorów, algebr Liego i kwadryk,

Państwowe Wydawnictwo Naukowe, Warszawa 1978 r.)

Ponieważ forma kwadratowa \( \displaystyle h\mapsto A(h,h) \) jest ujemnie określona wtedy i tylko wtedy, gdy \( \displaystyle h\mapsto -A(h,h) \) jest dodatnio określona, twierdzenie Sylvestera pozwala nam również stwierdzić, kiedy macierz kwadratowa zadaje formę ujemnie określoną. Mamy mianowicie

Wniosek 8.16.

Jeśli \( \displaystyle A=[a_{ij}],\displaystyle i,j=1,2,\dots, n \), jest symetryczną macierzą kwadratową, to forma kwadratowa

\( \displaystyle \mathbb{R}^n\ni h\mapsto \sum_{i=1}^n\sum_{j=1}^n a_{ij}h_i h_j\in \mathbb{R} \)

jest ujemnie określona wtedy i tylko wtedy, gdy wszystkie minory rzędu nieparzystego są ujemne, a wszystkie rzędu parzystego są dodatnie, tzn. gdy

\( \displaystyle (-1)^k A_k>0, \ \ \ k\in\{1,2,\dots, n\}. \)

Przykład 8.17.

Wyznaczmy ekstrema funkcji

\( \displaystyle \mathbb{R}^3\ni (x,y,z)\mapsto f(x,y,z)=(x^2+y^2+z^2)^2-3xyz\in \mathbb{R}. \)

wykres

Różniczka tej funkcji zeruje się w punktach, których współrzędne spełniają układ równań

\( \displaystyle \left\{\begin{align*} \frac{\partial f}{\partial x} & =0 \\ \frac{\partial f}{\partial y} & =0 \\ \frac{\partial f}{\partial z} & =0,\end{align*}\right. \text{ czyli } \left\{\begin{align*} 4(x^2+y^2+z^2)x & =3yz \\ 4(x^2+y^2+z^2)y & =3xz \\ 4(x^2+y^2+z^2)z & =3xy. \end{align*} \right. \)

Układ ten spełniają współrzędne pięciu punktów

\( \displaystyle \begin{align*} P_0 & =(0,0,0), \\ P_1 & =\big(\frac{1}{4},\frac{1}{4},\frac{1}{4}\big), \\ P_2 & =\big(\frac{1}{4},-\frac{1}{4},-\frac{1}{4}\big), \\ P_3 & =\big(-\frac{1}{4},\frac{1}{4},-\frac{1}{4}\big), \\ P_4 & =\big(-\frac{1}{4},-\frac{1}{4},\frac{1}{4}\big). \end{align*} \)

Łatwo zauważyć, że w punkcie \( \displaystyle P_0 \) funkcja nie osiąga ekstremum, gdyż w dowolnie małym otoczeniu tego punktu przyjmuje zarówno wartości mniejsze jak i większe od \( \displaystyle f(P_0)=0 \). Na przykład na prostej o kierunku (1,1,1) przechodzącej przez punkt

\( \displaystyle P_0=(0,0,0) \), tj. na zbiorze

\( \displaystyle P_0 +\mathbb{R}(1,1,1)=\{(t,t,t), t\in\mathbb{R}\}, \)

funkcja

\( \displaystyle f(t,t,t)=(t^2+t^2+t^2)^2-3t^3=3t^3(3t-1) \)

przyjmuje w otoczeniu zera zarówno dodatnie wartości (np. gdy \( \displaystyle t < 0 \)) jak i ujemne (np. gdy \( \displaystyle 0 < t < \frac{1}{3} \)). W pozostałych czterech punktach macierz drugich pochodnych cząstkowych, która zadaje drugą różniczkę

\( \displaystyle \left[ \begin{array}{lll} 4(3x^2+y^2+z^2) & 8xy-3z & 8xz-3y \\ 8xy-3z & 4(x^2+3y^2+z^2) & 8yz-3x \\ 8xz-3y & 8yz-3x & 4(x^2+y^2+3z^2) \end{array} \right] \)

jest dodatnio określona. Na przykład w punkcie \( \displaystyle P_1=\big(\frac{1}{4}, \frac{1}{4}, \frac{1}{4}\big) \) macierz drugich pochodnych cząstkowych funkcji \( \displaystyle f \)

\( \displaystyle \left[\begin{array}{rrr} \frac{5}{4} & -\frac{1}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & -\frac{1}{4} & \frac{5}{4}\end{array} \right] \)

ma wszystkie minory główne dodatnie:

\( \displaystyle \begin{align*} A_1 & =\det\left[\frac{5}{4}\right]=\frac{5}{4}>0 \\ A_2 & =\det\left[\begin{array}{rr} \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4}\end{array}\right ] =\frac{1}{4^2}\det\left[\begin{array}{rr} 5 & -1 \\ -1 & 5\end{array} \right]=\frac{24}{16}>0 \\ \\ A_3 & =\det \left[\begin{array}{rrr} \frac{5}{4} & -\frac{1}{4} & -\frac{1}{4} \\ -\frac{1}{4} & \frac{5}{4} & -\frac{1}{4} \\ -\frac{1}{4} & -\frac{1}{4} & \frac{5}{4}\end{array} \right]= \frac{1}{4^3}\det\left[\begin{array}{rrr} 5 & -1 & -1 \\ -1 & 5 & -1 \\ -1 & -1 & 5\end{array}\right ]=\frac{108}{64}>0.\end{align*} \)

Stąd w punkcie \( \displaystyle P_1 \) funkcja osiąga minimum lokalne równe \( \displaystyle f(P_1)=-\frac{3}{256} \). Podobne uzasadnienie prowadzi do wniosku, że także w pozostałych punktach \( \displaystyle P_2 \), \( \displaystyle P_3 \) oraz \( \displaystyle P_4 \) funkcja osiąga minima lokalne.

Należy jednak wyraźnie zaznaczyć, że można w tym przykładzie zrezygnować z analizy określoności drugiej różniczki. Punkty \( \displaystyle A_1, A_2, A_3, A_4 \) leżą we wnętrzu zbioru ograniczonego poziomicą zerową funkcji \( \displaystyle f \), precyzyjniej: leżą w obszarze, gdzie funkcja

\( \displaystyle f \) jest ujemna. Ponieważ zbiór

\( \displaystyle \{(x,y,z)\in \mathbb{R}^3 : f(x,y,z)\leq 0\} \)

jest zwarty (gdyż jest domknięty i ograniczony), funkcja \( \displaystyle f \), na mocy twierdzenia Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym, musi w tych czterech punktach osiągać minima lokalne.

Uwagi o wyznaczaniu ekstremów funkcji wielu zmiennych

Badanie funkcji wielu zmiennych (w szczególności znajdywanie punktów ekstremalnych) w wielu przypadkach nie wymaga wyznaczania ani pierwszej, ani drugiej różniczki funkcji. Można bowiem sprowadzić ich badanie do badania funkcji jednej zmiennej.

Rozważmy kilka przykładów, w których funkcja dwóch zmiennych jest w istocie funkcją jednej zmiennej, a mianowicie: jest funkcją odległości od początku układu współrzędnych.

Przykład 8.18.

Funkcja \( \displaystyle f(x,y)=\exp(-x^2-y^2) \) jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \), gdyż \( \displaystyle f(x,y)=e^{-r^2} \), gdzie \( \displaystyle r=\sqrt{x^2+y^2} \). Ponieważ funkcja \( \displaystyle r\mapsto e^{-r^2} \) osiąga wartość największą w punkcie \( \displaystyle r=0 \) i nie osiąga żadnych więcej ekstremów na półprostej \( \displaystyle 0\leq r < \infty \), więc jedynym ekstremum funkcji \( \displaystyle f(x,y)=\exp(-x^2-y^2) \) jest maksimum lokalne osiągane w punkcie \( \displaystyle (0,0) \) (tj. \( \displaystyle r=0 \)). Wówczas \( \displaystyle f(0,0)=1 \).

wykres

Przykład 8.19.

Funkcja \( \displaystyle f(x,y)=\sin(x^2+y^2) \) także jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \). Zauważmy bowiem, że

\( \displaystyle f(x,y)=\sin(x^2+y^2)=\sin(r^2\cos^2\varphi+r^2\sin^2\varphi)=\sin(r^2) \)

osiąga ekstrema w tych samych punktach, co funkcja \( \displaystyle r\mapsto \sin (r^2) \), a więc osiąga maksima w punktach \( \displaystyle r^2=\frac{\pi}{2}+2k\pi \) i minima w punktach \( \displaystyle r^2=\frac{3\pi}{2}+2k\pi \), gdzie \( \displaystyle k=0, 1,2,\dots \). Innymi słowy funkcja \( \displaystyle (x,y)\mapsto f(x,y) \) osiąga maksima w punktach należących do okręgów o równaniach

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=\frac{\pi}{2}+2k\pi\} \)

oraz w punkcie \( \displaystyle (0,0) \) (wtedy \( \displaystyle r=0 \)), a minima w punktach należących do okręgów

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=\frac{3\pi}{2}+2k\pi\}, \)

gdzie \( \displaystyle k \) jest dowolną liczbą całkowitą nieujemną.

wykres

Wykres funkcji \( \displaystyle f(x,y)=\sin(x^2+y^2) \)

Przykład 8.20.

Podobnie jak w poprzednim przykładzie funkcja \( \displaystyle f(x,y)=\cos(x^2+y^2)=\cos (r^2) \), \( \displaystyle r=\sqrt{x^2+y^2} \), osiąga maksima na okręgach o promieniach \( \displaystyle r \) takich, ze \( \displaystyle r^2=0+2k\pi \), czyli na okręgach

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=2k\pi\}, \)

natomiast minima na okręgach, których promień \( \displaystyle r \) spełnia równanie \( \displaystyle r^2=\pi+2k\pi \), tj. na okręgach

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2+y^2=(2k+1)\pi\}, \)

gdzie \( \displaystyle k=0,1,2,\dots \) jest nieujemną liczbą całkowitą.

Przykład 8.21.

Także funkcja \( \displaystyle f(x,y)=\ln (x^2+y^2+1)=\ln(r^2 +1) \) jest funkcją promienia \( \displaystyle r=\sqrt{x^2+y^2} \). Ponieważ funkcja \( \displaystyle [0, \infty)\ni r\mapsto r^2+1\in \mathbb{R} \) jest ściśle rosnąca, osiąga minimum w punkcie \( \displaystyle r=0 \). Stąd także funkcja \( \displaystyle f(x,y)=\ln (x^2+y^2+1) \) osiąga minimum w punkcie \( \displaystyle (x,y)=(0,0) \) (wówczas \( \displaystyle r=0 \)).

wykres

Również w wielu innych przykładach, gdy funkcja \( \displaystyle f \) nie jest funkcją promienia, można uniknąć stosowania rachunku różniczkowego do wyznaczenia ekstremów.

Przykład 8.22.

Funkcja \( \displaystyle f(x,y)=\sin(x^2-y^2) \) osiąga maksima w punktach hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=\frac{\pi}{2}+2k\pi\}, \) a minima w punktach drugiej rodziny hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=\frac{3\pi}{2}+2k\pi\}, \)

gdzie \( \displaystyle k \) jest liczbą całkowitą.

wykres

Przykład 8.23.

Z kolei funkcja \( \displaystyle f(x,y)=\cos(x^2-y^2) \) osiąga maksima w punktach hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=2k\pi\}, \)

a minima w punktach drugiej rodziny hiperbol

\( \displaystyle \{(x,y)\in \mathbb{R}^2 : x^2-y^2=(2k+1)\pi\}, \)

gdzie \( \displaystyle k \) jest liczbą całkowitą.

wykres

Uwaga 8.24.

Przypomnijmy także, że prosta obserwacja przebiegu poziomic pozwala stwierdzić, że

(a) funkcja \( \displaystyle f_1(x,y)=x^2+y^2 \) osiąga w punkcie \( \displaystyle (0,0) \) minimum

wykres

(b) w tym samym punkcie funkcja \( \displaystyle f_2(x,y)=-x^2-y^2 \) osiąga maksimum

wykres

(c) a funkcja \( \displaystyle f_3(x,y)=x^2-y^2 \) nie osiąga w punkcie \( \displaystyle (0,0) \) żadnego ekstremum, gdyż ma w tym punkcie wartość zero, a w dowolnie małym otoczeniu tego punktu osiąga wartości mniejsze jak i większe od zera.

Przykład 8.25.

Zauważmy, że każda z trzech funkcji a, b, c ma w punkcie \( \displaystyle (0,0) \) zerową zarówno pierwszą jak i drugą różniczkę. Żadna z nich nie ma jednak w tym punkcie ekstremum, gdyż przyjmują w dowolnie małym otoczeniu punktu \( \displaystyle (0,0) \) zarówno wartości mniejsze jak i większe od zera.

(a) \( \displaystyle f_2(x,y)=-x^3-y^3 \)

wykres

(b) \( \displaystyle f_3(x,y)=x^3-y^3 \)

wykres

(c) \( \displaystyle f_1(x,y)=x^3+y^3 \)

wykres

Należy pamiętać o analizowaniu otoczenia punktów krytycznych funkcji, w których o istnieniu ekstremów nie rozstrzyga warunek wystarczający.

Przykład 8.26.

Funkcja \( \displaystyle f(x,y)=|x|^\frac{2}{3}+|y|^\frac{2}{3} \) jest ciągła na całej płaszczyźnie, nie jest jednak różniczkowalna w punktach należących do dwóch prostych: \( \displaystyle x=0 \) oraz \( \displaystyle y=0 \). Różniczka tej funkcji nie zeruje się w żadnym punkcie swojej dziedziny, tj. poza obiema prostymi \( \displaystyle x=0 \), \( \displaystyle y=0 \). Stąd zbiorem punktów krytycznych jest suma obu prostych:

\( \displaystyle \{(x,y)\in\mathbb{R}^2 : x=0 \text{ lub } y=0 \}. \)

Łatwo zauważyć, że jedynie w punkcie \( \displaystyle (0,0) \) tego zbioru funkcja \( \displaystyle f \) osiąga ekstremum, a mianowicie minimum \( \displaystyle f(0,0)=0 \).

wykres

Twierdzenie o funkcjach uwikłanych. Ekstrema warunkowe

Twierdzenie o funkcjach uwikłanych



Rozważamy funkcje zadane niejawnie. Formułujemy twierdzenie o funkcji uwikłanej i przedstawiamy metody badania takiej funkcji. Podajemy metodę mnożników Lagrange'a badania ekstremów warunkowych funkcji wielu zmiennych.

Punkty regularne poziomicy

Niech \( \displaystyle X,Y, Z \) będą przestrzeniami Banacha i niech \( \displaystyle U\subset X\times Y \) będzie zbiorem otwartym. Rozważmy funkcję

\( \displaystyle F: X\times Y\supset U\ni (x,y)\mapsto F(x,y)\in Z \)

oraz jej poziomicę zerową tj. zbiór

\( \displaystyle \{F=0\}=\{(x,y)\in U: F(x,y)=0\}. \)

Ustalmy pewien punkt \( \displaystyle P=(a,b)\in \{F=0\} \), \( \displaystyle a\in X \), \( \displaystyle b\in Y \), na tej poziomicy.

Definicja 9.1.

Mówimy, że punkt \( \displaystyle P\in \{F=0\} \) jest punktem regularnym zbioru \( \displaystyle \{F=0\} \), jeśli różniczka \( \displaystyle d_P F \) jest suriekcją przestrzeni \( \displaystyle X\times Y \) na przestrzeń \( \displaystyle Z \). Punkt poziomicy \( \displaystyle \{F=0\} \), który nie jest regularny, będziemy nazywać punktem nieregularnym tej poziomicy.

Przypomnijmy fakt z algebry liniowej:

Uwaga 9.2.

W przypadku przestrzeni o skończonym wymiarze \( \displaystyle X=\mathbb{R}^n \), \( \displaystyle Y=\mathbb{R}^m \) odwzorowanie liniowe \( \displaystyle L:X\times Y\mapsto Y \) jest suriekcją wtedy i tylko wtedy, gdy rząd (macierzy) odwzorowania \( \displaystyle L \) jest maksymalny, tj. równy \( \displaystyle m \).

Przykład 9.3.

Niech \( \displaystyle X=Y=\mathbb{R} \). Rozważmy \( \displaystyle F(x,y)=x^2+y^2-1 \) i poziomicę zerową tej funkcji

\( \displaystyle \{F=0\}=\{x^2+y^2=1\}, \)

czyli okrąg o środku w punkcie \( \displaystyle (0,0) \) i promieniu jednostkowym. Różniczka

\( \displaystyle \begin{align*} d_{(x_0, y_0)}F & =\frac{\partial F}{\partial x}(x_0, y)dx+\frac{\partial F}{\partial y}(x_0, y)dy \\ & =2x_0 dx+2y_0 dy\end{align*} \)

w dowolnym punkcie \( \displaystyle (x_0, y_0)\in\{F=0\} \) ma rząd maksymalny. Rząd różniczki \( \displaystyle d_{(x_0, y_0)}F \) nie jest maksymalny tylko w punkcie, w którym obie pochodne cząstkowe \( \displaystyle \frac{\partial F}{\partial x} \), \( \displaystyle \frac{\partial F}{\partial y} \) zerują się, czyli gdy

\( \displaystyle \left\{\begin{align*} 2x_0=0 \\ 2y_0=0,\end{align*}\right. \)

ale punkt \( \displaystyle (0,0) \) nie leży na okręgu \( \displaystyle \{F=0\} \).

Przykład 9.4.

Niech \( \displaystyle X=Y=\mathbb{R} \) i niech \( \displaystyle F(x,y)=x^3+y^3-3xy \). Pamiętamy, że poziomicą zerową tej funkcji

\( \displaystyle \{F=0\}=\{x^3+y^3=3xy\} \)

jest krzywa, którą nazywamy liściem Kartezjusza. Zauważmy, że różniczka

\( \displaystyle d_{(x_0, y_0)}F=3(x_0^2-y_0)dx+3(y_0^2-x_0)dy \)

nie ma maksymalnego rzędu, gdy

\( \displaystyle \left\{\begin{align*}x_0^2-y_0=0 \\ y_0^2-x_0=0,\end{align*}\right. \)

czyli w punktach \( \displaystyle (0,0) \) i \( \displaystyle (1, 1) \). Stąd punkt \( \displaystyle (0,0) \) jest punktem nieregularnym

liścia Kartezjusza. Drugi punkt \( \displaystyle (1,1) \) nie leży na poziomicy \( \displaystyle \{F=0\} \).

Przykład 9.5.

Niech \( \displaystyle X=Y=\mathbb{R} \) i niech \( \displaystyle F(x,y)=(x^2+y^2)^2-2(x^2-y^2) \). Poziomicę zerową tej funkcji już także poznaliśmy. Krzywą

\( \displaystyle \{F=0\}=\{(x^2+y^2)^2=2(x^2-y^2)\} \)

nazywamy lemniskatą Bernoullego. Różniczka

\( \displaystyle \begin{align*} d_{(x_0,y_0)}F & =(2(x_0^2+y_0^2)2x_0-4x_0)dx+(2(x_0^2+y_0^2)2y_0+4y_0)dy \\ & =4x_0(x_0^2+y_0^2-1)dx+4y_0(x_0^2+y_0^2+1)dy\end{align*} \)

nie ma maksymalnego rzędu tylko wtedy, gdy

\( \displaystyle \left\{\begin{align*} x_0(x_0^2+y_0^2-1)=0 \\ y_0(x_0^2+y_0^2+1)=0,\end{align*}\right. \)

czyli w trzech punktach \( \displaystyle (0,0) \), \( \displaystyle (-1, 0) \) i \( \displaystyle (1,0) \), spośród których tylko pierwszy \( \displaystyle (0,0) \) leży na lemniskacie Bernoullego. Nie jest więc jej punktem regularnym.

Przykład 9.6.

Poziomicą zerową funkcji

\( \displaystyle F:\mathbb{R}^3\ni(x,y,z)\mapsto F(x,y,z)=x^2+y^2+z^2-1\in\mathbb{R} \)

jest sfera o środku w początku układu współrzędnych \( \displaystyle (0,0,0) \) i promieniu jednostkowym:

\( \displaystyle \{F=0\}=\{(x,y,z): x^2+y^2+z^2=1\}. \)

Różniczka odwzorowania \( \displaystyle F \) dana wzorem

\( \displaystyle \begin{align*} d_{(x,y,z)}F & =\frac{\partial F}{\partial x}(x,y,z)dx+\frac{\partial F}{\partial y}(x,y,z)dy+\frac{\partial F}{\partial z}(x,y,z)dz \\ & = 2xdx+2ydy+2zdz\end{align*} \)

jest odwzorowaniem liniowym i ciągłym z \( \displaystyle \mathbb{R}^3 \) do \( \displaystyle \mathbb{R} \) i ma rząd maksymalny (równy 1) we wszystkich punktach \( \displaystyle \mathbb{R}^3 \) poza początkiem układu współrzędnych \( \displaystyle (0,0,0) \), w którym rząd ten wynosi zero. Punkt \( \displaystyle (0,0,0) \) nie należy jednak do sfery \( \displaystyle \{F=0\} \), stąd każdy jej punkt jest regularny.

Przykład 9.7.

Niech \( \displaystyle F:\mathbb{R}^3\ni (x,y,z)\mapsto F(x,y,z)=(x^2+z^2-1, y^2+z^2-1)\in \mathbb{R}^2 \). Wówczas poziomicą zerową funkcji \( \displaystyle F \) jest zbiór

\( \displaystyle \{F=0\}=\{(x,y,z)\in \mathbb{R}^3, x^2+z^2=1, y^2+z^2=1\}, \)

który powstaje z przecięcia walca \( \displaystyle x^2+z^2=1 \) o osi obrotu \( \displaystyle OY \) z walcem \( \displaystyle y^2+z^2=1 \) o osi obrotu \( \displaystyle OX \). Zauważmy, że różniczka

\( \displaystyle d_{(x,y,z)} F=(2x dx+0dy+2z dz, 0dx+2ydy+2zdz) \)

jest odwzorowaniem liniowym i ciągłym z \( \displaystyle \mathbb{R}^3 \) do \( \displaystyle \mathbb{R}^2 \). Jest więc maksymalnego rzędu, gdy rząd macierzy jej współczynników

\( \displaystyle A=\left[\begin{array}{rrr} 2x & 0 & 2z \\ 0 & 2y & 2z \end{array} \right] \)

wynosi 2. Zauważmy, że rząd macierzy \( \displaystyle A \) wynosi zero, gdy \( \displaystyle x=y=z=0 \) (punkt \( \displaystyle (0,0,0) \) nie należy do poziomicy zerowej \( \displaystyle \{F=0\} \)). Z kolei, rząd tej macierzy wynosi jeden, gdy

\( \displaystyle \begin{align*} & & x=y=0, z\neq0 \\ & \text{lub} & \\ & & x=z=0, y\neq0 \\ & \text{lub} & \\ & & y=z=0,x\neq0,\end{align*} \)

co ma miejsce w dwóch punktach poziomicy \( \displaystyle \{F=0\} \), a mianowicie w punktach \( \displaystyle (0,0, 1) \) oraz \( \displaystyle (0,0, -1) \). Są to jedyne punkty poziomicy, które nie są regularne, gdyż rząd różniczki \( \displaystyle d_{(x, y, z)} F \) w pozostałych punktach poziomicy jest maksymalny (tj. wynosi \( \displaystyle 2 \)).

Wykres

Przykład 9.8.

Niech \( \displaystyle F: \mathbb{R}^3\ni (x,y,z)\mapsto F(x,y,z)=(x^2+y^2+z^2)^2-3xyz\in \mathbb{R}. \) Poziomicą zerową tej funkcji jest powierzchnia o równaniu

\( \displaystyle \{(x,y,z)=\{(x, y,z)\in \mathbb{R}^3: (x^2+y^2+z^2)^2=3xyz\}. \)

Różniczka \( \displaystyle d_{(x, y, z)} F=\frac{\partial F}{\partial x}dx+\frac{\partial F}{\partial y}dy+\frac{\partial F}{\partial z}dz \) jest odwzorowaniem liniowym i ciągłym z \( \displaystyle \mathbb{R}^3 \) do \( \displaystyle \mathbb{R} \), nie ma więc rzędu maksymalnego w punktach \( \displaystyle (x, y, z) \), w których rząd różniczki jest niższy niż jeden, czyli w punktach, w których zerują się wszystkie trzy pochodne cząstkowe \( \displaystyle \frac{\partial F}{\partial x}=0, \frac{\partial F}{\partial y}=0, \frac{\partial F}{\partial z}=0 \), tzn. gdy

\( \displaystyle \left\{\begin{align*} 4x(x^2+y^2+z^2)=3yz \\ 4y(x^2+y^2+z^2)=3xz \\ 4z(x^2+y^2+z^2)=3xy.\end{align*}\right . \)

Układ ten spełnia punkt o współrzędnych \( \displaystyle (0,0,0) \), a także punkty o współrzędnych \( \displaystyle (x,y,z) \), które spełniają układ

\( \displaystyle \left\{\begin{align*} x^2 & =y^2 \\ y^2 & =z^2 \\ z^2 & =x^2,\end{align*}\right. \)

czyli \( \displaystyle |x|=|y|=|z| \). Spośród punktów poziomicy \( \displaystyle \{F=0\} \) warunek ten spełniają poza punktem \( \displaystyle (0,0,0) \) także punkty \( \displaystyle (a,a,a) \), \( \displaystyle (-a,-a,a) \), \( \displaystyle (-a,a,-a) \), \( \displaystyle (a,-a,-a) \), gdzie \( \displaystyle a=\frac{1}{3} \). Poza wskazanymi pięcioma punktami poziomicy \( \displaystyle \{F=0\} \) pozostałe punkty są regularne, gdyż różniczka odwzorowania \( \displaystyle F \) ma w nich rząd maksymalny (równy \( \displaystyle 1 \)).

wykres

Poziomica zerowa funkcji \( \displaystyle f(x,y,z)=(x^2+y^2+z^2)^2-3xyz \)

Twierdzenie o funkcji uwikłanej

Niech \( \displaystyle X \), \( \displaystyle Y \) będą przestrzeniami Banacha i niech \( \displaystyle F: U\mapsto Y \) będzie funkcją różniczkowalną w zbiorze otwartym \( \displaystyle U\subset X\times Y \). Niech \( \displaystyle (a,b)\in\{F=0\} \) będzie punktem poziomicy zerowej funkcji \( \displaystyle F \), gdzie \( \displaystyle a\in X, b\in Y \). Powstaje naturalne pytanie o warunki, przy których poziomicę \( \displaystyle \{F=0\} \) w otoczeniu punktu \( \displaystyle (a,b) \) można przedstawić jako wykres pewnej funkcji \( \displaystyle f: X\mapsto Y \) takiej, że \( \displaystyle F(x, f(x))=0 \) w pewnym otoczeniu otwartym punktu \( \displaystyle a\in X \).

Rozważmy dwa proste przykłady.

Przykład 9.9.

Niech \( \displaystyle (a,b) \) będzie punktem okręgu \( \displaystyle x^2+y^2=1 \), który stanowi poziomicę zerową funkcji

\( \displaystyle \mathbb{R}\times\mathbb{R} \ni (x,y)\mapsto F(x,y)=x^2+y^2-1\in\mathbb{R}. \)

Jeśli \( \displaystyle b>0 \), to w otoczeniu punktu \( \displaystyle a\in (-1,1) \) można określić funkcję

\( \displaystyle f_1: x\mapsto f_1(x)=\sqrt{1-x^2} \)

taką, że

\( \displaystyle F(x,f_1(x))=x^2+(\sqrt{1-x^2})^2-1=0 \ \text{ oraz } \ f_1(a)=b. \)

Z kolei, jeśli \( \displaystyle b < 0 \), to w otoczeniu punktu \( \displaystyle a\in (-1,1) \) znajdziemy funkcję

\( \displaystyle f_2: x\mapsto f_2(x)=-\sqrt{1-x^2} \)

taką, że

\( \displaystyle F(x, f_2(x))=x^2+(-\sqrt{1-x^2})^2-1=0 \ \text{ oraz } \ f_2(a)=b. \)

Jedynymi punktami \( \displaystyle (a,b) \) okręgu \( \displaystyle x^2+y^2=1 \), w otoczeniu których nie znajdziemy funkcji \( \displaystyle f: x\mapsto f(x) \) takiej, że \( \displaystyle f(a)=b \) i \( \displaystyle F(x, f(x))=0 \), są punkty \( \displaystyle (-1,0) \) oraz

\( \displaystyle (1,0) \). Zauważmy, że w punktach tych zeruje się pochodna cząstkowa \( \displaystyle \frac{\partial F}{\partial y} \).

Przykład 9.10.

Niech \( \displaystyle a=(a_1,a_2)\in \mathbb{R}^2 \), \( \displaystyle b\in \mathbb{R} \). Niech \( \displaystyle (a,b)\in \mathbb{R}^3 \) będzie punktem sfery \( \displaystyle x_1^2+x_2^2+z^2=1 \), która stanowi poziomicę zerową funkcji \( \displaystyle F(x_1, x_2 , z)=x_1^2+x_2^2+z^2-1 \). Jeśli \( \displaystyle b>0 \), to w otoczeniu punktu \( \displaystyle a=(a_1, a_2) \) wewnątrz okręgu \( \displaystyle x_1^2+x_2^2 < 1 \) można określić funkcję

\( \displaystyle f_1: (x_1, x_2)\mapsto f_1(x_1,x_2)=\sqrt{1-x_1^2-x_2^2} \)

taką, że

\( \displaystyle F(x_1, x_2, f_1(x_1,x_2))=x_1^2+x_2^2 +\big(\sqrt{1-x_1^2-x_2^2}\big)^2-1=0 \ \text{ oraz } \ f_1(a)=b. \)

Z kolei, jeśli \( \displaystyle b < 0 \) znajdziemy funkcję

\( \displaystyle f_2: (x_1, x_2)\mapsto f_1(x_1, x_2)=-\sqrt{1-x_1^2-x_2^2} \)

taką, że

\( \displaystyle F(x_1, x_2, f_2(x_1, x_2))=x_1^2+x_2^2+\big(-\sqrt{1-x_1^2-x_2^2}\big)^2-1=0\ \text{ oraz } \ f_2(a)=b. \)

Jedynymi punktami \( \displaystyle (a,b) \) sfery \( \displaystyle x_1^2+x_2^2+z^2=1 \), w otoczeniu których nie znajdziemy funkcji \( \displaystyle f: (x_1, x_2)\mapsto f(x_1, x_2) \) takiej, że \( \displaystyle f(a)=b \) i \( \displaystyle F(x_1, x_2, f(x_1,x_2))=0 \), są punkty okręgu \( \displaystyle x_1^2+x_2^2=1 \) zawartego w płaszczyźnie \( \displaystyle z=0 \). Zauważmy, że w punktach tych zeruje się pochodna cząstkowa \( \displaystyle \frac{\partial F}{\partial z}=2z \).

Uogólnijmy to spostrzeżenie, formułując

Twierdzenie 9.11.[twierdzenie o funkcji uwikłanej]

Niech \( \displaystyle F:U\mapsto Y \) będzie funkcją różniczkowalną o ciągłej różniczce na zbiorze otwartym \( \displaystyle U\subset X\times Y \). Niech \( \displaystyle (a,b)\in \{F=0\} \) (gdzie \( \displaystyle a\in X, b\in Y \)) będzie punktem poziomicy zerowej funkcji \( \displaystyle F \) takim, że zacieśnienie różniczki \( \displaystyle d_{(a,b)}F_{|Y} \) do podprzestrzeni \( \displaystyle Y\subset X\times Y \) jest izomorfizmem. Wówczas

1) istnieje pewne otoczenie otwarte \( \displaystyle V\subset X \) punktu \( \displaystyle a \) oraz istnieje dokładnie jedna funkcja określona w tym otoczeniu \( \displaystyle f:V\mapsto Y \) taka, że \( \displaystyle f(a)=b \) oraz \( \displaystyle F(x, f(x))=0 \) dla dowolnego \( \displaystyle x\in V \). Ponadto

2) funkcja \( \displaystyle f \) jest różniczkowalna i ma ciągłą różniczkę w zbiorze \( \displaystyle V \) daną wzorem

\( \displaystyle d_x f=-\big(d_{(x,y)}F_{|Y} \big)^{-1}\circ \big(d_{(x,y)}F_{|X}\big), \)

gdzie \( \displaystyle y=f(x) \), natomiast

\( \displaystyle d_{(x,y)}F_{|X} \) oznacza zacieśnienie różniczki \( \displaystyle d_{(x,y)}F \) do podprzestrzeni \( \displaystyle X\subset X\times Y \) a \( \displaystyle (d_{(x,y)}F_{|Y})^{-1} \) jest izomorfizmem odwrotnym do zacieśnienia różniczki \( \displaystyle d_{(x,y)}F_{|Y} \).
Dowód 9.11.

[Szkic] Pominiemy dowód istnienia funkcji \( \displaystyle f \). Wyprowadzimy jednak wzór, który określa jej różniczkę, w trzech przypadkach najczęściej spotykanych w konkretnych zastosowaniach. Przypomnijmy wpierw jednak, że

Uwaga 9.12.

Jeśli \( \displaystyle Y=\mathbb{R}^n \), to odwzorowanie liniowe \( \displaystyle L:Y\mapsto Y \) jest izomorfizmem wtedy i tylko wtedy, gdy wyznacznik tego odwzorowania jest różny od zera, tj. \( \displaystyle \det L\neq 0 \).

Przypadek I. Niech \( \displaystyle X=Y=\mathbb{R} \) i niech \( \displaystyle F: \mathbb{R}^2\ni(x,y)\mapsto F(x,y)\in \mathbb{R}. \) Jeśli funkcja \( \displaystyle f:\mathbb{R}\mapsto \mathbb{R} \) spełnia równanie \( \displaystyle F(x, f(x))=0 \), to przy założeniu, że jest różniczkowalna, na mocy twierdzenia o różniczce złożenia funkcji otrzymamy równość

\( \displaystyle 0=\frac{d}{dx}F(x, f(x))=\frac{\partial F}{\partial x}(x,y)+\frac{\partial F}{\partial y}(x,y)\frac{df}{dx}(x), \text{ gdzie } y=f(x). \)

Stąd

\( \displaystyle -\frac{\partial F}{\partial x}(x,y)=\frac{\partial,F}{\partial y}(x,y)\frac{df}{dx}(x). \)

Z założenia zacieśnienie różniczki \( \displaystyle d_{(x,y)}F_{|Y} \) jest izomorfizmem przestrzeni \( \displaystyle \mathbb{R} \) do \( \displaystyle \mathbb{R} \), co oznacza w tym przypadku, że pochodna cząstkowa \( \displaystyle \frac{\partial F}{\partial y}\neq 0 \). Stąd pochodna funkcji uwikłanej wyraża się wzorem

\( \displaystyle \frac{df}{dx}(x)=-\left(\frac{\partial F}{\partial y}(x,y)\right)^{-1}\frac{\partial F}{\partial x}(x,y), \text{ gdzie } y=f(x). \)

Przypadek II. Niech \( \displaystyle F: \mathbb{R}^3\ni(x_1, x_2, y)\mapsto F(x_1, x_2, y)\in \mathbb{R}. \) Jeśli funkcja \( \displaystyle f:\mathbb{R}^2 \mapsto \mathbb{R} \) spełnia równanie \( \displaystyle F(x_1, x_2, f(x_1,x_2))=0 \), to przy założeniu, że jest różniczkowalna, na mocy twierdzenia o różniczce złożenia funkcji otrzymamy równość prawdziwą w punktach \( \displaystyle (x_1, x_2, y) \) poziomicy \( \displaystyle \{F=0\} \)

\( \begin{array}{lll}\displaystyle 0=\frac{\partial }{\partial x_1}F\big(x_1, x_2, f(x_1, x_2)\big) & = & \displaystyle \frac{\partial F}{\partial x_1}\frac{\partial x_1}{\partial x_1}+\frac{\partial F}{\partial x_2}\frac{\partial x_2}{\partial x_1}+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_1} \\ & = & \displaystyle \frac{\partial F}{\partial x_1}+0+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_1} \end{array} \)

oraz

\( \begin{array}{lll}\displaystyle 0=\frac{\partial }{\partial x_2}F\big(x_1, x_2, f(x_1, x_2)\big) & = & \displaystyle \frac{\partial F}{\partial x_1}\frac{\partial x_1}{\partial x_2}+\frac{\partial F}{\partial x_2}\frac{\partial x_2}{\partial x_2}+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_2} \\ & = & \displaystyle 0+\frac{\partial F}{\partial x_2}+\frac{\partial F}{\partial y}\frac{\partial f}{\partial x_2} \end{array} \)

Izomorficzność zawężenia różniczki \( \displaystyle d_{(x_1, x_2, y)}F_{|Y} \) również w tym przypadku oznacza po prostu, że pochodna cząstkowa \( \displaystyle \frac{\partial F}{\partial y}(x_1, x_2, y)\neq 0 \). Wówczas z powyższych równości dostajemy

\( \displaystyle \frac{\partial f}{\partial x_1}(x_1, x_2)=-\left(\frac{\partial F}{\partial y}(x_1, x_2, y)\right)^{-1}\frac{\partial F}{\partial x_1}(x_1, x_2, y) \)

oraz

\( \displaystyle \frac{\partial f}{\partial x_2}(x_1, x_2)=-\left(\frac{\partial F}{\partial y}(x_1, x_2, y)\right)^{-1}\frac{\partial F}{\partial x_2}(x_1, x_2, y), \)

gdzie \( \displaystyle y=f(x_1, x_2) \). Pomijając argument w zapisie pochodnych cząstkowych, można te wzory podać w skróconej formie (łatwiejszej do zapamiętania):

\( \displaystyle \frac{\partial f}{\partial x_1}=-\left(\frac{\partial F}{\partial y}\right)^{-1}\frac{\partial F}{\partial x_1} \)

oraz

\( \displaystyle \frac{\partial f}{\partial x_2}=-\left(\frac{\partial F}{\partial y}\right)^{-1}\frac{\partial F}{\partial x_2}. \)

Przypadek III. Niech \( \displaystyle X=\mathbb{R} \), \( \displaystyle Y=\mathbb{R}^2 \) i niech

\( \displaystyle F: \mathbb{R}\times \mathbb{R}^2 \ni (x, y_1, y_2)\mapsto F(x, y_1, y_2)=(F_1(x, y_1, y_2), F_2(x, y_1, y_2))\in \mathbb{R}^2. \)

Załóżmy, że istnieje funkcja różniczkowalna

\( \displaystyle f: \mathbb{R}\ni x\mapsto (f_1(x), f_2(x))\in\mathbb{R}^2 \)

taka, że

\( \displaystyle 0=F(x,f(x))=\left(F_1\big(x, f_1(x), f_2(x)\big), \ F_2\big(x, f_1(x), f_2(x)\big)\right), \)

to znaczy

\( \displaystyle \left\{\begin{align*} 0 & =F_1(x, f_1(x), f_2 (x)) \\ 0 & =F_1(x, f_1(x), f_2 (x)).\end{align*} \right. \)

Stąd - korzystając z twierdzenia o różniczkowaniu złożenia funkcji - dostajemy

\( \displaystyle \begin{align*} 0=\frac{d}{dx}F_1(x, f_1(x), f_2 (x)) & =\frac{\partial F_1}{\partial x}\frac{dx}{dx}+\frac{\partial F_1}{\partial y_1}\frac{df_1}{dx}+\frac{\partial F_1}{\partial y_2}\frac{df_2}{dx} \\ & = \frac{\partial F_1}{\partial x}+\frac{\partial F_1}{\partial y_1}f_1'+\frac{\partial F_1}{\partial y_2}f_2'\end{align*} \)

oraz

\( \displaystyle \begin{align*} 0=\frac{d}{dx}F_2(x, f_1(x), f_2 (x)) & =\frac{\partial F_2}{\partial x}\frac{dx}{dx}+\frac{\partial F_2}{\partial y_1}\frac{df_1}{dx}+\frac{\partial F_2}{\partial y_2}\frac{df_2}{dx} \\ & = \frac{\partial F_2}{\partial x}+\frac{\partial F_2}{\partial y_1}f_1'+\frac{\partial F_2}{\partial y_2}f_2'.\end{align*} \)

Otrzymujemy układ dwóch równań z niewiadomymi \( \displaystyle f_1' \), \( \displaystyle f_2' \), które są pochodnymi składowych funkcji uwikłanej \( \displaystyle f=(f_1, f_2) \):

\( \displaystyle \left\{\begin{align*} -\frac{\partial F_1}{\partial x}=\frac{\partial F_1}{\partial y_1}f_1'+\frac{\partial F_1}{\partial y_2}f_2' \\ -\frac{\partial F_2}{\partial x}=\frac{\partial F_2}{\partial y_1}f_1'+\frac{\partial F_2}{\partial y_2}f_2' \end{align*}\right. \)

Zapiszmy ten układ w formie macierzowej

\( \displaystyle \displaystyle -\left[\begin{array}{r}\displaystyle \frac{\partial F_1}{\partial x} \\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array}\right ] =\left[ \begin{array}{rr}\displaystyle \frac{\partial F_1}{\partial y_1} & \displaystyle\frac{\partial F_1}{\partial y_2} \\ & \\ \displaystyle \frac{\partial F_2}{\partial y_1} & \displaystyle \frac{\partial F_2}{\partial y_2}\end{array} \right] \left[\begin{array}{r} f_1' \\ f_2 '\end{array}\right ]. \)

W rozważanym przypadku założenie o izomorficzności zacieśnienia różniczki \( \displaystyle d_{(x,y)}F \) do podprzestrzeni \( \displaystyle Y\subset X\times Y \) oznacza po prostu fakt, że macierz pochodnych cząstkowych, która reprezentuje \( \displaystyle d_{(x,y)F_{|Y}} \):

\( \displaystyle \left[ \begin{array}{rr}\displaystyle \frac{\partial F_1}{\partial y_1} & \displaystyle\frac{\partial F_1}{\partial y_2} \\ & \\ \displaystyle \frac{\partial F_2}{\partial y_1} & \displaystyle \frac{\partial F_2}{\partial y_2}\end{array} \right] \)

jest nieosobliwa, tj. jej wyznacznik jest różny od zera. Z kolei macierz kolumnowa

\( \displaystyle \left[\begin{array}{r}\displaystyle \frac{\partial F_1}{\partial x} \\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array}\right ] \)

reprezentuje zacieśnienie różniczki \( \displaystyle d_{(x,y)}F \) do podprzestrzeni \( \displaystyle X\subset X\times Y \). Macierz niewiadomych \( \displaystyle f_1' \), \( \displaystyle f_2' \):

\( \displaystyle \left[\begin{array}{r} f_1' \\ f_2'\end{array} \right] \)

reprezentuje różniczkę \( \displaystyle d_x f \) funkcji uwikłanej \( \displaystyle f=(f_1, f_2) \). Stąd układ równań z niewiadomymi \( \displaystyle f_1' \), \( \displaystyle f_2' \) przedstawia równanie

\( \displaystyle -d_{(x,y)}F_{|X}=d_{(x,y)}F_{|Y}\circ d_x f, \ \ \ \ \ \text{ gdzie }y=f(x), \)

w którym niewiadomą jest różniczka \( \displaystyle d_x f \). Izomorficzność zacieśnienia \( \displaystyle d_{(x,y)}F_{|Y} \) gwarantuje istnienie odwzorowania odwrotnego \( \displaystyle (d_{(x,y)}F_{|Y})^{-1} \), dzięki czemu otrzymujemy

\( \displaystyle d_xf=-(d_{(x,y)}F_{|Y})^{-1}\circ d_{(x,y)}F_{|X}. \)

W języku algebry nieosobliwość macierzy

\( \displaystyle \left[\begin{array}{rr}\displaystyle \frac{\partial F_1}{\partial y_1} & \displaystyle \frac{\partial F_1}{\partial y_2} \\ & \\ \displaystyle \frac{\partial F_2}{\partial y_1} & \displaystyle\frac{\partial F_2}{\partial y_2}\end{array} \right] \)

gwarantuje istnienie macierzy do niej odwrotnej. Stąd rozwiązaniem równania

\( \displaystyle \displaystyle-\left[\begin{array}{r}\displaystyle \frac{\partial F_1}{\partial x} \\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array} \right] =\left[ \begin{array}{rr}\displaystyle \frac{\partial F_1}{\partial y_1} & \displaystyle \frac{\partial F_1}{\partial y_2} \\ & \\ \displaystyle \frac{\partial F_2}{\partial y_1} & \displaystyle \frac{\partial F_2}{\partial y_2}\end{array}\right ] \left [\begin{array}{r} f_1' \\ f_2 '\end{array} \right] \)

jest

\( \displaystyle \displaystyle\left[\begin{array}{r} f_1' \\ f_2 '\end{array} \right] =-\left(\left[ \begin{array} {rr}\displaystyle \frac{\partial F_1}{\partial y_1} & \displaystyle \frac{\partial F_1}{\partial y_2} \\ & \\ \displaystyle \frac{\partial F_2}{\partial y_1} & \displaystyle \frac{\partial F_2}{\partial y_2}\end{array} \right]\right)^{-1} \left[\begin{array}{r} \displaystyle \frac{\partial F_1}{\partial x} \\ \\ \displaystyle \frac{\partial F_2}{\partial x}\end{array}\right ] \)

lub równoważnie:

\( \displaystyle d_x f=-(d_{(x,y)}F_{|Y})^{-1}\circ d_{(x,y)}F_{|X}. \)

Ekstrema funkcji uwikłanej

Niech \( \displaystyle X=\mathbb{R}^n, Y=\mathbb{R} \) i niech

\( \displaystyle F: X\times \mathbb{R}\ni (x_1, x_2,\dots, x_n, y)\mapsto F(x_1, x_2, \dots, x_n, y)\in \mathbb{R} \)

będzie funkcją określoną w pewnym zbiorze otwartym \( \displaystyle U\subset X\times \mathbb{R} \).

Zauważmy, że do wyznaczenia różniczki funkcji \( \displaystyle f \) uwikłanej równaniem \( \displaystyle F(x, f(x))=0 \) nie potrzebujemy znać jawnej postaci funkcji \( \displaystyle f \). Co więcej, potrafimy wyznaczyć punkty, w których funkcja \( \displaystyle f \) może osiągać ekstrema, korzystając ze znanego warunku koniecznego istnienia ekstremum.

Twierdzenie 9.13.[warunek konieczny istnienia ekstremum funkcji uwikłanej]

Jeśli funkcja \( \displaystyle f \) uwikłana równaniem \( \displaystyle F(x,f(x))=0 \) osiąga ekstremum w pewnym punkcie \( \displaystyle a\in X \) takim, że pochodna cząstkowa \( \displaystyle \frac{\partial F}{\partial y}(a, f(a))\neq 0 \), to w punkcie \( \displaystyle (a, f(a)) \) zerują się pochodne cząstkowe funkcji \( \displaystyle F \) po zmiennych \( \displaystyle x_1, x_2, \dots, x_n \), tzn.

\( \displaystyle \displaystyle \in\{1,2,\dots, n\} \ \ \frac{\partial F}{\partial x_i}(a,f(a))=0. \)

Dowód

Warunek ten jest konsekwencją wzoru na różniczkę funkcji \( \displaystyle f \), który stanowi tezę twierdzenia o funkcji uwikłanej. Ponieważ zachodzi równość

\( \displaystyle \displaystyle d_x f=-(d_{(x,y)}F_{|Y})^{-1}_{(x,y)}F_{|X}, \)

to wobec izomorficzności \( \displaystyle d_{(x,y)}F_{|Y} \) która w tym przypadku jest równoważna stwierdzeniu, że \( \displaystyle \frac{\partial F}{\partial y}(x, y)\neq 0 \)) różniczka \( \displaystyle d_a f \) zeruje się wtedy i tylko wtedy, gdy \( \displaystyle d_{(a,f(a))}F_{|X}=0 \). Warunek ten jest z kolei równoważny zerowaniu się w punkcie \( \displaystyle (a, f(a)) \) pochodnych cząstkowych funkcji \( \displaystyle F \) po zmiennych \( \displaystyle x_1, x_2, \dots, x_n \), czyli

\( \displaystyle \left\{\begin{align*} & \frac{\partial F}{\partial x_1}(a, f(a))=0 \\ & \frac{\partial F}{\partial x_2}(a, f(a))=0 \\ & \vdots \\ & \frac{\partial F}{\partial x_n}(a, f(a))=0.\end{align*} \right. \)

Wyznaczymy również drugą różniczkę funkcji uwikłanej \( \displaystyle f \), aby z jej określoności wywnioskować, czy funkcja \( \displaystyle f \) osiąga maksimum, minimum, czy też w ogóle nie osiąga ekstremum w punktach, które spełniają warunek konieczny istnienia ekstremum.

Rozważmy dwa najczęściej spotykane przypadki:

Przypadek I. Niech \( \displaystyle F:\mathbb{R}^2\mapsto \mathbb{R} \) będzie funkcją dwukrotnie różniczkowalną. Rozważmy funkcję \( \displaystyle f \) uwikłaną równaniem \( \displaystyle F(x, f(x))=0 \). Różniczkując tę równość po zmiennej \( \displaystyle x \), otrzymamy (na podstawie twierdzenia o różniczkowaniu złożenia) równość

\( \displaystyle 0=\frac{\partial F}{\partial x}+\frac{\partial F}{\partial y}f'. \)

Różniczkując względem zmiennej \( \displaystyle x \) powtórnie obie strony powyższej nierówności, otrzymamy

\( \displaystyle \begin{align*} 0=\frac{d}{dx}\bigg(\frac{\partial F}{\partial x}+\frac{\partial F}{\partial y}f'\bigg) & =\frac{d}{dx}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{d}{dx}\bigg(\frac{\partial F}{\partial y}f'\bigg) \\ & = \frac{d}{dx}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{d}{dx}\bigg(\frac{\partial F}{\partial y}\bigg)f'+\frac{\partial F}{\partial y}f'' \\ & =\frac{\partial^2 F}{\partial x^2}+\frac{\partial^2 F}{\partial y\partial x}f'+\bigg(\frac{\partial^2 F}{\partial x\partial y}+\frac{\partial^2 F}{\partial y^2}f'\bigg)f'+\frac{\partial F}{\partial y}f''.\end{align*} \)

Otrzymane wyrażenie znacznie upraszcza się w punkcie \( \displaystyle x_0 \), w którym \( \displaystyle f'(x_0)=0 \). Otrzymamy wówczas równość

\( \displaystyle 0=\frac{\partial^2 F}{\partial x^2}(x_0, y_0)+\frac{\partial F}{\partial y}(x_0, y_0)f''(x_0), \)

z której - wobec założenia, że \( \displaystyle \frac{\partial F}{\partial y}(x_0, y_0)\neq 0 \) - otrzymamy

\( \displaystyle f''(x_0)=-\left(\frac{\partial F}{\partial y}(x_0, y_0)\right)^{-1}\frac{\partial^2 F}{\partial x^2}(x_0, y_0), \)

gdzie \( \displaystyle y_0=f(x_0) \).

Przypadek II. Niech \( \displaystyle f:\mathbb{R}^2\mapsto \mathbb{R} \) będzie funkcją uwikłaną równaniem \( \displaystyle F(x,y, f(x,y))=0 \), gdzie \( \displaystyle F:\mathbb{R}^3\mapsto \mathbb{R} \) jest funkcją dwukrotnie różniczkowalną. Wówczas w punktach poziomicy \( \displaystyle \{F=0\} \) otrzymamy równości zawierające pochodne cząstkowe \( \displaystyle \frac{\partial f}{\partial x} \) oraz \( \displaystyle \frac{\partial f}{\partial y} \):

\( \displaystyle 0=\frac{\partial F}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial f}{\partial x} \)

\( \displaystyle 0=\frac{\partial F}{\partial y}+\frac{\partial F}{\partial z}\frac{\partial f}{\partial y}. \)

Policzymy pochodną cząstkową \( \displaystyle \frac{\partial }{\partial x} \) po zmiennej \( \displaystyle x \) obu stron pierwszej z tych równości. Ze wzorów na pochodną złożenia funkcji wyznaczymy wpierw:

\( \displaystyle \frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}\bigg)=\frac{\partial^2 F}{\partial x^2}+\frac{\partial^2 F}{\partial z\partial x}\frac{\partial f }{\partial x} \)

oraz

\( \displaystyle \frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial z}\bigg)=\frac{\partial^2 F}{\partial x\partial z}+\frac{\partial^2 F}{\partial z^2}\frac{\partial f}{\partial x}. \)

Wobec tego

\( \displaystyle \begin{align*} 0=\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial f}{\partial x} \bigg) & =\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial z}\frac{\partial f}{\partial x}\bigg) \\ & =\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial x}\bigg)+\frac{\partial }{\partial x}\bigg(\frac{\partial F}{\partial z}\bigg)\frac{\partial f}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial^2 f}{\partial x^2} \\ & =\frac{\partial^2 F}{\partial x^2}+\frac{\partial^2 F}{\partial z\partial x}\frac{\partial f}{\partial x}+\bigg(\frac{\partial^2 F}{\partial x\partial z}+\frac{\partial^2 F}{\partial z^2}\frac{\partial f}{\partial x} \bigg)\frac{\partial f}{\partial x}+\frac{\partial F}{\partial z}\frac{\partial^2 f}{\partial x^2}.\end{align*} \)

W punkcie \( \displaystyle (x_0, y_0) \), w którym zeruje się różniczka funkcji uwikłanej, mamy \( \displaystyle \frac{\partial f}{\partial x}(x_0, y_0)=0 \), \( \displaystyle \frac{\partial f}{\partial y}(x_0, y_0)=0 \), a powyższy wzór upraszcza się i przyjmuje postać:

\( \displaystyle 0=\frac{\partial ^2 F}{\partial x^2}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial x^2}(x_0, y_0), \)

gdzie \( \displaystyle z_0=f(x_0, y_0) \). W podobny sposób dostajemy równości zawierające pozostałe pochodne cząstkowe rzędu drugiego funkcji uwikłanej \( \displaystyle f \), które przy założeniu zerowania się różniczki funkcji uwikłanej w punkcie \( \displaystyle (x_0, y_0) \) przyjmują postać:

\( \displaystyle 0=\frac{\partial ^2 F}{\partial x\partial y}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial x\partial y}(x_0, y_0), \)

\( \displaystyle 0=\frac{\partial ^2 F}{\partial y\partial x}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial y\partial x}(x_0, y_0), \)

\( \displaystyle 0=\frac{\partial ^2 F}{\partial y^2}(x_0, y_0, z_0)+\frac{\partial F}{\partial z}(x_0, y_0, z_0)\frac{\partial^2 f}{\partial y^2}(x_0, y_0). \)

Stąd - wobec założenia, że \( \displaystyle \frac{\partial F}{\partial z}(x_0, y_0, z_0)\neq 0 \) - otrzymujemy:

\( \displaystyle \left [\begin{align*} & \frac{\partial^2 f}{\partial x^2}(x_0, y_0) & \ & \frac{\partial^2 f}{\partial x\partial y}(x_0, y_0) \\ & \frac{\partial^2 f}{\partial y\partial x}(x_0, y_0) \ & \ & \frac{\partial^2 f}{\partial y^2}(x_0, y_0)\end{align*}\right]=-\left(\frac{\partial F}{\partial z}(x_0, y_0, z_0)\right)^{-1} \left[\begin{align*} & \frac{\partial^2 F}{\partial x^2}(x_0, y_0, z_0) & \ & \frac{\partial^2 F}{\partial x\partial y}(x_0, y_0, z_0) \\ & \frac{\partial^2 F}{\partial y\partial x}(x_0, y_0, z_0) \ & \ & \frac{\partial^2 F}{\partial y^2}(x_0, y_0, z_0)\end{align*}\right] \)

W podobny sposób (szczegółowe rachunki pomijamy) można wykazać ogólny wzór wyrażający drugą różniczkę funkcji uwikłanej.

Wniosek 9.14.

Niech \( \displaystyle f: x\mapsto f(x) \), \( \displaystyle x=(x_1, x_2, \dots,x_n) \) będzie funkcją uwikłaną równaniem \( \displaystyle F(x, f(x))=0 \), gdzie \( \displaystyle F: \mathbb{R}^n\times \mathbb{R}\ni (x,y)\mapsto F(x,y)\in \mathbb{R} \) jest funkcją dwukrotnie różniczkowalną w pewnym otoczeniu punktu \( \displaystyle (a,b) \), gdzie \( \displaystyle b=f(a) \). Niech \( \displaystyle \frac{\partial F}{\partial y}(a,b)\neq 0 \) i niech różniczka \( \displaystyle d_a f=0 \). Wówczas druga różniczka funkcji uwikłanej \( \displaystyle f \) w punkcie \( \displaystyle a \) wynosi

\( \displaystyle d_a^2 f=-\bigg(\frac{\partial F}{\partial y}(a,b)\bigg)^{-1}d_{(a, b)}F_{|X}, \)

czyli

\( \displaystyle \frac{\partial^2 f}{\partial x_i \partial x_j}(a)=-\bigg(\frac{\partial F}{\partial y}(a,b)\bigg)^{-1}\frac{\partial^2 F}{\partial x_i \partial x_j}(a,b), \) dla dowolnych \( \displaystyle i, j\in\{1,2,\dots, n\} \).

Przykład 9.15.

Wyznaczmy ekstrema funkcji \( \displaystyle f \) danej w postaci uwikłanej \( \displaystyle F(x,y, f(x,y))=0 \), gdzie

\( \displaystyle F(x,y,z)=(x^2+y^2+z^2)^2 -3 xyz. \)

Obserwacja poziomicy zerowej \( \displaystyle \{F=0\} \) każe przypuszczać, że w otoczeniu czterech punktów tej poziomicy da się wskazać otoczenia ich rzutów na płaszczyznę zmiennych \( \displaystyle (x,y) \) oraz jednoznacznie określone funkcje w tych otoczeniach takie, że dwie z nich będą osiągać maksima, a pozostałe dwie - minima.

Zgodnie z wykazanymi uwagami, aby wyznaczyć punkty ekstremalne funkcji uwikłanej \( \displaystyle f \) szukamy punktów \( \displaystyle (x,y) \), których współrzędne spełniają układ równań:

\( \displaystyle \left\{\begin{align*} & \frac{\partial F}{\partial x}(x,y,z)=0 \\ & \frac{\partial F}{\partial y}(x,y,z)=0 \\ & (x,y,z)\in\{F=0\} \end{align*} \right. \text{ czyli } \left\{\begin{align*} & 4x(x^2+y^2+z^2)-3yz=0 \\ & 4y(x^2+y^2+z^2)-3xz=0 \\ & (x^2+y^2+z^2)^2 -3 xyz=0. \end{align*}\right . \)

Możliwość skorzystania z twierdzenia o funkcji uwikłanej (aby mieć gwarancję istnienia funkcji uwikłanej \( \displaystyle f \)) wymaga sprawdzenia założenia:

\( \displaystyle \frac{\partial F}{\partial z}(x,y,z)=4z(x^2+y^2+z^2)-3xy\neq 0. \)

Nietrudno zauważyć, że początek układu współrzędnych \( \displaystyle (0,0,0) \) spełnia układ równań, ale nie spełnia założenia twierdzenia o funkcji uwikłanej, gdyż \( \displaystyle \frac{\partial F}{\partial z}(0,0,0)=0 \). Obserwacja poziomicy \( \displaystyle \{F=0\} \) wyraźnie pokazuje, że nie ma możliwości jednoznacznego odwikłania funkcji \( \displaystyle (x,y)\mapsto f(x,y) \) z równania \( \displaystyle F(x,y, f(x,y))=0 \) w żadnym otoczeniu punktu \( \displaystyle (0,0,0) \). Ponadto układ spełniają cztery punkty o współrzędnych

\( \displaystyle \begin{align*} & x=y=\frac{3\sqrt{2}}{16}, \ & & z=\frac{3}{8}, \\ & x=y=-\frac{3\sqrt{2}}{16}, \ & & z=\frac{3}{8}, \\ & x=-y=\frac{3\sqrt{2}}{16}, \ & & z=-\frac{3}{8}, \\ & x=-y=-\frac{3\sqrt{2}}{16}, \ & & z=-\frac{3}{8},\end{align*} \) w których spełniony jest warunek \( \displaystyle \frac{\partial F}{\partial z}(x,y,z)\neq 0 \). Na mocy twierdzenia o funkcji uwikłanej w pewnych otoczeniach \( \displaystyle U_1, U_2, U_3, U_4\subset\mathbb{R}^2 \) odpowiednio punktów

\( \displaystyle \begin{align*} & A_1=\big(\frac{3\sqrt{2}}{16}, \frac{3\sqrt{2}}{16}\big), \\ & A_2=\big(-\frac{3\sqrt{2}}{16}, -\frac{3\sqrt{2}}{16}\big), \\ & A_3=\big(-\frac{3\sqrt{2}}{16}, \frac{3\sqrt{2}}{16}\big), \\ & A_4=\big(\frac{3\sqrt{2}}{16}, -\frac{3\sqrt{2}}{16}\big), \end{align*} \)

istnieją jedyne funkcje \( \displaystyle f_1: U_1\mapsto\mathbb{R} \), \( \displaystyle f_2: U_2\mapsto\mathbb{R} \), \( \displaystyle f_3: U_3\mapsto\mathbb{R} \), \( \displaystyle f_4: U_4\mapsto\mathbb{R} \), które spełniają warunek

\( \displaystyle F\big(x, y, f_i(x,y)\big)=0, \text{ gdy } (x,y)\in U_i, \ i\in\{1,2,3,4\} \)

oraz odpowiednio \( \displaystyle f_1(A_1)=f_2(A_2)=\frac{3}{8} \), \( \displaystyle f_3(A_3)=f_4(A_4)=-\frac{3}{8} \). Analiza poziomicy \( \displaystyle \{F=0\} \) (lub określoności drugiej różniczki \( \displaystyle d_{A_i}^2 f, \ i\in\{1,2,3,4\} \)) pozwala stwierdzić, że funkcje \( \displaystyle f_1 \) i \( \displaystyle f_2 \) osiągają w punktach \( \displaystyle A_1 \), \( \displaystyle A_2 \) maksimum, zaś \( \displaystyle f_3 \) i \( \displaystyle f_4 \) osiągają w punktach \( \displaystyle A_3 \), \( \displaystyle A_4 \) minimum.

Dalsze przykłady wyznaczania ekstremów funkcji uwikłanej analizujemy w ramach ćwiczeń.

Ekstrema warunkowe. Metoda mnożników Lagrange'a

Dotychczas wyznaczaliśmy ekstrema funkcji określonej w pewnym otwartym podzbiorze \( \displaystyle U \) przestrzeni unormowanej \( \displaystyle X \) (przy czym w praktycznych przykładach zajmowaliśmy się przykładami, gdy \( \displaystyle X=\mathbb{R}^n \), \( \displaystyle n=1,2,3,\dots \)). Równie ważne z praktycznego punktu widzenia są także rozważania polegające na wyznaczaniu ekstremów funkcji \( \displaystyle F:X\mapsto\mathbb{R} \) zacieśnionej do zbioru, który nie jest otwarty w \( \displaystyle X \).

Przykład 9.16.

Wyznaczmy najmniejszą i największą wartość funkcji

\( \displaystyle F(x,y,z)=x -2y +2z \)
na sferze

\( \displaystyle x^2+y^2+z^2=1. \)

Sfera ta jest zbiorem domkniętym i ograniczonym, jest więc zwarta. Stąd na na mocy twierdzenia Weierstassa o osiąganiu kresów przez funkcję ciągłą wnioskujemy, że wielomian \( \displaystyle F(x,y,z)=x -2y +2z \) osiąga na tej sferze zarówno wartość najmniejszą, jak i największą. Nasze dotychczasowe doświadczenie podpowiada nam, że zadanie można by sprowadzić do badania funkcji dwóch zmiennych np. poprzez odwikłanie zmiennej

\( \displaystyle z(x,y)=\sqrt{1-x^2-y^2} \text{ lub } z(x,y)=-\sqrt{1-x^2-y^2} \)

z równania sfery i zbadania funkcji dwóch zmiennych \( \displaystyle (x,y) \) danych w kole \( \displaystyle x^2+y^2 < 1 \) wzorami:

\( \displaystyle f_1: (x,y)\mapsto F\big(x,y,\sqrt{1-x^2-y^2}\big)=x-2y+2\sqrt{1-x^2-y^2}, \)

\( \displaystyle f_2: (x,y)\mapsto F\big(x,y,-\sqrt{1-x^2-y^2}\big)=x-2y-2\sqrt{1-x^2-y^2}. \)

Niezbyt skomplikowane (choć nieco żmudne rachunki) prowadzą do wyznaczenia ekstremów tych funkcji, a co za tym idzie: wartości ekstremalnych funkcji \( \displaystyle F \) na danej sferze.

Podamy jednak pewną metodę, która pozwala wyznaczać ekstremum funkcji \( \displaystyle F: X\mapsto \mathbb{R} \) zacieśnionej do poziomicy zerowej \( \displaystyle \{G=0\} \) pewnej funkcji \( \displaystyle G: X\mapsto Y \) również w przypadku, gdy odwikłanie zmiennej z równania \( \displaystyle G=0 \) nie jest tak proste jak w podanym przykładzie.

Sprecyzujmy jednak wpierw problem.

Niech \( \displaystyle X, Y \) będą przestrzeniami Banacha i niech \( \displaystyle G: X\mapsto Y \), \( \displaystyle F:X\mapsto \mathbb{R} \) będą funkcjami.

Definicja 9.17.

Mówimy, że funkcja \( \displaystyle F \) osiąga ekstremum warunkowe w punkcie \( \displaystyle a \) przy warunku \( \displaystyle a\in \{G=0\} \), jeśli zacieśnienie funkcji \( \displaystyle F \) do poziomicy \( \displaystyle \{G=0\} \) osiąga ekstremum w tym punkcie. Prawdziwe jest następujące twierdzenie, które stanowi podstawę metody mnożników Lagrange'a.

Niech \( \displaystyle X, Y \) będą przestrzeniami Banacha.

Twierdzenie 9.18.

Niech \( \displaystyle F: X\mapsto \mathbb{R} \), \( \displaystyle G: X\mapsto Y \) będą funkcjami różniczkowalnymi w otoczeniu punktu regularnego \( \displaystyle a \) poziomicy \( \displaystyle \{G=0\} \) (co - przypomnijmy - oznacza, że różniczka \( \displaystyle d_a G \) jest suriekcją przestrzeni \( \displaystyle X \) na \( \displaystyle Y \)). Jeśli funkcja \( \displaystyle F \) osiąga ekstremum warunkowe w punkcie regularnym \( \displaystyle a \) poziomicy zerowej funkcji \( \displaystyle G \), to istnieje funkcjonał liniowy i ciągły \( \displaystyle \Lambda: Y\mapsto\mathbb{R} \) taki, że zachodzi równość \( \displaystyle d_a F=\Lambda \circ d_a G \).

Prawdziwe jest również twierdzenie, które na podstawie określoności drugiej różniczki pozwala stwierdzić, czy funkcja \( \displaystyle F \) osiąga minimum, czy maksimum warunkowe w punkcie \( \displaystyle a\in\{G=0\} \).

Twierdzenie 9.19.

Niech \( \displaystyle F: X\mapsto \mathbb{R} \), \( \displaystyle G: X\mapsto Y \) będą funkcjami dwukrotnie różniczkowalnymi w otoczeniu punktu regularnego \( \displaystyle a \) poziomicy \( \displaystyle \{G=0\} \). Jeśli istnieje funkcjonał liniowy i ciągły \( \displaystyle \Lambda: Y\mapsto\mathbb{R} \) taki, że zachodzi równość \( \displaystyle d_a F=\Lambda \circ d_a G \) oraz forma kwadratowa

\( \displaystyle X\ni h\mapsto\big(d^2_a F-\Lambda \circ d_a^2 G \big)(h,h)\in\mathbb{R} \)

jest dodatnio określona (odpowiednio: ujemnie określona) na podprzestrzeni \( \displaystyle X_1:=\{h\in X, d_aG(h)=0\} \) przestrzeni \( \displaystyle X \), to funkcja \( \displaystyle F \) osiąga w punkcie \( \displaystyle a \) minimum (odpowiednio: maksimum) warunkowe.

Definicja 9.20.

Funkcjonał \( \displaystyle \Lambda \), który występuje w wypowiedzi obu powyższych twierdzeń, nazywamy funkcjonałem Lagrange'a.

Dowody obu twierdzeń pomijamy (można je znaleźć np. w podręczniku Krzysztofa Maurina, Analiza. Część I. Elementy, Państwowe Wydawnictwo Naukowe, Warszawa 1977). Podamy jednak interpretację tego twierdzenia w kilku najczęściej spotykanych sytuacjach.

Uwaga 9.21.

Jeśli \( \displaystyle f, g : \mathbb{R}^2\mapsto \mathbb{R} \) są funkcjami różniczkowalymi, problem znalezienia ekstremum warunkowego funkcji \( \displaystyle f \) przy warunku \( \displaystyle \{g=0\} \) sprowadza się do znalezienia punktu \( \displaystyle a \) na poziomicy \( \displaystyle \{g=0\} \) oraz stałej \( \displaystyle \lambda \), która reprezentuje funkcjonał Lagrange'a. Jeśli bowiem ekstremum to jest realizowane, to - zgodnie z podanym twierdzeniem - istnieje funkcjonał liniowy \( \displaystyle \Lambda : \mathbb{R}\mapsto \mathbb{R} \) dany wzorem \( \displaystyle \Lambda (x)=\lambda x \) taki, że różniczka \( \displaystyle d_a f=\lambda d_a g \), o ile punkt \( \displaystyle a \) jest punktem regularnym poziomicy \( \displaystyle \{g=0\} \). Przypomnijmy, że w przypadku, gdy \( \displaystyle g: \mathbb{R}^2\mapsto \mathbb{R} \), punkt \( \displaystyle a \) jest regularny, jeśli rząd różniczki

\( \displaystyle d_a g=\frac{\partial g(a)}{\partial x}dx+\frac{\partial g(a)}{\partial y}dy \)

wynosi 1. Wystarczy więc sprawdzić, czy w punkcie \( \displaystyle a \) różniczka \( \displaystyle d_a g\neq 0 \), czyli czy którakolwiek pochodna cząstkowa \( \displaystyle \frac{\partial g(a)}{\partial x} \) lub \( \displaystyle \frac{\partial g(a)}{\partial y} \) jest różna od zera. Zagadnienie sprowadza się do znalezienia punktów, w których zeruje się różniczka funkcji pomocniczej

\( \displaystyle \Phi(x,y): =f(x,y)-\lambda g(x,y), \)

gdzie stałą \( \displaystyle \lambda \) (nazywaną tradycyjnie mnożnikiem Lagrange'a) wyznaczamy z układu równań

\( \displaystyle \left\{\begin{align*} d_{(x,y)}\Phi=0 \\ g(x,y)=0\end{align*} \right. \text{ czyli } \left\{\begin{align*} & \displaystyle \frac{\partial f}{\partial x}=\lambda \frac{\partial g}{\partial x} \\ & \displaystyle \frac{\partial f}{\partial y}=\lambda \frac{\partial g}{\partial y} \\ & \displaystyle (x,y)=0.\end{align*} \right. \)

Uwaga 9.22.

Jeśli \( \displaystyle f, g : \mathbb{R}^3\mapsto \mathbb{R} \) są funkcjami różniczkowalnymi, problem znalezienia ekstremum warunkowego funkcji \( \displaystyle f \) przy warunku \( \displaystyle \{g=0\} \) sprowadza się do znalezienia - podobnie jak w poprzednim przypadku - punktu \( \displaystyle a \) na poziomicy \( \displaystyle \{g=0\} \) oraz stałej \( \displaystyle \lambda \), która reprezentuje funkcjonał Lagrange'a. Jeśli bowiem ekstremum to jest realizowane to - zgodnie z podanym twierdzeniem - istnieje funkcjonał liniowy \( \displaystyle \Lambda : \mathbb{R}\mapsto \mathbb{R} \) dany wzorem \( \displaystyle \Lambda (x)=\lambda x \), taki, że różniczka \( \displaystyle d_a f=\lambda d_a g \), o ile punkt \( \displaystyle a \) jest punktem regularnym poziomicy \( \displaystyle \{g=0\} \). Przypomnijmy, że w przypadku, gdy \( \displaystyle g: \mathbb{R}^3\mapsto \mathbb{R} \) punkt \( \displaystyle a \) jest regularny, jeśli rząd \( \displaystyle d_a g \) (odwzorowania liniowego z \( \displaystyle \mathbb{R}^3 \) do \( \displaystyle \mathbb{R} \)) jest maksymalny, czyli wynosi \( \displaystyle 1 \). Wystarczy więc sprawdzić, czy w punkcie \( \displaystyle a \) różniczka

\( \displaystyle d_a g=\frac{\partial g(a)}{\partial x}dx+\frac{\partial g(a)}{\partial y}dy+\frac{\partial g(a)}{\partial z}dz \)
nie zeruje się, czyli czy któraś z pochodnych cząstkowych \( \displaystyle \frac{\partial g(a)}{\partial x} \), \( \displaystyle \frac{\partial g(a)}{\partial y} \), \( \displaystyle \frac{\partial g(a)}{\partial z} \) jest różna od zera. Zagadnienie można sprowadzić do znalezienia punktów, w których zeruje się różniczka funkcji pomocniczej

\( \displaystyle \Phi(x,y,z): =f(x,y,z)-\lambda g(x,y,z), \)

gdzie stałą \( \displaystyle \lambda \) wyznaczamy z układu równań

\( \displaystyle \left\{\begin{align*} d_{(x,y,z)}\Phi=0 \\ g(x,y,z)=0\end{align*} \right. \text{ czyli } \left\{\begin{align*} & \displaystyle\frac{\partial f}{\partial x}=\lambda \frac{\partial g}{\partial x} \\ & \displaystyle\frac{\partial f}{\partial y}=\lambda \frac{\partial g}{\partial y} \\ & \displaystyle\frac{\partial f}{\partial z}=\lambda \frac{\partial g}{\partial z} \\ & \displaystyle (x,y,z)=0.\end{align*} \right. \)

Przykład 9.23.

Powróćmy do zadania polegającego na wyznaczeniu najmniejszej i największej wartości funkcji \( \displaystyle f(x,y,z)=x -2y +2z \) na sferze \( \displaystyle x^2+y^2+z^2=1 \). Rozwiążemy je metodą mnożników Lagrange'a opisaną w poprzednich uwagach. Dana sfera jest poziomicą zerową funkcji \( \displaystyle g(x,y,z)=x^2+y^2+z^2-1 \). Wykazaliśmy już, że każdy punkt sfery jest regularny. Niech \( \displaystyle \Phi(x,y,z)=f(x,y,z)-\lambda g(x,y,z) \). Rozwiązujemy układ równań

\( \displaystyle \left\{\begin{align*} & \displaystyle \frac{\partial f}{\partial x}=\lambda \frac{\partial g}{\partial x} \\ & \displaystyle \frac{\partial f}{\partial y}=\lambda \frac{\partial g}{\partial y} \\ & \displaystyle \frac{\partial f}{\partial z}=\lambda \frac{\partial g}{\partial z} \\ & \displaystyle g(x,y,z)=0\end{align*}\right . \text{ czyli } \left\{\begin{align*} & \displaystyle 1=2\lambda x \\ & \displaystyle-2=2\lambda y \\ & \displaystyle 2=2\lambda z \\ & \displaystyle x^2+y^2+z^2=1. \end{align*} \right. \)

Układ ten spełniają liczby

\( \displaystyle x=-\frac{1}{3},y=\frac{2}{3}, z=-\frac{2}{3}, \lambda=-\frac{3}{2} \)

oraz

\( \displaystyle x=\frac{1}{3}, y=-\frac{2}{3}, z=\frac{2}{3}, \lambda=\frac{3}{2}. \)

Ponieważ sfera jest zbiorem zwartym, wystarczy wyznaczyć wartości funkcji w obu punktach i porównać je, gdyż zgodnie z twierdzeniem Weierstrassa o osiąganiu kresów przez funkcję ciągłą na zbiorze zwartym, w jednym z tych dwóch punktów funkcja \( \displaystyle f \) musi osiągać kres dolny, a w drugim kres górny wartości na sferze \( \displaystyle \{g=0\} \). Mamy

\( \displaystyle f\big(-\frac{1}{3}, \frac{2}{3}, -\frac{2}{3} \big)=-3, \ \ f\big(\frac{1}{3}, -\frac{2}{3}, \frac{2}{3} \big)=3, \)

czyli \( \displaystyle f \) osiąga w pierwszym z tych punktów wartość najmniejszą równą \( \displaystyle -3 \), a w drugim punkcie - wartość największą na sferze równą \( \displaystyle 3 \).

Uwaga 9.24.

Jeśli funkcja \( \displaystyle F: \mathbb{R}^3\mapsto \mathbb{R} \), zaś \( \displaystyle G:\mathbb{R}^3\mapsto \mathbb{R}^2 \), zagadnienie znalezienia ekstremów warunkowych funkcji \( \displaystyle F \) przy warunku \( \displaystyle \{G=0\} \) sprowadza się do znalezienia punktów zbioru \( \displaystyle \{G=0\} \), w których zeruje się różniczka funkcji \( \displaystyle \Phi(x,y,z):=F(x,y,z)-\Lambda \circ G(x,y,z) \). Funkcjonał Lagrange'a \( \displaystyle \Lambda \) w tym przypadku jest odwzorowaniem liniowym z \( \displaystyle \mathbb{R}^2\mapsto \mathbb{R} \), jest więc reprezentowany przez macierz złożoną z dwóch liczb: \( \displaystyle \lambda_1 \), \( \displaystyle \lambda_2 \). Funkcja \( \displaystyle G=(g_1, g_2) \) jest zestawieniem dwóch funkcji \( \displaystyle g_1, g_2 \) o wartościach rzeczywistych, stąd

\( \displaystyle \Phi(x,y,z)=F(x,y,z)-\Lambda G(x,y,z)=F(x,y,z)-\lambda_1 g_1 (x,y,z)-\lambda_2 g_2 (x,y,z). \)

Metoda mnożników Lagrange'a sprowadza się więc do znalezienia rozwiązań układu równań

\( \displaystyle \left\{\begin{align*} d_{(x,y,z)}\Phi=0 \\ G(x,y,z)=0\end{align*} \right. \text{ czyli } \left\{\begin{align*} & \displaystyle\frac{\partial F}{\partial x}=\lambda_1 \frac{\partial g_1}{\partial x}+\lambda_2 \frac{\partial g_2}{\partial x} \\ & \displaystyle\frac{\partial F}{\partial y}=\lambda_1 \frac{\partial g_1}{\partial y}+\lambda_2 \frac{\partial g_2}{\partial y} \\ & \displaystyle\frac{\partial F}{\partial z}=\lambda_1 \frac{\partial g_1}{\partial z} +\lambda_2 \frac{\partial g_2}{\partial z} \\ & \displaystyle g_1(x,y,z)=0 \\ & \displaystyle g_2(x,y,z)=0\end{align*} \right. \)

w punktach regularnych poziomicy \( \displaystyle \{G=0\} \), czyli tych, w których rząd różniczki \( \displaystyle d_{(x,y,z)}G \) jest maksymalny (tj. równy \( \displaystyle 2 \), gdyż różniczka \( \displaystyle d_{(x,y,z)}G \) jest odwzorowaniem liniowym z \( \displaystyle \mathbb{R}^3 \) do \( \displaystyle \mathbb{R}^2 \)). Zwróćmy uwagę, że funkcja \( \displaystyle F \) może osiągać ekstremum w punktach, które należą do poziomicy \( \displaystyle \{G=0\} \) a nie są regularne. Metoda mnożników Lagrange'a nie rozstrzyga w tym przypadku o istnieniu ekstremum.

Przykład 9.25.

Wyznaczmy najmniejszą i największą wartość funkcji

\( \displaystyle F(x,y,z)=x-y-2z \)

na przecięciu się dwóch walców

\( \displaystyle x^2+z^2=1, \ \ y^2+z^2=1. \)

Zauważmy, że każdy z walców z osobna nie jest zbiorem zwartym, gdyż nie jest ograniczony, lecz ich przecięcie jest zbiorem zwartym (gdyż jest zbiorem domkniętym i ograniczonym, zawartym między innymi w sześcianie \( \displaystyle [-1,1]\times [-1,1]\times [-1,1] \)). Podany warunek można opisać za pomocą poziomicy zerowej funkcji \( \displaystyle G(x,y,z)=(x^2+z^2-1, y^2+z^2-1) \). Zbadaliśmy już, że spośród punktów poziomicy \( \displaystyle \{G=0\} \) tylko dwa nie są regularne: \( \displaystyle (0,0, 1) \) oraz \( \displaystyle (0,0,-1) \). Poza tymi dwoma punktami możemy zastosować metodę mnożników Lagrange'a, która sprowadza się do wyznaczenia rozwiązań układu równań:

\( \displaystyle \left\{\begin{align*} & \displaystyle \frac{\partial F}{\partial x}=\lambda_1 \frac{\partial g_1}{\partial x}+\lambda_2 \frac{\partial g_2}{\partial x} \\ & \displaystyle \frac{\partial F}{\partial y}=\lambda_1 \frac{\partial g_1}{\partial y}+\lambda_2 \frac{\partial g_2}{\partial y} \\ & \displaystyle \frac{\partial f}{\partial z}=\lambda_1 \frac{\partial g_1}{\partial z} +\lambda_2 \frac{\partial g_2}{\partial z} \\ & \displaystyle g_1(x,y,z)=0 \\ & \displaystyle g_2(x,y,z)=0\end{align*} \right. \text{ czyli } \left\{\begin{align*} & \displaystyle 1=2\lambda_1 x \\ & \displaystyle -1=2\lambda_2 y \\ & \displaystyle-2=2(\lambda_1+\lambda_2)z \\ & \displaystyle x^2+z^2-1=0 \\ & \displaystyle y^2+z^2-1=0. \end{align*}\right. \)

Układ ten ma dwa rozwiązania

\( \displaystyle -x=y=z=\frac{\sqrt{2}}{2}, \text{ przy czym } \lambda_1=\lambda_2=-\frac{\sqrt{2}}{2} \)

oraz

\( \displaystyle x=-y=-z=\frac{\sqrt{2}}{2}, \text{ przy czym } \lambda_1=\lambda_2=\frac{\sqrt{2}}{2}. \)

Wartość funkcji \( \displaystyle F \) w tych punktach wynosi

\( \displaystyle F\big(-\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}\big)=-2\sqrt{2} \text{ oraz } F\big(\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}\big)=2\sqrt{2}. \)

W obu punktach nieregularnych poziomicy \( \displaystyle \{G=0\} \) mamy

\( \displaystyle F(0,0,-1)=2 \text{ oraz } F(0,0,1)=-2. \)

Po porównaniu tych wartości: \( \displaystyle -2\sqrt{2} < -2 < 2 < 2\sqrt{2} \) stwierdzamy, że największą wartość na na poziomicy \( \displaystyle \{G=0\} \) równą \( \displaystyle 2\sqrt{2} \) funkcja \( \displaystyle F \) osiąga w punkcie \( \displaystyle (\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}, -\frac{\sqrt{2}}{2}) \), a najmniejszą, równą \( \displaystyle -2\sqrt{2} \), w punkcie \( \displaystyle (-\frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}, \frac{\sqrt{2}}{2}). \)

Wielowymiarowa całka Riemanna

Wielowymiarowa całka Riemanna



Wykład przedstawia pojęcie całki Riemanna funkcji \( \displaystyle N \) zmiennych. Definiujemy całkę Riemanna na kostce i na pewnych zbiorach ograniczonych. Wprowadzamy pojęcie zbioru miary zero oraz zbioru mierzalnego w sensie Jordana. Charakteryzujemy funkcje całkowalne w sensie Riemanna.

Definicja i własności całki Riemanna

rycina

Georg Friedrich Bernhard Riemann (1826-1866)

wykres

Podział kostki \( K \) na mniejsze kostki \( \displaystyle K_1,\ldots,K_s, \) takie że \( \displaystyle K=K_1\cup\ldots\cup K_s. \)

Celem tego wykładu jest zdefiniowanie całki Riemanna z funkcji \( \displaystyle N \) zmiennych po zbiorze ograniczonym w \( \displaystyle \displaystyle\mathbb{R}^N. \) Zaczynamy od bardzo naturalnego uogólnienia pojęcia całki Riemanna po przedziale w \( \displaystyle \displaystyle\mathbb{R} \) na całkę, po iloczynie kartezjańskim przedziałów (czyli po tak zwanej kostce) w \( \displaystyle \displaystyle\mathbb{R}^N. \) Następnie mówimy, jakie funkcje są całkowalne w sensie Riemanna po kostkach (to znaczy dla jakich funkcji istnieje całka Riemanna z tej funkcji po kostce). Okazuje się, że tymi funkcjami są funkcje ograniczone i ciągłe "na prawie całej" kostce. Do precyzyjnego określenia, co to znaczy "na prawie całej", będą nam potrzebne definicje zbioru miary zero i równości prawie wszędzie. Na zakończenie wykładu powiemy, jak zdefiniować całkę Riemanna nie tylko po kostce, ale też po pewnych zbiorach ograniczonych.

Definicja 10.1.

(1) Kostką w \( \displaystyle \displaystyle\mathbb{R}^N \) będziemy nazywać zbiór \( \displaystyle K:=[a_1,b_1]\times\ldots\times[a_N,b_N], \) czyli iloczyn kartezjański przedziałów \( \displaystyle \displaystyle [a_i,b_i], i=1,\ldots,N. \)

(2) Objętością kostki będziemy nazywać liczbą \( \displaystyle v(K):=(b_1-a_1)\cdot\ldots\cdot (b_N-a_N). \)

(3) Liczbę \( \displaystyle \displaystyle\delta(K):= \max\{(b_1-a_1),\ldots,(b_N-a_N)\} \) (czyli długość najdłuższego boku kostki) nazwiemy średnicą kostki \( \displaystyle K. \) Podzielmy teraz naszą kostkę na mniejsze kostki \( \displaystyle K_1,\ldots,K_s, \) o wnętrzach rozłącznych i takich, że \( \displaystyle K=K_1\cup\ldots\cup K_s. \) Oznaczmy ten zbiór kostek \( \displaystyle K_1,\ldots,K_s \) przez \( \displaystyle P. \)

Definicja 10.2.

(1) Określony wyżej zbiór \( \displaystyle P \) nazywamy podziałem kostki \( \displaystyle K. \)

(2) Liczbę \( \displaystyle \displaystyle\delta(P):= \max\{\delta(K_1),\ldots,\delta(K_s)\} \) nazywamy średnicą podziału \( \displaystyle P. \)

Weźmy teraz ciąg takich podziałów kostki \( \displaystyle K, \) czyli ciąg \( \displaystyle P_1,P_2,P_3,\ldots. \) Niech \( \displaystyle \displaystyle\delta_j \) oznacza średnicę podziału \( \displaystyle P_j. \)

Definicja 10.3.

Ciąg podziałów \( \displaystyle P_1,P_2,P_3,\ldots \) nazwiemy ciągiem normalnym, gdy \( \displaystyle \displaystyle\lim_{j\to\infty}\delta_j=0, \) czyli gdy średnice kolejnych podziałów zmierzają do zera.

Weźmy teraz funkcję ograniczoną \( \displaystyle f: K\to \mathbb{R}. \)
Analogicznie, jak w przypadku funkcji jednej zmiennej, określamy górną sumę całkową i dolną sumę całkową, a także sumę całkową zależną od punktów pośrednich.

Definicja 10.4.

(1) Dla podziału \( \displaystyle P=\{K_1,\ldots,K_t\} \) kostki \( \displaystyle K \) i funkcji ograniczonej \( \displaystyle f: K\to \mathbb{R} \) definiujemy

\( \displaystyle \begin{align*} m_i(f,P) & = \inf\{f(x), x\in K_i\}, \\ M_i(f,P) & = \sup\{f(x), x\in K_i\}, \end{align*} \)

dla \( \displaystyle i=1,\ldots,t. \)

(2) Dolną sumą całkową odpowiadającą podziałowi \( \displaystyle P \) nazywamy liczbę

\( \displaystyle L(f,P):=\sum_{i=1}^tm_i(f,P)v(K_i). \)

(3) Górną sumą całkową odpowiadającą podziałowi \( \displaystyle P \) nazywamy liczbę

\( \displaystyle U(f,P) :=\sum_{i=1}^tM_i(f,P)v(K_i). \)

(4) W każdej z kostek wybierzmy dowolny punkt \( \displaystyle x_i\in K_i. \) Dostajemy ciąg punktów pośrednich, \( \displaystyle x_1,\ldots,x_t. \)
Sumą całkową (funkcji \( \displaystyle f \) dla podziału \( \displaystyle P \) i punktów pośrednich \( \displaystyle x_1,\ldots,x_t \)) nazywamy liczbę

\( \displaystyle S(f,P,x_1,\ldots,x_t)=\sum_{i=1}^tf(x_i)v(K_i). \)

wykresy

Weźmy teraz normalny ciąg \( \displaystyle P_1,P_2,\ldots. \) podziałów kostki \( \displaystyle K. \) Dla każdego podziału \( \displaystyle P_j \) wybierzmy ciągpunktów pośrednich \( \displaystyle x_1^j,\ldots,x_{t_j}^j. \) Weźmy sumę całkową \( \displaystyle S(f, P,x_1^j,\ldots,x_{t_j}^j). \) Możemy teraz postawić następującą definicję:

Definicja 10.5.

Niech \( \displaystyle f: K\to \mathbb{R} \) będzie funkcją ograniczoną. Mówimy, że funkcja \( \displaystyle f \) jest całkowalna w sensie Riemanna na kostce \( \displaystyle K, \) jeśli dla każdego normalnego ciągu podziałów \( \displaystyle P_1,P_2,\ldots., \) istnieje granica

\( \displaystyle \lim_{j\to\infty} S(f, P,x_1^j,\ldots,x_{t_j}^j) \)

i granica ta nie zależy ani od wyboru ciągu podziałów, ani od wyboru punktów pośrednich.

Powyższą granicę oznaczamy

\( \displaystyle \displaystyle\int\limits_Kf(x)dx \)

i nazywamy

całką Riemanna funkcji \( \displaystyle f \) po kostce \( \displaystyle K. \)

Uwaga 10.6.

Można wykazać, że funkcja ograniczona \( \displaystyle f \) jest całkowalna na kostce \( \displaystyle K \) wtedy i tylko wtedy, gdy dla dowolnego ciągu podziałów normalnych \( \displaystyle P_1,P_2,\ldots \) mamy

\( \displaystyle \lim_{j\to\infty}(U(f,P_j)-L(f,P_j))=0, \)

jak również można wykazać, że wtedy istnieją i są równe granice \( \displaystyle \displaystyle\lim_{j\to\infty}L(f,P_j)=\lim_{j\to\infty}U(f,P_j)=\displaystyle\int\limits_Kf(x)dx. \)

Uwaga 10.7.

W literaturze można spotkać też zapis \( \displaystyle \displaystyle\int\limits_K\cdots \displaystyle\int\limits f(x_1,\ldots,x_N)dx_1\ldots dx_N, \) my będziemy raczej pisać \( \displaystyle \displaystyle\displaystyle\int\limits_Kf(x)dx, \) pamiętając, że zapis \( \displaystyle x \) oznacza tu \( \displaystyle \displaystyle (x_1,\ldots,x_N), \) a \( \displaystyle dx=dx_1\ldots dx_N. \) Wyjątek zrobimy natomiast dla tradycyjnego zapisu całki dwóch i trzech zmiennych, zapisując wtedy

\( \displaystyle \iint\limits_K f(x,y)dxdy \qquad \) lub \( \displaystyle \qquad \iiint\limits_K f(x,y,z)dxdydz. \)

Wnioskiem z definicji jest poniższe stwierdzenie o liniowości całki:

Stwierdzenie 10.8.

Niech \( \displaystyle K \) będzie kostką w \( \displaystyle \displaystyle\mathbb{R}^N \) a \( \displaystyle f \) i \( \displaystyle g \) funkcjami całkowalnymi w sensie Riemanna na \( \displaystyle K. \) Niech \( \displaystyle a,\displaystyle b \) będą stałymi rzeczywistymi. Wtedy

\( \displaystyle \displaystyle\int\limits_K(af(x)+bg(x))dx=a\displaystyle\int\limits_Kf(x)dx+b\displaystyle\int\limits_Kg(x)dx. \)

Nietrudno też zobaczyć, że prawdziwe jest poniższe stwierdzenie.

Stwierdzenie 10.9.

Niech \( \displaystyle K_1 \) i \( \displaystyle K_2 \) będą dwoma kostkami w \( \displaystyle \displaystyle\mathbb{R}^N \) o rozłącznych wnętrzach. Wówczas dla każdej funkcji całkowalnej, mamy

\( \displaystyle \displaystyle\int\limits_{K_1\cup K_2}f(x)dx=\displaystyle\int\limits_{K_1}f(x)dx+\displaystyle\int\limits_{K_2}f(x)dx. \)

Oczywiście to stwierdzenie nie jest prawdziwe, gdy nie założymy, że kostki mają wnętrza rozłączne.

Interpretacja geometryczna całki Riemanna

W przypadku gdy kostka \( \displaystyle K \) jest zwykłym prostokątem w \( \displaystyle \displaystyle\mathbb{R}^2,\displaystyle \) to znaczy \( \displaystyle \ K=[a,b]\times[c,d] \), a funkcja \( \displaystyle f:K\to \mathbb{R} \) jest nieujemna i ciągła (założenie ciągłości nie jest konieczne, wystarczy całkowalność), to

\( \displaystyle \iint\limits_K f(x,y)dxdy \)

jest objętością bryły \( \displaystyle B \) w \( \displaystyle \displaystyle\mathbb{R}^3 \) określonej nierównościami:

\( \displaystyle a \ \leq\ x \ \leq\ b,\quad c \ \leq\ y \ \leq\ d,\quad 0 \ \leq\ z \ \leq\ f(x,y). \)

wykresy x 4

Faktycznie, dla danego podziału \( \displaystyle P \) prostokąta \( \displaystyle K, \) suma dolna \( \displaystyle L(f,P) \) to objętość "słupków" (czyli graniastosłupów) wpisanych w \( \displaystyle B, \) jak na powyższym rysunku.

Przy zmniejszających się średnicach podziałów suma objętości "słupków" (czyli w granicy całka Riemanna z funkcji \( \displaystyle f \) po zbiorze \( \displaystyle D \)) zmierza do objętości \( \displaystyle B. \)

Uwaga 10.10.

Liczenie całki Riemanna wprost z definicji jest raczej niewygodne. Jeśli nawet będziemy wiedzieli, że całka istnieje, to musimy utworzyć ciąg podziałów, policzyć sumy całkowe i ich granicę. Na ćwiczeniach policzymy przykłady całek z wykorzystaniem definicji (patrz ćwiczenie 10.1. i 10.2.), by zobaczyć, że jest to metoda dość pracochłonna i docenić twierdzenie, które poznamy na następnym wykładzie (twierdzenie Fubiniego). Twierdzenie to pozwoli nam liczyć całki wielokrotne przy pomocy całek pojedynczych (które już umiemy liczyć).

Wprowadzimy teraz kilka pojęć, które pomogą nam powiedzieć, jak wygląda klasa funkcji całkowalnych w sensie Riemanna na kostce w \( \displaystyle \displaystyle\mathbb{R}^N \) (czyli dla jakich funkcji istnieje całka Riemanna po kostce).

wykres

Definicja 10.11.

Niech \( \displaystyle K_j, j=1,2,\ldots \) będą kostkami w \( \displaystyle \displaystyle\mathbb{R}^N \); \( \displaystyle K_j=[a_1^j,b_1^j]\times\ldots\times[a_N^j,b_N^j]. \)
Mówimy, że zbiór \( \displaystyle B\in \mathbb{R}^N \) ma objętość zero, jeśli dla każdego \( \displaystyle \displaystyle\varepsilon>0 \) istnieją kostki \( \displaystyle K_1,\ldots,K_s \) takie że

\( \displaystyle B\subset K_1\cup \ldots \cup K_s \)

oraz

\( \displaystyle \sum_{j=1}^sv(K_j)\leq\varepsilon. \)

Przykład 10.12.

(1) Punkt w \( \displaystyle \displaystyle\mathbb{R}^N \) jest zbiorem o objętości zero. Faktycznie, zawsze możemy dobrać układ współrzędnych tak, by punkt miał współrzędne \( \displaystyle \displaystyle (0,\ldots,0) \) i wtedy zawiera się on w kostce \( \displaystyle K=[-a,a]\times\ldots\times[-a,a], \) gdzie \( \displaystyle a=\sqrt[N]{\varepsilon}/2, \) a zatem \( \displaystyle v(K)=\varepsilon. \)

(2) Brzeg kostki w \( \displaystyle \displaystyle\mathbb{R}^N \) ma objętość zero. Ten fakt udowodnimy na ćwiczeniach.

wykres

Definicja 10.13.

Mówimy, że zbiór \( \displaystyle A\in \mathbb{R}^N \) ma miarę zero, jeśli dla każdego \( \displaystyle \displaystyle\varepsilon>0 \) istnieją kostki \( \displaystyle K_1,K_2,\ldots \) takie że

\( \displaystyle B\subset K_1\cup K_2\cup\ldots=\bigcup_{j=1}^{\infty}K_j \)

oraz

\( \displaystyle \sum_{j=1}^{\infty}v(K_j)\leq\varepsilon. \)

Uwaga 10.14.

Jeśli zbiór \( \displaystyle A \) ma miarę zero, to ma puste wnętrze, czyli int \( \displaystyle A=\emptyset. \)

Dowód uwagi 10.14.

Zauważmy, że wprost z definicji wynika, że podzbiór zbioru miary zero jest zbiorem miary zero.

Oczywiście kula w \( \displaystyle \displaystyle\mathbb{R}^N \) nie jest zbiorem miary zero - bo zawiera pewną kostkę.

Gdyby zbiór \( \displaystyle A \) miał niepuste wnętrze to, z definicji wnętrza, zawierałby pewną kulę.

Popatrzmy teraz na rysunki poniżej.

wykresy

Na pierwszym rysunku mamy funkcję ciągłą na przedziale \( \displaystyle \displaystyle [a, b], \) a na drugim rysunku mamy tę samą funkcję, tylko z wartością zmienioną w jednym punkcie - i w tym punkcie funkcja nie jest ciągła. Niemniej, pole pod wykresami obu funkcji jest takie samo - a zatem całka z obu funkcji po przedziale \( \displaystyle \displaystyle [a,b] \) jest taka sama. Podobnie, objętość bryły ograniczonej wykresem funkcji nad prostokątem nie zmieni się, jeśli zmienimy tę funkcję wzdłuż na przykład odcinka - jak na poniższych rysunkach:

wykres

Funkcja powstała z funkcji ciągłej \( f \) przez zmianę wartości wzdłuż odcinka

Funkcja powstała z funkcji ciągłej \( f \) przez zmianę wartości wzdłuż odcinka

A zatem całki po tym prostokącie z obu funkcji są takie same.

Przypuśćmy więc, że umiemy policzyć całkę po kostce z funkcji ciągłej. Z powyższych przykładów widać, że możemy funkcję ciągłą "zepsuć" na pewnym "niedużym" zbiorze - a całka pozostanie taka sama jak dla funkcji ciągłej. Aby formalnie powiedzieć jak bardzo możemy "zepsuć" funkcję, będziemy potrzebowali poniższych definicji:

Definicja 10.15.

Niech \( \displaystyle K \) będzie kostką w \( \displaystyle \displaystyle\mathbb{R}^n. \) Weźmy funkcję \( \displaystyle f: K\to \mathbb{R}. \) Mówimy, że funkcja \( \displaystyle f \) jest ciągła prawie wszędzie na \( \displaystyle K, \) jeśli istnieje zbiór \( \displaystyle B \) miary zero taki, że \( \displaystyle f \) jest ciągła na \( \displaystyle K\setminus B. \)

Definicja 10.16.

Dwie funkcje \( \displaystyle f \) i \( \displaystyle g \) określone na kostce \( \displaystyle K \) są równe prawie wszędzie, jeśli istnieje zbiór \( \displaystyle B \) miary zero, taki, że \( \displaystyle f=g \) na \( \displaystyle K\setminus B. \) Piszemy wtedy: \( \displaystyle f=g \) p.w. na \( \displaystyle K. \)

Uwaga 10.17.

Wydawać by się mogło, że jeśli "zepsujemy" funkcję ciągłą tylko na zbiorze miary zero, to dostaniemy funkcję ciągła prawie wszędzie. Tak jednak nie jest! Na ćwiczeniach zobaczymy przykład funkcji, określonej na przedziale \( \displaystyle \displaystyle [0,1], \) która jest różna od funkcji ciągłej tylko na zbiorze miary zero, ale która nie jest ciągła w żadnym punkcie \( \displaystyle \displaystyle [0,1] \) (patrz ćwiczenie 10.9.).

Teraz możemy napisać stwierdzenie, które mówi, kiedy całka Riemanna funkcji jest równa całce Riemanna "popsutej" funkcji.

Stwierdzenie 10.18.

Weźmy dwie funkcje \( \displaystyle f \) i \( \displaystyle g \) określone na kostce \( \displaystyle K\subset\mathbb{R}^N \) prowadzące w \( \displaystyle \displaystyle\mathbb{R}. \) Załóżmy, że obie te funkcje są całkowalne w sensie Riemanna (to znaczy istnieją \( \displaystyle \displaystyle\displaystyle\int\limits_Kf(x)dx \) i \( \displaystyle \displaystyle\displaystyle\int\limits_Kg(x)dx \)). Załóżmy, że \( \displaystyle f \) jest równe \( \displaystyle g \) prawie wszędzie na \( \displaystyle K. \) Wtedy

\( \displaystyle \displaystyle\int\limits_Kf(x)dx=\displaystyle\int\limits_Kg(x)dx. \)

Dowód 10.18. [nadobowiązkowy]

Zdefiniujmy funkcję \( \displaystyle h:=f-g. \) Widać, że funkcja \( \displaystyle h \) też jest całkowalna w sensie Riemanna na \( \displaystyle K \) i \( \displaystyle h=0 \) p.w. na \( \displaystyle K. \) Wystarczy zatem pokazać, że \( \displaystyle \displaystyle\displaystyle\int\limits_Kh(x)dx=0 \) (i skorzystać z liniowości całki). Określmy zbiór \( \displaystyle A:=\{x\in K : h(x)\neq 0\}. \) Ponieważ \( \displaystyle h \) jest równa zero prawie wszędzie, to zbiór \( \displaystyle A \) ma miarę zero, a zatem ma puste wnętrze (patrz uwaga 10.14.). W szczególności zbiór \( \displaystyle A \) nie zawiera żadnej kostki.

Weźmy teraz dowolny podział kostki \( \displaystyle K \) na kostki \( \displaystyle K_1,\ldots,K_s. \)

Żadna z tych kostek nie jest podzbiorem zbioru \( \displaystyle A, \) czyli można wybrać punkty pośrednie \( \displaystyle x_1,\ldots,x_s \) takie że \( \displaystyle x_j\in K_j\setminus A, j=1,\ldots,s. \) Dla tych \( \displaystyle x_j \) oczywiście \( \displaystyle h(x_j)=0. \) W takim razie

\( \displaystyle \sum_{j=1}^sv(K_j)h(x_j)=0, \)

a więc także

\( \displaystyle \displaystyle\int\limits_Kh(x)dx=\lim_{s\to\infty}\sum_{j=1}^sv(K_j)h(t_j)=0. \)

Podamy teraz bez dowodu bardzo ważne twierdzenie, które mówi, jakie funkcje są całkowalne w sensie Riemanna.

Twierdzenie 10.19.

Niech \( \displaystyle K \) będzie kostką w \( \displaystyle \displaystyle\mathbb{R}^N. \) Niech \( \displaystyle f: K\to \mathbb{R} \) będzie funkcją ograniczoną oraz ciągłą prawie wszędzie na \( \displaystyle K. \)

Wtedy \( \displaystyle f \) jest całkowalna w sensie Riemanna na \( \displaystyle K. \)

Na zakończenie tego wykładu powiemy, jak całkować funkcje po zbiorach innych niż kostki (jak na przykład walce, kule etc).

Przypomnijmy, że funkcją charakterystyczną zbioru \( \displaystyle B\in \mathbb{R}^N \) nazywamy funkcję

\( \displaystyle \chi_B(x) \ = \left\{ \begin{array} {lll} 1 & \textrm{dla} \displaystyle & x\in B, \\ 0, & \textrm{dla} \displaystyle & x\in \mathbb{R}^N\setminus B. \end{array} \right. \)

wykresy

Wykres funkcji charakterystycznej zbioru \( B \)

Dla funkcji \( \displaystyle f: B\to \mathbb{R} \) zdefiniujmy funkcję

\( \displaystyle f_B(x) :=\left \{ \begin{array} {lll} f(x) & \textrm{dla} \displaystyle & x\in B, \\ 0 & \textrm{dla} \displaystyle & x\in \mathbb{R}^N\setminus B. \end{array} \right. \)

wykresy

Zbiór \( B \) i wykres funkcji \( f \)

Wykres funkcji \( f_B \)

Możemy teraz zdefiniować całkę Riemanna z funkcji ograniczonej \( \displaystyle f \) po zbiorze ograniczonym \( \displaystyle B\subset\mathbb{R}^N. \)

Definicja 10.20.

Niech \( \displaystyle B \) będzie ograniczonym podzbiorem \( \displaystyle \displaystyle\mathbb{R}^N \) i niech \( \displaystyle f:B\to\mathbb{R} \) będzie funkcją ograniczoną. Niech \( \displaystyle K \) będzie kostką w \( \displaystyle \displaystyle\mathbb{R}^N \) taką, że \( \displaystyle B\subset K. \) Wtedy całkę z funkcji \( \displaystyle f \) po zbiorze \( \displaystyle B \) definiujemy jako

\( \displaystyle \displaystyle\int\limits_Bf(x)dx:=\displaystyle\int\limits_Kf_B(x)dx, \)

o ile \( \displaystyle \displaystyle\displaystyle\int\limits_Kf_Bdx \) istnieje.

Pomijamy tu, intuicyjnie dość oczywisty, dowód poprawności definicji - czyli jej niezależności od wyboru kostki \( \displaystyle K, \) w której zawiera się zbiór \( \displaystyle B. \)

Pozostaje jeszcze pytanie, czy możemy powiedzieć, kiedy istnieje całka \( \displaystyle \displaystyle\displaystyle\int\limits_Kf_B(x)dx \)? Aby odpowiedzieć na to pytanie, podajmy najpierw następujące fakty:

rycina

Marie Ennemond Camille Jordan (1838-1922)

Definicja 10.21.

Niech \( \displaystyle B \) będzie ograniczonym podzbiorem \( \displaystyle \displaystyle\mathbb{R}^N. \) Załóżmy, że brzeg zbioru \( \displaystyle B \) jest zbiorem miary zero, \( \displaystyle m(\partial B)=0. \) Zbiór \( \displaystyle B \) nazywamy wtedy mierzalnym w sensie Jordana (czyli J-mierzalnym) (przypomnijmy, że brzeg zbioru \( \displaystyle B \) definiujemy jako \( \displaystyle \displaystyle\partial B=\overline{B}\setminus\mathrm{int}\, B \); patrz definicja 1.7.).

Bez dowodu podamy poniższe stwierdzenie:

Stwierdzenie 10.22.

Jeśli zbiór ograniczony \( \displaystyle B, \) zawarty w pewnej kostce \( \displaystyle K \) jest J-mierzalny, to istnieje

\( \displaystyle \displaystyle\int\limits_B\chi_B(x)dx. \)

Definicja 10.23.

Dla J-mierzalnego zbioru ograniczonego \( \displaystyle B \) zawartego w kostce \( \displaystyle K \) objętością \( \displaystyle B \) nazywamy liczbę

\( \displaystyle v(B):=\displaystyle\int\limits_B\chi_B(x)dx. \)

Definicja 10.24.

Gdy \( \displaystyle B\subset \mathbb{R},\displaystyle v(B) \) nazywamy długością \( \displaystyle B, \) a dla \( \displaystyle B\subset \mathbb{R}^2,\displaystyle v(B) \) nazywamy polem \( \displaystyle B. \)

Możemy teraz podać następujące twierdzenie.

Twierdzenie 10.25.

Niech \( \displaystyle B \) będzie J-mierzalnym, ograniczonym podzbiorem \( \displaystyle \displaystyle\mathbb{R}^N. \) Niech \( \displaystyle f: B\to \mathbb{R} \) będzie funkcją ograniczoną oraz ciągłą prawie wszędzie na \( \displaystyle B. \)

Wtedy \( \displaystyle f \) jest całkowalna w sensie Riemanna na \( \displaystyle B. \)

Uwaga 10.26.

W praktyce najczęściej mamy do czynienia z całkowaniem funkcji ciągłych i określonych na "przyzwoitych" zbiorach, to znaczy zbiorach ograniczonych kawałkami wykresów funkcji, i to funkcji klasy co najmniej \( \displaystyle \displaystyle\cal C^1. \) Takimi zbiorami są na przykład kula, walec, kostka, stożek i ich przecięcia. Przedstawione w tym wykładzie rozważania dotyczące całkowalności i zbiorów miary zero należy potraktować jako rodzaj wstępu do teorii miary i do ogólniejszych teorii całek, na przykład do teorii całki Lebesgue'a.

Twierdzenie Fubiniego. Twierdzenie o zmianie zmiennych

Twierdzenie Fubiniego. Twierdzenie o zmianie zmiennych



W tym wykładzie prezentujemy twierdzenie Fubiniego (z dowodem tylko dla kostki w \( \displaystyle \mathbb{R}^2 \)) oraz twierdzenie o zmianie zmiennych w całce. Podajemy przykłady zmiany zmiennych w \( \displaystyle \mathbb{R}^2 \) na współrzędne biegunowe oraz w \( \displaystyle \mathbb{R}^3 \) na współrzędne walcowe i sferyczne.

Zmiana zmiennych na trójwymiarowe współrzędne walcowe

wykres

AM2.M11.W.R12

Ta zmiana zmiennych jest w zasadzie zmianą na współrzędne biegunowe w \( \displaystyle \displaystyle\mathbb{R}^2. \) Opisana jest wzorami:

\( \displaystyle \left\{ \begin{array} {lll} x & = r\cos\alpha, \\ y & = r\sin\alpha, \\ z & = z, \end{array} \right . \)

gdzie \( \displaystyle r\in(0,+\infty), \alpha\in(0,2\pi), z\in(-\infty,\infty). \) Jakobian tej zmiany zmiennych wynosi \( \displaystyle r>0. \)

Przykład 11.15.

Policzyć całkę

\( \displaystyle \iiint\limits_D z dxdydz, \)

gdzie \( \displaystyle D \) jest walcem o podstawie \( \displaystyle \displaystyle\{(x,y)\in \mathbb{R}^2 : x^2+y^2 < R^2\} \) i o wysokości \( \displaystyle H. \)

Skoro \( \displaystyle x^2+y^2 < R^2 \) to \( \displaystyle r=\sqrt{x^2+y^2}\in (0,R), \) na kąt \( \displaystyle \displaystyle\alpha \) nie mamy dodatkowych warunków, natomiast skoro wysokość walca wynosi \( \displaystyle H \) to \( \displaystyle z\in [0,H]. \) Tak więc \( \displaystyle B=(0,R)\times(0, 2\pi)\times[0,H]. \)

\( \displaystyle \begin{align*} \iiint\limits_D z dxdydz & = \iiint\limits_B rz d\alpha dr dz \ =\ \displaystyle\int\limits_0^{2\pi}d\alpha\displaystyle\int\limits_0^R dr\displaystyle\int\limits_0^H rz dz \\ \ & =\ \frac{H^2}{2}\displaystyle\int\limits_0^{2\pi}d\alpha\displaystyle\int\limits_0^R r dr = \frac{H^2}{2}\frac{R^2}{2}\displaystyle\int\limits_0^{2\pi}d\alpha \ =\ \pi\frac{H^2R^2}{2}. \end{align*} \)

Ciekawsze przykłady policzymy na ćwiczeniach.

Twierdzenie Fubiniego

Ten wykład poświęcony jest dwóm najważniejszym twierdzeniom dotyczącym całek wielokrotnych. Twierdzenie Fubiniego pozwala liczyć całki wielokrotne (podwójne, potrójne, itd.) po odpowiednich obszarach za pomocą kolejnego liczenia pewnych całek pojedynczych w odpowiednich granicach. Drugim z twierdzeń jest twierdzenie o zmianie zmiennych w całce, odpowiednik twierdzenia o całkowaniu przez podstawienie dla całki jednej zmiennej, także bardzo ważne dla obliczania całek.

Na ćwiczeniach do poprzedniego wykładu policzyliśmy z definicji \( \displaystyle \displaystyle\iint\limits_Kxy\ dxdy=\frac{1}{4}, \) gdzie \( \displaystyle K=[0,1]\times[0,1]. \)

Policzmy teraz \( \displaystyle \displaystyle\displaystyle\int\limits_0^1xydx, \) traktując \( \displaystyle y \) jako stałą. Dostaniemy oczywiście

\( \displaystyle \displaystyle\int\limits_0^1xydx=y\frac{x^2}{2}\bigg|_0^1=\frac{y}{2}. \)

Następnie policzmy \( \displaystyle \displaystyle\displaystyle\int\limits_0^1\frac{y}{2}dy, \) czyli całkę "z tego" co otrzymaliśmy wyżej. Dostaniemy

\( \displaystyle \displaystyle\int\limits_0^1\frac{y}{2}dy=\frac{y}{4}\bigg|_0^1=\frac{1}{4}. \)

Policzyliśmy zatem

\( \displaystyle \displaystyle\int\limits_0^1\left(\displaystyle\int\limits_0^1 xy dx\right) dy=\frac{1}{4}. \)

Jeśli policzymy "w drugą stronę", czyli najpierw całkę względem \( \displaystyle y \) a potem względem \( \displaystyle x, \) to dostaniemy

\( \displaystyle \displaystyle\int\limits_0^1xydy=x\frac{y^2}{2}\bigg|_0^1=\frac{x}{2}, \)

następnie

\( \displaystyle \displaystyle\int\limits_0^1\frac{x}{2}dy=\frac{x}{4}\bigg|_0^1=\frac{1}{4}, \) zatem także

\( \displaystyle \displaystyle\int\limits_0^1\left(\displaystyle\int\limits_0^1 xy dy\right) dx=\frac{1}{4}. \)

Otrzymaliśmy zatem następujące równości:

\( \displaystyle \iint\limits_{[0,1]\times[0,1]}xy\ dxdy \ =\ \displaystyle\int\limits_0^1\left(\displaystyle\int\limits_0^1 xy dx\right) dy \ =\ \displaystyle\int\limits_0^1\left(\displaystyle\int\limits_0^1 xy dy\right) dx. \)

W takim razie możemy zapytać: czy może takie równości zachodzą zawsze? Okazuje się, że (przy rozsądnych założeniach) faktycznie tak jest - mówi o tym Twierdzenie Fubiniego.

Twierdzenie 11.1. [Twierdzenie Fubiniego]

Niech \( \displaystyle K_1 \) będzie kostką w \( \displaystyle \displaystyle\mathbb{R}^n \) a \( \displaystyle K_2 \) kostką w \( \displaystyle \displaystyle\mathbb{R}^m. \) Zmienne w \( \displaystyle \displaystyle\mathbb{R}^n \) oznaczmy przez \( \displaystyle x \) a w \( \displaystyle \displaystyle\mathbb{R}^m \) przez \( \displaystyle y. \) Weźmy funkcję \( \displaystyle f:A\times B\to \mathbb{R}. \) Załóżmy, że dla każdego ustalonego \( \displaystyle y\in B \) funkcja \( \displaystyle f(\cdot,y) \) jest całkowalna w sensie Riemanna na \( \displaystyle A \) oraz że dla każdego ustalonego \( \displaystyle x\in A \) funkcja \( \displaystyle f(x,\cdot) \) jest całkowalna w sensie Riemanna na \( \displaystyle B. \) Wtedy

\( \displaystyle \displaystyle\int\limits_{A\times B}f(x,y)\ dxdy=\displaystyle\int\limits_A\left(\displaystyle\int\limits_B f(x,y) dy\right)dx \ =\ \displaystyle\int\limits_B\left(\displaystyle\int\limits_A f(x,y) dx\right)dy. \)

wykres

Rysunek do twierdzenia Fubiniego

Uwaga 11.2.

(1) W szczególności, gdy funkcja \( \displaystyle f(x,y) \) jest ciągła na \( \displaystyle A\times B, \) to obie funkcje \( \displaystyle f(\cdot,y):A\to \mathbb{R} \) i \( \displaystyle f(x,\cdot):B\to \mathbb{R} \) są całkowalne i zachodzą powyższe równości, czyli

\( \displaystyle \displaystyle\int\limits_{A\times B}f(x,y)\ dxdy \ =\ \displaystyle\int\limits_A\left(\displaystyle\int\limits_B f(x,y) dy\right) dx=\displaystyle\int\limits_B\left(\displaystyle\int\limits_A f(x,y) dx\right)dy. \)

(2) Nietrudno zauważyć, że w twierdzeniu Fubiniego zamiast kostek \( \displaystyle A \) i \( \displaystyle B \) możemy wziąć dowolne zbiory J-mierzalne - bo i tak całkowanie po dowolnych zbiorach J-mierzalnych sprowadziliśmy do całkowania po kostkach (patrz poprzedni wykład).

(3) Całki \( \displaystyle \displaystyle\displaystyle\int\limits_A\left(\displaystyle\int\limits_B f(x,y) dy\right)dx \) i \( \displaystyle \displaystyle\displaystyle\int\limits_B\left(\displaystyle\int\limits_A f(x,y) dx\right)dy \) nazywamy całkami iterowanymi.

Dowód 11.2.

Dowód twierdzenia Fubiniego przedstawimy tylko dla przypadku, gdy \( \displaystyle K_1 \) i \( \displaystyle K_2 \) są kostkami w \( \displaystyle \displaystyle\mathbb{R} \) (czyli \( \displaystyle K_1\times K_2 \) jest kostką (prostokątem) w \( \displaystyle \displaystyle\mathbb{R}^2. \) W tym przypadku twierdzenie i dowód łatwo zilustrować rysunkiem (patrz obok). Idea dowodu dla kostek wyżej wymiarowych jest dokładnie taka sama. Dla dodatkowego uproszczenia dowodu założymy, że funkcja \( \displaystyle f \) jest ciągła. A zatem wypiszmy:

Twierdzenie 11.3. [Twierdzenie Fubiniego dla funkcji ciągłej na prostokącie]

Niech \( \displaystyle K=[a,b]\times [c,d] \) będzie kostką w \( \displaystyle \displaystyle\mathbb{R}^2. \) Niech \( \displaystyle f: K\to \mathbb{R} \) będzie funkcją ciągłą. Wówczas istnieją całki iterowane \( \displaystyle \displaystyle\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right)dx \) i \( \displaystyle \displaystyle\displaystyle\int\limits_c^d\left(\displaystyle\int\limits_a^b f(x,y) dx\right)dy \) oraz zachodzą równości

\( \displaystyle \displaystyle\int\limits_{[a,b]\times [c,d]}f(x,y)\ dxdy \ =\ \displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y)dy\right) dx \ =\ \displaystyle\int\limits_c^d\left(\displaystyle\int\limits_a^b f(x,y) dx\right)dy. \)

rycina

Dowód 11.3. [nadobowiązkowy]

Wykażemy istnienie całki \( \displaystyle \displaystyle\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right) dx \) i równość

\( \displaystyle \displaystyle\int\limits_{[a,b]\times [c,d]}f(x,y)\ dxdy \ =\ \displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right) dx. \)

Istnienia drugiej z całek iterowanych i drugiej równości dowodzi się analogicznie. Niech \( \displaystyle d_2 \) oznacza metrykę euklidesową w \( \displaystyle \displaystyle\mathbb{R}^2, \) czyli

\( \displaystyle d_2((x_1,y_1),(x_2,y_2)) \ =\ \sqrt{(x_2-x_1)^2+(y_2-y_1)^2}. \)

Krok I. Istnienie całki \( \displaystyle \displaystyle\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right) dx. \)

I.1. Zauważmy, że dla dowolnego \( \displaystyle \displaystyle\varepsilon >0 \) istnieje \( \displaystyle \displaystyle\delta>0 \) takie, że

\( \displaystyle d_2((x_1,y_1),(x_2,y_2)) < \delta\Rightarrow |f(x_1,y_1)-f(x_2,y_2) < \varepsilon, \)

dla \( \displaystyle \displaystyle (x_1,y_1), (x_2,y_2) \) z kostki \( \displaystyle K. \) Faktycznie, skoro funkcja \( \displaystyle f \) jest ciągła, a zbiór \( \displaystyle K \) jest zwarty, to funkcja \( \displaystyle f \) jest jednostajnie ciągła (patrz Analiza matematyczna 1 uwaga 2.39). To dokładnie oznacza, że spełniona jest powyższa implikacja.
I.2. Wykażemy, że funkcja

\( \displaystyle g(x) := \displaystyle\int\limits_c^d f(x,y) dy \)

jest funkcją ciągłą.

Ponieważ \( \displaystyle f \) jest funkcją ciągłą, \( \displaystyle \displaystyle\displaystyle\int\limits_c^d f(x,y) dy \) istnieje dla dowolnego \( \displaystyle x\in [a,b]. \) Aby wykazać, że \( \displaystyle g \) jest funkcją ciągłą, weźmy dowolne \( \displaystyle \displaystyle\varepsilon>0. \) Szukamy \( \displaystyle \displaystyle\delta>0 \) takiego, że spełnione jest wynikanie:

\( \displaystyle |x_1-x_2| < \delta\Rightarrow|g(x_1)-g(x_2)| < \varepsilon. \)

Weźmy teraz \( \displaystyle \displaystyle\varepsilon':=\frac{\varepsilon}{d-c}. \) Do tego \( \displaystyle \displaystyle\varepsilon' \) dobierzmy \( \displaystyle \displaystyle\delta \) tak jak w punkcie I.1. Mamy zatem w szczególności:

\( \displaystyle d_2((x_1,y),(x_2,y)) < \delta\Rightarrow |f(x_1,y)-f(x_2,y)| < \varepsilon', \)

czyli, podstawiając do wzoru na \( \displaystyle d \) otrzymujemy

\( \displaystyle |x_2-x_1| < \delta\Rightarrow f(x_1,y)-\varepsilon' < f(x_2,y) < f(x_1,y)+\varepsilon'. \)

Całkując te nierówności stronami (korzystamy z monotoniczności całki Riemanna dla funkcji jednej zmiennej), otrzymujemy:

\( \displaystyle \displaystyle\int\limits_c^d f(x_1,y) dy-\varepsilon'(d-c) < \displaystyle\int\limits_c^df(x_2,y)dy < \displaystyle\int\limits_c^df(x_1,y)dy+\varepsilon'(d-c), \)

czyli

\( \displaystyle \displaystyle\int\limits_c^d f(x_1,y) dy-\varepsilon < \displaystyle\int\limits_c^df(x_2,y)dy < \displaystyle\int\limits_c^df(x_1,y)dy+\varepsilon, \)

zatem

\( \displaystyle |g(x_1)-g(x_2)|=|\displaystyle\int\limits_c^d f(x_1,y)-\displaystyle\int\limits_c^df(x_2,y)dy| < \varepsilon, \)

przy \( \displaystyle |x_2-x_1| < \delta, \) co dowodzi ciągłości funkcji \( \displaystyle g. \)

I.3. Zauważmy, że skoro \( \displaystyle g \) jest funkcją ciągłą na \( \displaystyle \displaystyle [a,b], \) to istnieje \( \displaystyle \displaystyle\displaystyle\int\limits_a^bg(x)dx, \) a to dowodzi istnienia całki

\( \displaystyle \displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right) dx. \)

Krok II. Równość \( \displaystyle \displaystyle\displaystyle\int\limits_{[a,b]\times [c,d]}f(x,y)\ dxdy=\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right) dx. \)

II.1. Z części I dowodu i z założeń twierdzenia wynika, że całki po obu stronach równości istnieją. Wystarczy zatem znaleźć granicę sum całkowych dla pewnego normalnego ciągu podziałów.

II.2. Zdefiniujmy normalny ciąg podziałów \( \displaystyle \displaystyle (P_n)_{n\in\mathbb{N}} \), dzieląc każdy z odcinków \( \displaystyle \displaystyle [a,b] \) i \( \displaystyle \displaystyle [c,d] \) na \( \displaystyle n \) równych odcinków, czyli:

\( \displaystyle \begin{align*} a_i^n & = a+\frac{i}{n}(b-a), \quad b_i^n=a_i^n+\frac{1}{n}(b-a),\ i=0,1,\ldots,n-1, \\ c_j^n & = c+\frac{j}{n}(d-c), \quad d_j^n=c_j^n+\frac{1}{n}(d-c),\ j=0,1,\ldots,n-1, \end{align*} \)

a następnie biorąc iloczyn kartezjański tych odcinków:

\( \displaystyle K_{ij}^n :=\ [a_i^n,b_i^n]\times[c_j^n,d_j^n],\ \ i,j=0,\ldots,n-1. \)

Kostkami podziału \( \displaystyle P_n \) są więc kostki \( \displaystyle K_{ij}^n. \) Objętość takiej kostki to \( \displaystyle v(K_{ij}^n)=(b_i^n-a_i^n)(d_j^n-c_j^n). \)

II.3. Weźmy teraz dla każdego podziału ciąg punktów pośrednich, czyli

\( \displaystyle p_{ij}^n\in K_{ij}^n. \)

Utwórzmy sumę całkową:

\( \displaystyle S_n := \sum_{i,j=0}^{n-1}f(p_{ij}^n)(b_i^n-a_i^n)(d_j^n-c_j^n). \)

Skoro istnieje całka podwójna, to

\( \displaystyle \lim_{n\to\infty}S_n \ =\ \displaystyle\int\limits_{[a,b]\times [c,d]}f(x,y)dxdy. \)

Wystarczy zatem pokazać, że granicą ciągu \( \displaystyle{ \displaystyle S_n} \) jest też \( \displaystyle \displaystyle\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right)dx. \)

II.4. Pokażemy, że \( \displaystyle \displaystyle\lim_{n\to\infty}S_n=\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y) dy\right)dx. \)

Musimy zatem pokazać, że dla ustalonego \( \displaystyle \displaystyle\varepsilon>0 \) istnieje \( \displaystyle N_0\in\mathbb{N} \) takie, że dla \( \displaystyle n\geq N_0 \) mamy

\( \displaystyle \left|\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y)dy\right)dx-S_n\right| \ < \ \varepsilon. \)

Ustalmy zatem \( \displaystyle \displaystyle\varepsilon>0. \) Weźmy \( \displaystyle \displaystyle\varepsilon':=\frac{\varepsilon}{(b-a)(d-c)}. \) Do tego \( \displaystyle \displaystyle\varepsilon' \) dobierzmy \( \displaystyle \displaystyle\delta \) tak jak w punkcie I.1. dowodu. Dobierzmy \( \displaystyle N_0 \) takie, by \( \displaystyle \displaystyle\frac{1}{N_0} < \delta. \) W takim razie, jeśli dla \( \displaystyle n>N_0 \) mamy \( \displaystyle \displaystyle (x,y)\in K_{ij}^n, \) to \( \displaystyle d((x,y),p_{ij}^n) < \delta \) a zatem (z I.1.),

\( \displaystyle \left|f(x,y)-f(p_{ij}^n)\right| < \varepsilon', \)

czyli

\( \displaystyle f(x,y)-\varepsilon' < f(p_{ij}^n) < f(x,y)+\varepsilon'. \)

Całkując te nierówności względem \( \displaystyle y \) po przedziale \( \displaystyle \displaystyle [c_{j}^n,d_j^n], \) dostaniemy (dla ustalonego \( \displaystyle x\in [a_i^n,b_i^n] \)):

\( \displaystyle \displaystyle\int\limits_{c_j^n}^{d_j^n}f(x,y)dy-\varepsilon'(d_j^n-c_j^n) < f(p_{ij}^n)(d_j^n-c_j^n) < \displaystyle\int\limits_{c_j^n}^{d_j^n}f(x,y)dy+\varepsilon'(d_j^n-c_j^n), \)

czyli

\( \displaystyle \left|\displaystyle\int\limits_{c_j^n}^{d_j^n}f(x,y)dy-f(p_{ij}^n)(d_j^n-c_j^n)\right| < \varepsilon'(d_j^n-c_j^n). \)

Weźmy teraz sumę powyższych nierówności dla \( \displaystyle j=0,\ldots,n-1 \) (i dla \( \displaystyle x\in [a_i^n,b_i^n] \)). Dostaniemy:

\( \begin{array}{l}\displaystyle \left|\sum_{j=0}^{n-1}\displaystyle\int\limits_{c_j^n}^{d_j^n}f(x,y)dy-\sum_{j=0}^{n-1}f(p_{ij}^n)(d_j^n-c_j^n)\right| = \\ = \left|\displaystyle\int\limits_c^df(x,y)dy-\sum_{j=0}^{n-1}f(p_{ij}^n)(d_j^n-c_j^n)\right| < \varepsilon'\sum_{j=0}^{n-1}(d_j^n-c_j^n)= \varepsilon'(d-c).\end{array} \)

Tak więc

\( \displaystyle \left|\displaystyle\int\limits_c^df(x,y)dy-\sum_{j=0}^{n-1}f(p_{ij}^n)(d_j^n-c_j^n)\right| \ < \ \varepsilon'(d-c). \)

Całkując tę nierówność po przedziałach \( \displaystyle \displaystyle [a_i^n,b_i^n], \) a następnie sumując wszystkie całki dla \( \displaystyle i=0,\ldots,n-1, \) dostaniemy

\( \begin{array}{l} \displaystyle \left|\sum_{i=0}^{n-1}\displaystyle\int\limits_{a_i^n}^{b_i^n}(\displaystyle\int\limits_c^df(x,y)dy)dx- \sum_{i=0}^{n-1}\sum_{j=0}^{n-1}f(p_{ij}^n)(d_j^n-c_j^n)(b_i^n-a_i^n)\right| \\ \displaystyle < \sum_{i=0}^{n-1}\varepsilon'(d-c)(b_i^n-a_i^n),\end{array} \)

a zatem, po zsumowaniu

\( \begin{array}{l}\displaystyle \left|\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y)dy\right)dx-\sum_{i=0}^{n-1}\sum_{j=0}^{n-1}f(p_{ij}^n)(d_j^n-c_j^n)(b_i^n-a_i^n)\right| \\ < \varepsilon'(d-c)(b-a)=\varepsilon, \end{array} \)

co należało dowieść.

Uwaga 11.4. [Zapis całek iterowanych]

Całki iterowane, na przykład \( \displaystyle \displaystyle\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d f(x,y)dy\right)dx, \) będziemy, w celu uniknięcia pisania dużej ilości nawiasów, zapisywali tak:

\( \displaystyle \displaystyle\int\limits_a^b dx\displaystyle\int\limits_c^d f(x,y)dy, \)

podobnie, zamiast \( \displaystyle \displaystyle\displaystyle\int\limits_a^b\left(\displaystyle\int\limits_c^d\left(\displaystyle\int\limits_p^qf(x,y,z)dz\right)dy\right)dx, \) napiszemy

\( \displaystyle \displaystyle\int\limits_a^b dx\displaystyle\int\limits_c^d dy\displaystyle\int\limits_p^qf(x,y,z)dz. \)

Przykład 11.5.

Policzyć całkę

\( \displaystyle \iint\limits_K (xy-y^2)dxdy, \)

gdzie \( \displaystyle K=[1,2]\times[3,4]. \)

Nasza funkcja jest ciągła na prostokącie, zatem możemy zastosować twierdzenie Fubiniego. Otrzymamy

\( \displaystyle \begin{align*} \iint\limits_K xy-y^2 dxdy & = \displaystyle\int\limits_1^2dx\displaystyle\int\limits_3^4(xy-y^2)dy \ =\ \displaystyle\int\limits_1^2\left((x\frac{y^2}{2}-\frac{y^3}{3})\bigg|_3^4\right)dx \\ & =\displaystyle\int\limits_1^2\left(\frac{7x}{2}-\frac{37}{3}\right)dx \ =\ \left(\frac{7x^2}{4}-\frac{37x}{3}\right)\bigg|_1^2=-\frac{85}{12}. \end{align*} \)

wykresy

wykres a

Am2.m11.w.r02

Najczęściej spotykanymi obszarami, po których będziemy chcieli całkować, nie są jednak kostki, tylko tak zwane zbiory normalne. Zdefiniujmy:

Definicja 11.6.

(1) Niech \( \displaystyle \displaystyle [a,b] \) będzie odcinkiem w \( \displaystyle \displaystyle\mathbb{R}, \) niech \( \displaystyle h_1:[a,b]\to \mathbb{R} \) i \( \displaystyle h_2:[a,b]\to \mathbb{R} \) będą funkcjami ciągłymi na \( \displaystyle \displaystyle [a,b] \) takimi, że \( \displaystyle h_1(x) < h_2(x), x\in [a,b]. \) Wtedy zbiór

\( \displaystyle D := \{(x,y)\in\mathbb{R}^2 : a\leq x\leq b, h_1(x)\leq y\leq h_2(x)\} \)

nazywamy zbiorem normalnym względem osi \( \displaystyle Ox. \)

(2) Analogicznie definiujemy zbiór normalny względem osi \( \displaystyle Oy. \)

(3) Zbiór \( \displaystyle D \) zawarty w \( \displaystyle \displaystyle\mathbb{R}^3 \) jest normalny względem współrzędnej \( \displaystyle z, \) jeśli istnieje pewien zbiór normalny \( \displaystyle A \) zawarty w płaszczyźnie \( \displaystyle xy \) oraz istnieją dwie funkcje \( \displaystyle g_1, g_2 :A\to\mathbb{R} \) takie, że \( \displaystyle g_1(x,y) < g_2(x,y) \) oraz

\( \displaystyle D \ =\ \{(x,y,z)\in\mathbb{R}^3 : (x,y)\in A, g_1(x,y) \ \leq\ z\leq g_2(x,y)\}. \)

(4) Analogicznie definiujemy zbiór normalny względem pozostałych współrzędnych.

(5) Zbiorem normalnym będziemy nazywać zbiór normalny względem jakiejś współrzędnej. Zbiorem regularnym będziemy nazywać zbiór, który można podzielić na sumę zbiorów regularnych o rozłącznych wnętrzach.

wykresy x3

Definicje normalności i regularności można oczywiście uogólnić na więcej wymiarów, ale nie będziemy tego robić.

Jak już wspomnieliśmy, w praktyce najczęściej będziemy chcieli całkować funkcje po zbiorach normalnych. Wypiszmy więc, jak w przypadku takich zbiorów wygląda twierdzenie Fubiniego.

Niech zatem \( \displaystyle A \) będzie zbiorem normalnym w \( \displaystyle \displaystyle\mathbb{R}^2 \) zadanym jako

\( \displaystyle A :=\{(x,y)\in\mathbb{R}^2 : a\leq x\leq b, h_1(x)\leq y\leq h_2(x)\}, \)

gdzie \( \displaystyle h_1,h_2 \) są jak w definicji. Niech \( \displaystyle D \) będzie zbiorem normalnym w \( \displaystyle \displaystyle\mathbb{R}^3 \) danym jako

\( \displaystyle D=\{(x,y,z)\in\mathbb{R}^3 : (x,y)\in A, g_1(x,y)\leq z\leq g_2(x,y)\}, \)

gdzie \( \displaystyle g_1,g_2 \) są jak w definicji. Mamy:

Twierdzenie 11.7. [Twierdzenie Fubiniego dla zbiorów normalnych w \( \displaystyle \displaystyle\mathbb{R}^2 \) i \( \displaystyle \displaystyle\mathbb{R}^3 \))]

(1) Jeśli \( \displaystyle f:A\to \mathbb{R} \) jest funkcją ciągłą, to

\( \displaystyle \iint\limits_Af(x,y)dxdy \ =\ \displaystyle\int\limits_a^bdx\displaystyle\int\limits_{h_1(x)}^{h_2(x)}f(x,y)dy. \)

(2) Jeśli \( \displaystyle f:D\to \mathbb{R} \) jest funkcją ciągłą, to

\( \displaystyle \iiint\limits_D f(x,y,z)dxdydz \ =\ \displaystyle\int\limits_a^bdx\displaystyle\int\limits_{h_1(x)}^{h_2(x)}dy\displaystyle\int\limits_{g_1(x,y)}^{g_2(x,y)}f(x,y,z)dz. \)

Dowód tej wersji Twierdzenia Fubiniego można dostać jako wniosek z ogólnej wersji twierdzenia (dowodząc, że zbiory regularne są J-mierzalne) albo można udowodnić to twierdzenie bezpośrednio, nieco modyfikując dowód twierdzenia 11.3.

Możemy teraz policzyć następującą całkę.

wykresy

Przykład 11.8.

Policzyć całkę

\( \displaystyle \iint\limits_T (x^2y) dxdy, \)

gdzie \( \displaystyle T \) jest trójkątem ograniczonym prostymi: \( \displaystyle y=x, y=2x-3, y=1. \)

Zauważmy, że zbiór \( \displaystyle T \) jest normalny względem osi \( \displaystyle Ox. \) Ponieważ jednak funkcja ograniczająca ten zbiór od dołu jest sklejeniem dwóch funkcji (\( \displaystyle y=1 \) oraz \( \displaystyle y=2x-3 \)), to wygodniej będzie podzielić \( \displaystyle T \) na dwa zbiory normalne (o rozłącznych wnętrzach). Pierwszy z tych zbiorów to trójkąt \( \displaystyle T_1 \) ograniczony prostymi: \( \displaystyle y=x, y=1, x=2, \) a drugi to trójkąt \( \displaystyle T_2 \) ograniczony prostymi: \( \displaystyle y=x, y=2x-3, x=2.\displaystyle T \) jest więc zbiorem regularnym. Z twierdzenia Fubiniego mamy:

\( \begin{array}{lll} \displaystyle \iint\limits_Tf(x,y)dxdy & = & \displaystyle \iint\limits_{T_1}f(x,y)dxdy+\iint\limits_{T_2}f(x,y)dxdy \\ & = & \displaystyle\int\limits_1^2dx\displaystyle\int\limits_1^xx^2ydy+\displaystyle\int\limits_2^3dx\displaystyle\int\limits_{2x-3}^x x^2y dy \\ & = & \displaystyle\int\limits_1^2\bigg(\frac{1}{2}x^2y^2\bigg)\bigg|_1^x dx+\displaystyle\int\limits_2^3\displaystyle\int\limits_{2x-3}^x \bigg(\frac{1}{2}x^2y^2\bigg)\bigg|_{2x-3}^x dx \\ & = & \displaystyle\int\limits_1^2\bigg(\frac{1}{2}x^2(x^2-1)\bigg)dx+\displaystyle\int\limits_2^3\bigg(-\frac{3}{2}x^2(x^2-4x+3)\bigg)dx \\ & = & \bigg(\frac{1}{10}x^5-\frac{1}{6}x^3\bigg)\bigg|_1^2+\bigg(\frac{-3}{10}x^5+\frac{3}{2}x^4-\frac{3}{2}x^3\bigg)\bigg|_2^3 \ =\ \frac{57}{10}+\frac{29}{15} \ =\ \frac{229}{30}. \end{array} \)

wykresy

Wykres funkcji \( f(x,y)=x^2y \) nad \( T \)

Twierdzenie o zmianie zmiennych

Jeszcze jedno twierdzenie bardzo nam się przyda do liczenia całek wielowymiarowych. Jest to uogólnienie na więcej wymiarów znanego już z teorii całki jednej zmiennej twierdzenia o całkowaniu przez podstawienie. W przypadku wielowymiarowym nosi ono nazwę twierdzenia o zmianie zmiennych.

Załóżmy, że mamy zbiory J-mierzalne \( \displaystyle B \) i \( \displaystyle D \) w \( \displaystyle \displaystyle\mathbb{R}^n \) oraz odwzorowanie \( \displaystyle \displaystyle\varphi : B\to D, \) które jest \( \displaystyle {\cal C^1} \)-dyfeomorfizmem (to znaczy, że \( \displaystyle \displaystyle\varphi \) jest bijekcją klasy \( \displaystyle {\cal C^1} \) i odwzorowanie odwrotne do \( \displaystyle \displaystyle\varphi \) też jest tej klasy). Dla odwzorowania \( \displaystyle \displaystyle\varphi(x)=(\varphi_1(x_1,\ldots,x_n),\ldots,\varphi_n(x_1,\ldots,x_n)) \) możemy wypisać macierz Jacobiego, czyli macierz pochodnych cząstkowych (w punkcie \( \displaystyle x\in B \)):

Jac \( \displaystyle _x\varphi \ =\ \left[ \begin{array} {ccc}\displaystyle \frac{\partial \varphi_1}{\partial x_1}(x) & \ldots & \displaystyle \frac{\partial\varphi_1}{\partial x_n}(x) \\ \vdots & \ldots & \vdots \\ \displaystyle \frac{\partial \varphi_n}{\partial x_1}(x) & \ldots & \displaystyle \frac{\partial\varphi_n}{\partial x_n}(x) \end{array} \right]. \)

Wyznacznik tej macierzy (w punkcie \( \displaystyle x\in B \)) nazywamy jakobianem \( \displaystyle \displaystyle\varphi \) w punkcie \( \displaystyle x \). Gdy \( \displaystyle \displaystyle\varphi \) jest dyfeomorfizmem, to \( \displaystyle \det \) Jac \( \displaystyle _x\varphi\ne 0 \).

Współrzędne w zbiorze \( \displaystyle D \) oznaczmy przez \( \displaystyle y=(y_1,\ldots,y_n). \)

Twierdzenie o zmianie zmiennych brzmi następująco.

Twierdzenie 11.9. [Twierdzenie o zmianie zmiennych]

Przy oznaczeniach i założeniach jak wyżej, niech \( \displaystyle f:D\to \mathbb{R} \) będzie funkcją ciągłą. Wtedy

\( \displaystyle \displaystyle\int\limits_Df(y)dy_1\ldots dy_n \ =\ \displaystyle\int\limits_Bf(\varphi(x))|\det \) Jac \( \displaystyle _x\varphi|dx_1\ldots dx_n. \)

Uwaga 11.10.

Zauważmy, że dla \( \displaystyle n=1 \) dostajemy znane twierdzenie o całkowaniu przez podstawienie:

\( \displaystyle \displaystyle\int\limits_Df(y)dy \ =\ \displaystyle\int\limits_Bf(\varphi(x))\varphi'(x)dx. \)

Dowód twierdzenia 11.9. pomijamy. Przedstawimy natomiast kilka użytecznych przykładów.

Uwaga 11.11.

W powyższym twierdzeniu nie trzeba zakładać, że odwzorowanie \( \displaystyle \displaystyle\varphi \) jest dyfeomorfizmem na całym zbiorze \( \displaystyle B, \) wystarczy założyć, że istnieje podzbiór \( \displaystyle B_0\subset B \) taki, że \( \displaystyle m(B_0)=0 \) oraz \( \displaystyle \displaystyle\varphi: B\setminus B_0\to D \) jest dyfeomorfizmem.

Zmiana zmiennych na dwuwymiarowe współrzędne biegunowe

wykres

Współrzędne biegunowe

Niech zbiorem \( \displaystyle D \) będzie \( \displaystyle \mathbb{R}^2\setminus \{(x,0) :x\geq 0\}. \) Określamy odwzorowanie \( \displaystyle T \) prowadzące ze zbioru \( \displaystyle B:=(0,+\infty)\times (0,2\pi) \) następująco:

\( \displaystyle T (r,\alpha):=(r\cos\alpha,r\sin\alpha), \)

gdzie \( \displaystyle T(r,\alpha) \) najczęściej zapisujemy jako

\( \displaystyle x\ =\ r\cos\alpha,\qquad y\ =\ r\sin\alpha. \)

Tak więc \( \displaystyle r=\sqrt{x^2+y^2}, \) a zatem \( \displaystyle r\geq 0 \) jest odległością punktu \( \displaystyle \displaystyle (x,y) \) od początku układu współrzędnych. Kąt \( \displaystyle \displaystyle\alpha \) jest kątem, jaki tworzy wektor o początku w \( \displaystyle \displaystyle (0,0) \) i końcu w \( \displaystyle \displaystyle (x,y) \) z dodatnią częścią osi \( \displaystyle Ox. \)

Licząc jakobian tej zmiany zmiennych dostajemy \( \displaystyle \det \) Jac \( \displaystyle _{(r,\alpha)}T=r \) (trzeba policzyć pochodne cząstkowe \( \displaystyle x \) i \( \displaystyle y \) po \( \displaystyle r \) i \( \displaystyle \displaystyle\alpha, \) a następnie wyznacznik macierzy Jacobiego). Tak więc tu jakobian jest zawsze dodatni.
Tę zmianę zmiennych stosujemy najczęściej, gdy obszarem całkowania (zbiorem \( \displaystyle D \)) jest koło, pierścień lub ich wycinek. Jak wtedy wygląda zbiór \( \displaystyle B \) obrazują przykłady poniżej.

W dalszych rozważaniach najczęściej nie będziemy rozróżniać pomiędzy \( \displaystyle D \) i \( \displaystyle D\setminus D_0, \) (lub \( \displaystyle B \) i \( \displaystyle B\setminus B_0, \)) gdzie \( \displaystyle m(D_0)=0 \) (\( \displaystyle m(B_0)=0 \)) i, choć nie jest to w pełni poprawne, będziemy pisać o zmianie zmiennych z \( \displaystyle B \) do \( \displaystyle D, \) a nie z \( \displaystyle B\setminus B_0 \) do \( \displaystyle D\setminus D_0, \) ignorując fakt, że zmiana zmiennych może nie być dyfeomorfizmem na jakimś zbiorze miary zero.

Przykład 11.12.

Policzyć całkę

\( \displaystyle \iint\limits_Dx^2+y^2 dxdy, \)

gdzie \( \displaystyle D \) jest kołem o promieniu \( \displaystyle R \) i środku w punkcie \( \displaystyle \displaystyle (0,0), \) zatem \( \displaystyle D=\{(x,y):x^2+y^2\leq R^2\}. \)

Skoro \( \displaystyle x^2+y^2\leq R^2 \) to promień \( \displaystyle r=\sqrt{x^2+y^2} \) zmienia się w przedziale \( \displaystyle \displaystyle [0,r], \) a kąt \( \displaystyle \displaystyle\alpha \) zmienia się w całym zakresie \( \displaystyle \displaystyle [0,2\pi]. \)

Tak więc \( \displaystyle B=[0,R]\times[0,2\pi], \) czyli mamy

\( \displaystyle \iint\limits_Dx^2+y^2 dxdy=\iint\limits_B(r^2)rdrd\alpha \ =\ \displaystyle\int\limits_0^{2\pi}d\alpha\displaystyle\int\limits_0^R r^3 dr \ =\ \displaystyle\int\limits_0^{2 \pi} \frac{R^4}{4} d\alpha=2\pi R^4, \)

gdzie pierwsza równość zachodzi na podstawie twierdzenia o zmianie

zmiennych, a druga na podstawie twierdzenia Fubiniego.

Przykład 11.13.

Policzyć całkę

\( \displaystyle \iint\limits_Dx dxdy, \)

gdzie \( \displaystyle D \) jest ćwiartką koła o promieniu \( \displaystyle R \) i środku w punkcie \( \displaystyle \displaystyle (0,0), \) leżącą w drugiej ćwiartce płaszczyzny.

Stosujemy taką samą zmianę zmiennych. Tym razem \( \displaystyle r \) zmienia się także od \( \displaystyle 0 \) do \( \displaystyle R, \) natomiast \( \displaystyle \displaystyle\alpha\ \) zmienia się od \( \displaystyle\frac{\pi}{2} \) do \( \displaystyle\pi \). Tak więc \( \displaystyle B=[0,R]\times \bigg[\frac{\pi}{2}, \pi\bigg]: \)

\( \begin{array}{lll} \displaystyle \iint\limits_Dx dxdy \ & = & \displaystyle \iint\limits_Br^2\cos\alpha drd\alpha=\displaystyle\int\limits_{\frac{\pi}{2}}^{\pi}d\alpha\displaystyle\int\limits_0^R r^2\cos\alpha dr \\ \ & = & \ \displaystyle\int\limits_{\frac{\pi}{2}}^{\pi}\frac{R^3}{3}\cos\alpha d\alpha =\displaystyle \frac{R^3}{3}(-\sin\alpha)\bigg|_{\frac{\pi}{2}}^{\pi} \ =\ \frac{R^3}{3}.\end{array} \)

wykres

Zmiana zmiennych na trójwymiarowe współrzędne sferyczne

wykres

Współrzędne sferyczne

Podobnie do współrzędnych biegunowych w \( \displaystyle \displaystyle\mathbb{R}^2 \) definiujemy współrzędne sferyczne w\( \displaystyle \displaystyle\mathbb{R}^3. \) Mamy:

\( \displaystyle \left\{ \begin{array} {lll} x & = r\sin\beta\cos\alpha, \\ y & = r\sin\beta\sin\alpha, \\ z & = r\cos\beta, \end{array} \right. \)

gdzie \( \displaystyle r\in (0,+\infty), \alpha\in (0,2\pi), \beta\in (0,\pi). \)

Teraz \( \displaystyle r=\sqrt{x^2+y^2+z^2} \) jest odległością punktu \( \displaystyle \displaystyle (x,y, x) \) od początku układu współrzędnych, \( \displaystyle \displaystyle\alpha \) jest kątem, jaki tworzy wektor \( \displaystyle \displaystyle [x,y,0] \) z dodatnią częścią osi \( \displaystyle Ox, \) a \( \displaystyle \displaystyle\beta \) jest kątem, jaki tworzy wektor \( \displaystyle \displaystyle [x,y,z] \) z dodatnią częścią osi \( \displaystyle Oz. \)

Jakobian tej zmiany zmiennych wynosi \( \displaystyle r^2 \sin\beta \), a zatem jest dodatni, bo \( \displaystyle \displaystyle\beta\in(0,\pi). \)

Przykład 11.14.

Policz całkę

\( \displaystyle \iiint\limits_D z^2 dxdydz, \)

gdzie \( \displaystyle D \) jest górną połową kuli o środku w \( \displaystyle \displaystyle (0,0,0) \) i promieniu \( \displaystyle R. \)

Kula opisana jest nierównością \( \displaystyle x^2+y^2+z^2\leq R^2, \) w takim razie \( \displaystyle r=\sqrt{x^2+y^2+z^2} \) zmienia się w przedziale \( \displaystyle \displaystyle [0,R]. \) Górną połowę kuli zadaje nierówność \( \displaystyle z>0, \) zatem musi być \( \displaystyle r\cos\beta>0, \) czyli \( \displaystyle \displaystyle\cos\beta>0, \) a zatem \( \displaystyle \displaystyle\beta\in (0,\frac{\pi}{2}). \) Na \( \displaystyle \displaystyle\alpha \) nie mamy żadnych dodatkowych warunków, więc \( \displaystyle \displaystyle\alpha\in[0,2\pi]. \) Zatem \( \displaystyle B=[0,R]\times [0,2\pi]\times(0,\frac{\pi}{2}). \) Tak więc

\( \displaystyle \begin{align*} \iiint\limits_D z^2 dxdydz & =\iiint\limits_{B} r^3 \sin\beta \cos\beta d\alpha d\beta dr = \displaystyle\int\limits_0^{2\pi}d\alpha \displaystyle\int\limits_0^{\frac{\pi}{2}} d\beta \displaystyle\int\limits_0^R r^3 \sin\beta \cos\beta dr \\ & = \frac{R^4}{4} \displaystyle\int\limits_0^{2\pi}d\alpha \displaystyle\int\limits_0^{\frac{\pi}{2}} \sin\beta \cos\beta d\beta \ =\ \frac{R^4}{4} \displaystyle\int\limits_0^{2\pi}\left(\frac{1}{2}\sin^2\beta\bigg|_0^{\frac{\pi}{2}}\right) d\alpha \ =\ \frac{R^4}{4}\pi. \end{align*} \)

Całka kyrzwoliniowa. Twierdzenie Greena

Całka krzywoliniowa. Twierdzenie Greena



Ten wykład poświęcony jest pojęciu całki krzywoliniowej i twierdzeniu pozwalającemu liczyć całki krzywoliniowe przy pomocy całek podwójnych (albo vice versa) - czyli twierdzeniu Greena. Nasze rozważania dotyczące krzywych ograniczamy do krzywych płaskich (leżących w \( \displaystyle \displaystyle\mathbb{R}^2 \)). Podajemy definicje parametryzacji krzywej, krzywej regularnej, krzywej zamkniętej, orientacji, zbioru normalnego i zbioru regularnego. Twierdzenia Greena dowodzimy dla zbiorów regularnych. Wprowadzamy też pojęcie pola potencjalnego.
Na początku tego wykładu warto przypomnieć sobie twierdzenie Newtona-Leibniza (patrz Analiza matematyczna 1 twierdzenie 14.15.), które mówi, że
\( \displaystyle \displaystyle\int\limits_a^b f(x)\,dx \ =\ F(b)-F(a), \)
gdzie \( \displaystyle F \) jest pierwotną funkcji \( \displaystyle f \). Zauważmy, że twierdzenie to wyraża całkę z funkcji \( \displaystyle f \) po odcinku (przedziale \( \displaystyle [a,b] \)) za pomocą wartości \( \displaystyle F \) na brzegu odcinka (to znaczy w punktach \( \displaystyle a \) i \( \displaystyle b \)).
Okazuje się, że twierdzenie to można uogólnić. Takim uogólnieniem będzie twierdzenie Greena, które poznamy na tym wykładzie. Pozwala ono zamienić całkowanie po obszarze płaskim na całkowanie po krzywej, która ogranicza ten obszar.

Krzywe

wykres

Krzywa w \( \mathbb{R}^2 \)

Przypomnijmy definicję krzywej zwyczajnej (patrz Analiza matematyczna 1 definicja 15.1.).

Niech \( \displaystyle \displaystyle [a,b] \) będzie przedziałem w \( \displaystyle \displaystyle\mathbb{R}. \) Weźmy ciągłą funkcję

\( \displaystyle \gamma : [a,b]\ni t \to (\varphi(t),\psi(t))\in \mathbb{R}^2. \)

Załóżmy, że funkcja \( \displaystyle \displaystyle\gamma \) jest różnowartościowa na \( \displaystyle \displaystyle (a, b] \) i na \( \displaystyle \displaystyle [a,b). \) (Możliwe jest więc, że \( \displaystyle \displaystyle\gamma(a)=\gamma(b) \)).

Definicja 12.1.

Przy założeniach jak wyżej, krzywą zwyczajną \( \displaystyle K \) będziemy nazywać obraz odcinka \( \displaystyle \displaystyle [a,b] \) przez \( \displaystyle \displaystyle\gamma, \)

\( \displaystyle K := \{\gamma(t)\in \mathbb{R}^2 | t\in[a,b]\}. \)

Funkcję \( \displaystyle \displaystyle\gamma \) nazywamy parametryzacją krzywej \( \displaystyle K. \)

W dalszych rozważaniach będziemy zajmować się tylko krzywymi zwyczajnymi (czyli takimi, które nie mają punktów wielokrotnych, więc będziemy pisać "krzywa", zakładając, że jest to krzywa zwyczajna.

Uwaga 12.2.

Krzywa \( \displaystyle K \) może mieć różne parametryzacje.

Przykład 12.3.

Jako krzywą \( \displaystyle K \) weźmy odcinek w \( \displaystyle \displaystyle\mathbb{R}^2 \) łączący punkt \( \displaystyle \displaystyle (0,0) \) z punktem \( \displaystyle \displaystyle (1,1). \) Oto przykłady parametryzacji \( \displaystyle K \):

(1) \( \displaystyle \displaystyle\gamma_I: [0,1]\to \mathbb{R}^2, \ \gamma_I(t)=(t,t), \)

(2) \( \displaystyle \displaystyle\gamma_{II}: [0,\frac{1}{2}]\to \mathbb{R}^2, \ \gamma_{II}(t)=(2t,2t), \)

(3) \( \displaystyle \displaystyle\gamma_{III}: [0,1]\to \mathbb{R}^2, \ \gamma_{III}(t)=(1-t,1-t). \)

wykres x2

Definicja 12.4.

(1) Krzywą \( \displaystyle K \) nazywamy łukiem gładkim, jeśli istnieje parametryzacja \( \displaystyle \displaystyle\gamma=(\varphi,\psi): [a,b]\to\mathbb{R}^2 \) taka, że pochodne \( \displaystyle \displaystyle\varphi' \) i \( \displaystyle \displaystyle\psi' \) są ciągłe oraz zachodzi

\( \displaystyle (\varphi'(t))^2+(\psi'(t))^2>0, \) dla każdego \( \displaystyle t\in [a,b]. \)

(2) Krzywą \( \displaystyle K \) nazywamy regularną, jeśli można ją podzielić na skończoną ilość łuków gładkich, to znaczy, jeśli istnieje parametryzacja \( \displaystyle \displaystyle\gamma : [a,b]\to\mathbb{R}^2 \) i istnieje podział odcinka \( \displaystyle \displaystyle [a,b] \) punktami \( \displaystyle a=t_0 < t_1 < \ldots < t_s=b \) taki, że \( \displaystyle \displaystyle\gamma_{[t_i,t_{i+1}]}, i=0,\ldots,s-1 \) parametryzuje łuk gładki.

(3) Jeśli \( \displaystyle \displaystyle\gamma(a)=\gamma(b) \), to krzywą nazywamy zamkniętą.

wykres

Weźmy teraz krzywą \( \displaystyle K \) i jej parametryzację \( \displaystyle \displaystyle\gamma : [a,b]\to\mathbb{R}^2. \) Ustalmy \( \displaystyle t_1,t_2\in [a,b] \) takie, że \( \displaystyle t_1 < t_2 \) i oznaczmy \( \displaystyle \displaystyle\gamma(t_1)=P_1, \gamma(t_2)=P_2. \) Niech \( \displaystyle \displaystyle\tilde{\gamma}:[\alpha,\beta]\to \mathbb{R}^2 \) będzie inną parametryzacją krzywej \( \displaystyle K. \)

Definicja 12.5.

(1) Mówimy, że \( \displaystyle \displaystyle\tilde{\gamma} \) zadaje na \( \displaystyle K \) tę samą orientację co \( \displaystyle \displaystyle\gamma \), jeśli dla \( \displaystyle q_1, q_2\in[\alpha,\beta] \) takich, że \( \displaystyle \displaystyle\tilde{\gamma}(q_1)=P_1 \) i \( \displaystyle \tilde{\gamma}(q_2)=P_2 \) mamy \( \displaystyle q_1 < q_2. \)
(Oznacza to, że dla \( \displaystyle \displaystyle\tau \) przebiegających wartości od \( \displaystyle \displaystyle\alpha \) do \( \displaystyle \displaystyle\beta, \) wartości \( \displaystyle \displaystyle\tilde{\gamma}(\tau) \) "wędrują" po krzywej \( \displaystyle K \) od punktu \( \displaystyle A \) do punktu \( \displaystyle B, \) tak samo jak wartości \( \displaystyle \displaystyle\gamma(t) \) dla \( \displaystyle t \) przebiegającego od \( \displaystyle a \) do \( \displaystyle b \)).

(2) Mówimy, że \( \displaystyle \displaystyle\tilde{\gamma} \) zadaje na \( \displaystyle K \) orientację przeciwną niż \( \displaystyle \displaystyle\gamma \) jeśli dla \( \displaystyle q_1, q_2 \in [\alpha,\beta] \) takich, że \( \displaystyle \displaystyle\tilde{\gamma}(q_1)=P_1 \) i \( \displaystyle \displaystyle\tilde{\gamma}(q_2)=P_2 \) mamy \( \displaystyle q_1>q_2. \)

(Tym razem dla \( \displaystyle \displaystyle\tau \) przebiegających wartości od \( \displaystyle \displaystyle\alpha \) do \( \displaystyle \displaystyle\beta, \) wartości \( \displaystyle \displaystyle\tilde{\gamma}(\tau) \) "wędrują" po krzywej \( \displaystyle K \) od punktu \( \displaystyle B \) do punktu \( \displaystyle A \)).

Jeśli \( \displaystyle A\neq B \), to jako \( \displaystyle t_1, t_2 \) możemy wziąć po prostu \( \displaystyle a \) i \( \displaystyle b. \)

Przykład 12.6.

Wróćmy do trzech parametryzacji odcinka, pokazanych w przykładzie powyżej. Łatwo zauważyć, że \( \displaystyle \displaystyle\gamma_{II} \) zadaje na \( \displaystyle K \) tę samą orientację co \( \displaystyle \displaystyle\gamma_I \), a \( \displaystyle \displaystyle\gamma_{III} \) zadaje orientację przeciwną niż \( \displaystyle \displaystyle\gamma_{I} \) (i \( \displaystyle \displaystyle\gamma_{II} \)); weźmy na przykład \( \displaystyle t_1=0, t_2=1, \) wtedy \( \displaystyle \displaystyle\gamma_I(t_1)=(0,0), \gamma_I(t_2)=(1,1) \) oraz mamy \( \displaystyle \displaystyle\gamma_{II}(0)=(0,0), \gamma_{II}\bigg(\frac{1}{2}\bigg)=(1,1) \) i \( \displaystyle 0 < \frac{1}{2}. \) Dla \( \displaystyle \displaystyle\gamma_{III} \) natomiast, \( \displaystyle \displaystyle\gamma_{III}(1)=(0,0) \) i \( \displaystyle \displaystyle\gamma_{III}(0)=(1,1),\displaystyle 1>0, \) a więc \( \displaystyle \displaystyle\gamma_{III} \) zadaje orientację przeciwną niż \( \displaystyle \displaystyle\gamma_I, \) (patrz rysunek do przykładu 12.3.)

Możemy teraz zdefiniować całkę krzywoliniową zorientowaną.

Definicja 12.7.

Niech \( \displaystyle K \) będzie krzywą w \( \displaystyle \mathbb{R}^2 \) daną przez parametryzację \( \displaystyle \displaystyle\gamma =(\varphi,\psi) : [a,b]\to\mathbb{R}^2. \) Niech \( \displaystyle F \) będzie odwzorowaniem ciągłym

\( \displaystyle F \ =\ (P,Q): K\to \mathbb{R}^2. \)

Niech \( \displaystyle \displaystyle\circ \) oznacza iloczyn skalarny w \( \displaystyle \displaystyle\mathbb{R}^2, \) przez \( \displaystyle \displaystyle (x,y) \) oznaczymy zmienne w \( \displaystyle \displaystyle\mathbb{R}^2. \) Wówczas całkę

\( \displaystyle \displaystyle\int\limits_a^b(F(\gamma(t))\circ\gamma'(t))dt \)

nazywamy całką krzywoliniową zorientowaną po krzywej \( \displaystyle K \) i oznaczamy

\( \displaystyle \displaystyle\int\limits_KF\circ d\textbf{x}, \)

gdzie \( \displaystyle d\textbf{x}=(dx,dy). \)

wykres

Zauważmy, że

\( \begin{array}{lll}\displaystyle F(\gamma(t))\circ\gamma'(t) \ & = & \displaystyle (P(\varphi(t),\psi(t)),Q(\varphi(t),\psi(t)))\circ(\varphi'(t),\psi'(t)) \\ \ & = & \displaystyle P(\varphi(t),\psi(t))\varphi'(t)+Q(\varphi(t),\psi(t))\psi'(t), \end{array} \)

wszystkie funkcje występujące w tym wyrażeniu są z założenia ciągłe, zatem istnieje całka (Riemanna) po przedziale \( \displaystyle \displaystyle [a,b] \) z \( \displaystyle F(\gamma(t))\circ\gamma'(t). \)

Uwaga 12.8.

Zapis i oznaczenia
Całkę krzywoliniową \( \displaystyle \displaystyle\displaystyle\int\limits_KF\circ d\textbf{x} \) dla krzywej w \( \displaystyle K\subset \mathbb{R}^2 \) zapisuje się najczęściej jako

\( \displaystyle \displaystyle\int\limits_KP(x,y)dx+Q(x,y)dy, \)

a dla krzywej zamkniętej \( \displaystyle K \)

\( \displaystyle \oint_KP(x,y)dx+Q(x,y)dy. \)

Wykażemy teraz następujące stwierdzenie.

Stwierdzenie 12.9.

Niech \( \displaystyle K,\displaystyle F \) i \( \displaystyle \displaystyle\gamma \) będą jak w definicji 12.7. Niech \( \displaystyle \displaystyle\hat{\gamma}:[\alpha,\beta]\to \mathbb{R}^2 \) będzie inną parametryzacją krzywej \( \displaystyle K. \) Jeśli \( \displaystyle \displaystyle\hat{\gamma} \) zadaje tę samą orientację krzywej \( \displaystyle K \) co \( \displaystyle \displaystyle\gamma \), to

\( \displaystyle \displaystyle\int\limits_K\mathbf{F}od\mathbf{x}=\displaystyle\int\limits_a^bF(\hat{\gamma}(t))\circ\hat{\gamma}'(t)dt; \)

jeśli natomiast \( \displaystyle \displaystyle\hat{\gamma} \) zadaje orientację krzywej \( \displaystyle K \) przeciwną niż \( \displaystyle \displaystyle\gamma \), to

\( \displaystyle \displaystyle\int\limits_K\mathbf{F}od\mathbf{x}=-\displaystyle\int\limits_a^bF(\hat{\gamma}(t))\circ\hat{\gamma}'(t)dt. \)

Stwierdzenie to mówi zatem, że dla parametryzacji dających tę samą orientację krzywej, całki krzywoliniowe zorientowane są równe. Dla parametryzacji dających orientację przeciwną, całka krzywoliniowa zorientowana zmienia znak - i stąd nazwa "zorientowana".

Warto tu zauważyć, że w takim razie - z dokładnością do znaku - całka krzywoliniowa nie zależy od parametryzacji, zależy tylko od krzywej jako zbioru i od odwzorowania \( \displaystyle F \).

Dowód 12.9.

Weźmy parametryzację krzywej \( \displaystyle K,\displaystyle \displaystyle\hat{\gamma}:[\alpha,\beta]\to \mathbb{R}^2 \) dającą tę samą orientację co \( \displaystyle \displaystyle\gamma. \) Musimy wykazać, że

\( \displaystyle \displaystyle\int\limits_a^bF(\gamma(t))\circ\gamma'(t)dt \ =\ \displaystyle\int\limits_{\alpha}^{\beta}F(\hat{\gamma}(t))\circ\hat{\gamma}'(t)dt. \)

Oznaczmy przez \( \displaystyle \displaystyle\varphi(t):=\gamma^{-1}(\hat{\gamma}(t)). \) Wtedy \( \displaystyle \displaystyle\hat{\gamma}(t)=\gamma(\varphi(t)) \) i \( \displaystyle \displaystyle\hat{\gamma}'(t)=\gamma'(\varphi(t))\varphi'(t). \) A zatem :

\( \displaystyle \displaystyle\int\limits_{\alpha}^{\beta}F(\hat{\gamma}(t))\circ\hat{\gamma}'(t) \ =\ \displaystyle\int\limits_{\alpha}^{\beta}F(\gamma(\varphi(t)))\circ\gamma'(\varphi(t))\varphi'(t)dt. \) Skorzystamy z twierdzenia o zmianie zmiennych w całce Riemanna (Analiza matematyczna 1 twierdzenie 14.19). Przyjmijmy \( \displaystyle s=\varphi(t), \) wtedy \( \displaystyle \displaystyle\varphi[\alpha,\beta]=[a,b] \) i mamy

\( \displaystyle \displaystyle\int\limits_{\alpha}^{\beta}F(\gamma(\varphi(t)))\circ\gamma'(\varphi(t))\varphi'(t)dt=\displaystyle\int\limits_a^bF(\gamma(s))\gamma'(s)ds, \)
co należało dowieść.

Niech teraz \( \displaystyle \displaystyle\hat{\gamma}:[\alpha,\beta]\to \mathbb{R}^2 \) będzie parametryzacją \( \displaystyle K \) dającą orientację przeciwną \( \displaystyle \displaystyle\gamma. \) Mamy wykazać, że

\( \displaystyle \displaystyle\int\limits_a^bF(\gamma(t))\circ\gamma'(t)dt \ =\ -\displaystyle\int\limits_{\alpha}^{\beta}F(\hat{\gamma}(t))\circ\hat{\gamma}'(t)dt. \)

Zdefiniujmy parametryzację \( \displaystyle \displaystyle\tilde{\gamma} \) następująco:

\( \displaystyle \tilde{\gamma}:[-b,-a]\ni t \to \hat\gamma(-t)\in K. \)

Nietrudno zobaczyć, że jeśli \( \displaystyle \displaystyle\hat{\gamma} \) daje orientację przeciwną niż \( \displaystyle \displaystyle\gamma \), to \( \displaystyle \displaystyle\tilde{\gamma} \) daje tę samą orientację co \( \displaystyle \displaystyle\gamma. \) A zatem z pierwszej części dowodu mamy

\( \displaystyle \displaystyle\int\limits_a^bF(\gamma(t))\circ\gamma'(t)dt \ =\ \displaystyle\int\limits_{-b}^{-a}F(\tilde{\gamma}(s))\circ\tilde{\gamma}'(s)ds \ =\ \displaystyle\int\limits_{-b}^{-a}F(\hat{\gamma}(-s))\circ(\hat{\gamma}(-s))'ds. \)

Zauważmy, że \( \displaystyle \displaystyle (\hat{\gamma}(-s))'=-\hat{\gamma}'(-s). \) Przyjmując \( \displaystyle t=-s, \) mamy zatem:

\( \displaystyle \displaystyle\int\limits_{-b}^{-a}F(\hat{\gamma}(-s))\circ(\hat{\gamma}(-s))'ds \ =\ \displaystyle\int\limits_{b}^{a}F(\hat{\gamma}(t))\circ(-\hat{\gamma}'(t))d(-t) \ =\ -\displaystyle\int\limits_{a}^{b}F(\hat{\gamma}(t))\circ\hat{\gamma}'(t)dt. \)

Uwaga 12.10.

(1) Niech \( \displaystyle \displaystyle\gamma :[a,b]\to \mathbb{R}^2 \) będzie parametryzacją krzywej \( \displaystyle K. \) Przez \( \displaystyle -K \) będziemy oznaczać krzywą \( \displaystyle K \) z parametryzacją \( \displaystyle \displaystyle\hat\gamma :[-b,-a]\to \mathbb{R}^2, \hat{\gamma}(t):=\gamma(-t) \) (\( \displaystyle \displaystyle\hat{\gamma} \) zadaje orientację przeciwną niż \( \displaystyle \displaystyle\gamma \)).

(2) Jeśli krzywa \( \displaystyle K_1 \) ma parametryzację \( \displaystyle \displaystyle\gamma_1 :[a,b]\to \mathbb{R}^2 \), a krzywa \( \displaystyle K_2 \) parametryzację \( \displaystyle \displaystyle\gamma_2 :[b,c]\to \mathbb{R}^2 \) oraz \( \displaystyle \gamma_1(b)=\gamma_2(b) \), to przez \( \displaystyle K_1+K_2 \) będziemy oznaczać krzywą o parametryzacji

\( \displaystyle \gamma: [a,c]\ni t \to \gamma_1(t), \ t\in[a,b] \)
\( \displaystyle \gamma_2(t)\ t\in [b,c]. \)

(Czyli \( \displaystyle K_1+K_2 \) jest "sklejeniem" krzywych \( \displaystyle K_1 \) i \( \displaystyle K_2 \) w ten sposób, że koniec \( \displaystyle K_1 \) łączy się z początkiem \( \displaystyle K_2 \)).

Przykład 12.11.

(1) Policzyć całkę

\( \displaystyle \displaystyle\int\limits_K(x-y)dx+(x+y)dy, \)

gdzie \( \displaystyle K \) jest górną połową okręgu o promieniu \( \displaystyle 1. \)

Górna połowa okręgu o promieniu \( \displaystyle 1 \) jest sparametryzowana przez

\( \displaystyle \gamma :[0,\pi)\ni t \to (\cos t, \sin t)\in \mathbb{R}^2. \)

A zatem zgodnie z definicją całki krzywoliniowej

\( \displaystyle \begin{align*} \displaystyle\int\limits_K(x-y)dx+(x+y)dy & = \displaystyle\int\limits_0^{\pi}((\cos t-\sin t)(\cos t)'+(\cos t+\sin t)(\sin t)')dt \\ & = \displaystyle\int\limits_0^{\pi}((\cos t-\sin t)(-\sin t)+(\cos t+\sin t)\cos t)dt \displaystyle\int\limits_0^{\pi}dt =\pi. \end{align*} \)

(2) Policzyć całkę

\( \displaystyle \displaystyle\int\limits_K ydx+xdy, \)

gdzie \( \displaystyle K \) jest okręgiem o promieniu \( \displaystyle R. \)

Parametryzacją okręgu o promieniu \( \displaystyle R \) jest

\( \displaystyle \gamma :[0,2\pi)\ni t \to (R\cos t, R\sin t)\in \mathbb{R}^2, \)

zatem

\( \displaystyle \begin{align*} \displaystyle\int\limits_Kydx+xdy & = \displaystyle\int\limits_0^{2\pi}((R\sin t)(-R\sin t)+(R\cos t)(R\cos t))dt \\ & =R^2\displaystyle\int\limits_0^{2\pi}(\cos^2t-\sin^2t)dt = R^2\displaystyle\int\limits_0^{2\pi}\cos 2tdt=\frac{R^2}{2}\sin{2t}\bigg|_0^{2\pi}=0. \end{align*} \)

(3) Policzyć całkę

\( \displaystyle \displaystyle\int\limits_K\cos^2x dy+\sin^2y dx, \)

gdzie \( \displaystyle K \) jest odcinkiem w \( \displaystyle \displaystyle\mathbb{R}^2 \) łączącym punkt \( \displaystyle \displaystyle (0,0) \) z Punktem \( \displaystyle \displaystyle (1,1). \)

Jak już wiemy, odcinek \( \displaystyle K \) możemy sparametryzować za pomocą:

\( \displaystyle \gamma:[0,1]\ni t \to (t,t)\in K\subset \mathbb{R}^2. \)

Stąd

\( \displaystyle \displaystyle\int\limits_K\cos^2x dy+\sin^2y dx=\displaystyle\int\limits_0^1(\cos^2 t\cdot 1 +\sin^2 t\cdot 1)d t=\displaystyle\int\limits_0^1dt=1. \)

wykres

Dodatnia orientacja krzywej \( K \)

Sformułujemy teraz i udowodnimy twierdzenie, które mówi o związku całki krzywoliniowej z całką podwójną. Potrzebne nam będzie pojęcie krzywej zamkniętej "zorientowanej dodatnio". Weźmy \( \displaystyle K, \) krzywą zamkniętą w \( \displaystyle \displaystyle\mathbb{R}^2, \) ograniczającą zbiór \( \displaystyle D. \) Wybierzmy parametryzację \( \displaystyle \displaystyle\gamma \) krzywej \( \displaystyle K. \) Wybór parametryzacji wyznacza kierunek obiegu krzywej - z danego punktu poruszamy się w kierunku pokazywanym przez wektor styczny \( \displaystyle \displaystyle [\varphi'(t),\psi'(t)]. \) Umawiamy się, że \( \displaystyle K \) jest zorientowana dodatnio, jeśli przy obiegu \( \displaystyle K \) zgodnie z kierunkiem wyznaczonym przez parametryzację zbiór \( \displaystyle D \) zostaje "po naszej lewej stronie".

Weźmy teraz krzywą \( \displaystyle K \) zorientowaną dodatnio ograniczającą zbiór \( \displaystyle D\subset \mathbb{R}^2. \) Niech \( \displaystyle \displaystyle\overline{D} \) oznacza \( \displaystyle D\cup K. \) (Zapisujemy także \( \displaystyle K=\partial D,\displaystyle K \) jest brzegiem \( \displaystyle D \)). Załóżmy, że zbiór \( \displaystyle D \) jest normalny ze względu na obie osie. Weźmy dwie funkcje \( \displaystyle P, Q : \overline{D}\to \mathbb{R}, \) ciągłe w \( \displaystyle \displaystyle\overline{D} \) i mające ciągłe pochodne cząstkowe w \( \displaystyle D \). Możemy teraz wypowiedzieć twierdzenie.

Twierdzenie 12.12. [Twierdzenie Greena]

Niech krzywa \( \displaystyle K, \) zbiór \( \displaystyle D \) oraz funkcje \( \displaystyle P(x,y) \) i \( \displaystyle Q(x,y) \) będą jak wyżej. Wtedy:

\( \displaystyle \oint_K Pdx+Qdy \ =\ \iint\limits_D(\frac{\partial Q}{\partial x} -\frac{\partial P}{\partial y} )dxdy. \)

Dowód 12.12.

Wykażemy, że

\( \displaystyle \oint_K P(x,y)dx \ =\ \iint\limits_D -\frac{\partial P}{\partial y}(x,y)dxdy \)

i

\( \displaystyle \oint_K Q(x,y) dy \ =\ \iint\limits_D\frac{\partial Q}{\partial x}(x,y) dxdy. \)

Skoro zbiór \( \displaystyle D \) jest normalny względem osi \( \displaystyle Ox \), to istnieje przedział \( \displaystyle \displaystyle [a,b]\subset \mathbb{R} \) i dwie funkcje \( \displaystyle y_1(x), y_2(x) \) takie, że

\( \displaystyle D \ =\ \{(x,y)\in \mathbb{R}^2 : a\leq x\leq b, y_1(x)\leq y \leq y_2(x)\}. \)

Oznaczmy przez \( \displaystyle K_1 \) wykres funkcji \( \displaystyle y_1(x) \), a przez \( \displaystyle K_2 \) wykres funkcji \( \displaystyle y_2(x). \) Wówczas

\( \displaystyle K \ =\ K_1+(-K_2), \)

zatem

\( \displaystyle \iint\limits_D \frac{\partial P}{\partial y}(x,y)dxdy \ =\ \displaystyle\int\limits_a^b \displaystyle\int\limits_{y_1(x)}^{y_2(x)}\frac{\partial P}{\partial y}(x,y)dxdy \ =\ \displaystyle\int\limits_a^b(P(x,y_2(x))-P(x,y_1(x)))dx. \)

Korzystając teraz z definicji całki krzywoliniowej, mamy:

\( \displaystyle \displaystyle\int\limits_{K_2}P(x,y)dx=\displaystyle\int\limits_a^bP(x,y_2(x))dx \)

oraz

\( \displaystyle \displaystyle\int\limits_{K_1}P(x,y)dx=\displaystyle\int\limits_a^bP(x,y_1(x))dx, \)

a zatem

\( \displaystyle \begin{align*} \displaystyle\int\limits_a^b(P(x,y_2(x))-P(x,y_1(x)))dx & =\displaystyle\int\limits_{K_2}P(x,y)dx-\displaystyle\int\limits_{K_1}P(x,y)dx \\ & = -\displaystyle\int\limits_{-K_2}P(x,y)dx-\displaystyle\int\limits_{K_1}P(x,y)dx=-\oint_KP(x,y)dx. \end{align*} \)

Analogicznie, skoro \( \displaystyle D \) jest normalny względem osi \( \displaystyle Oy \), to istnieje przedział \( \displaystyle \displaystyle [c,d]\subset \mathbb{R} \) i dwie funkcje \( \displaystyle x_1(y), x_2(y) \) takie, że

\( \displaystyle D \ =\ \{(x,y)\in \mathbb{R}^2 : c\leq y\leq d, x_1(y)\leq x \leq x_2(y)\}. \)

Oznaczmy przez \( \displaystyle L_1 \) wykres funkcji \( \displaystyle x_1(y) \), a przez \( \displaystyle L_2 \) wykres funkcji \( \displaystyle x_2(y). \) Wówczas

\( \displaystyle K \ =\ L_1+(-L_2), \)

zatem

\( \displaystyle \iint\limits_D \frac{\partial Q}{\partial x}(x,y)dxdy \ =\ \displaystyle\int\limits_c^d dy \displaystyle\int\limits_{x_1(y)}^{x_2(y)}\frac{\partial Q}{\partial x}(x,y)dx \ =\ \displaystyle\int\limits_c^d(Q(x_2(y),y)-Q(x_1(y),y))dy= \)

analogicznie jak wyżej

\( \displaystyle =\displaystyle\int\limits_{L_2}Q(x,y)dx-\displaystyle\int\limits_{L_1}Q(x,y)dx= \displaystyle \oint\limits_{K} Q(x,y)dx. \)

Uwaga 12.13.

Zauważmy, że twierdzenie Greena jest prawdziwe także dla zbiorów, które możemy podzielić na skończoną sumę zbiorów normalnych względem obu osi.

Dowód 12.13.

Wystarczy wykazać uwagę dla zbioru \( \displaystyle D \) będącego sumą dwóch zbiorów normalnych względem obu osi \( \displaystyle D=D_1\cup D_2. \) Niech \( \displaystyle L \) będzie krzywą dzielącą \( \displaystyle D \) na \( \displaystyle D_1\cup D_2, \) niech \( \displaystyle K_1=\partial D_1\setminus L, K_2=\partial D\setminus L. \) Zauważmy, że jeśli \( \displaystyle \displaystyle\partial D_1 \) i \( \displaystyle \displaystyle\partial D_2 \) zorientujemy dodatnio, to krzywą \( \displaystyle L \) przebiegamy raz w jedną, raz w drugą stronę, możemy zatem napisać \( \displaystyle \displaystyle\partial D=K=K_1+L+K_2-L. \)

Wtedy

\( \begin{array}{lll} \displaystyle\iint\limits_D(\frac{\partial Q}{\partial x} -\frac{\partial P}{\partial y} )dxdy & = & \displaystyle \iint\limits_{D_1}(\frac{\partial Q}{\partial x} -\frac{\partial P}{\partial y} )dxdy+\iint\limits_{D_2}(\frac{\partial Q}{\partial x} -\frac{\partial P}{\partial y} )dxdy \\ & = & \displaystyle\int\limits_{K_1+L}Pdx+Qdy+ \displaystyle\int\limits_{K_2-L}Pdx+Qdy=\displaystyle\int\limits_KPdx+Qdy. \end{array} \)

Przykład 12.14.

(1) Policzyć jeszcze raz całkę

\( \displaystyle \displaystyle\int\limits_K ydx+xdy, \)

gdzie \( \displaystyle K \) jest okręgiem o promieniu \( \displaystyle R, \) tym razem korzystając z twierdzenia Greena.

Oznaczmy przez \( \displaystyle D \) koło o promieniu \( \displaystyle R. \) Teraz \( \displaystyle P(x,y)=y, Q(x,y)+x. \) Z twierdzenia Greena mamy:

\( \displaystyle \displaystyle\int\limits_K ydx+xdy \ =\ \iint\limits_D(1-1)dxdy=\iint\limits_D 0 dxdy \ =\ 0. \)

Wykażemy jeszcze następującą uwagę.

Uwaga 12.15.

Pole powierzchni obszaru \( \displaystyle D \) ograniczonego krzywą \( \displaystyle K \) wyraża się za pomocą całek krzywoliniowych następująco:

\( \displaystyle |D| \ =\ \oint_Kxdy=-\oint_Kydx \)

albo

\( \displaystyle |D| \ =\ \frac{1}{2}\oint_Kxdy-ydx. \)

Dowód 12.15.

Faktycznie, \( \displaystyle |D|=\displaystyle\iint\limits_D1dxdy, \) z twierdzenia Greena mamy \( \displaystyle \displaystyle\iint\limits_D1 dxdy=\displaystyle\oint\limits_{K}x dy = \displaystyle-\oint\limits_{K}y dx. \)

Powiemy jeszcze kilka słów o polach potencjalnych. Z polami potencjalnymi spotkaliśmy się już na wykładzie poświęconym funkcjom wielu zmiennych. Przypomnijmy, że polem wektorowym nazywamy odwzorowanie z \( \displaystyle \mathbb{R}^N \) w \( \displaystyle \mathbb{R}^N \). (Nazwa bierze się stąd, że każdemu punktowi z \( \displaystyle \mathbb{R}^N \) przyporządkowujemy wartość odwzorowania w tym punkcie, a więc wektor z \( \displaystyle \mathbb{R}^N \)).

Niech teraz \( \displaystyle U\subset \mathbb{R}^2 \) będzie zbiorem, którego brzegiem jest jedna krzywa (zwyczajna) zamknięta \( \displaystyle K \), to znaczy \( \displaystyle K=\partial U \). (Taki zbiór będziemy nazywać zbiorem jednospójnym. Przykładem zbioru, który jest jednospójny jest koło. Koło bez środka nie jest zbiorem jednospójnym).

Na \( \displaystyle U \) określmy odwzorowanie (pole wektorowe)

\( \displaystyle F:\ U\to \mathbb{R}^2, \)

\( \displaystyle F(x,y) \ =\ (P(x,y),Q(x,y))\in \mathbb{R}^2. \)

Faktycznie to odwzorowanie każdemu punktowi \( \displaystyle \displaystyle (x,y)\in U \) przyporządkowuje wektor \( \displaystyle \displaystyle (P(x,y),Q(x,y)) \) z \( \displaystyle \displaystyle\mathbb{R}^2. \)

Będziemy zakładać, że nasze pole wektorowe \( \displaystyle F \) jest ciągłe i ma ciągłe pochodne cząstkowe w \( \displaystyle U. \)

Definicja 12.16.

Mówimy, że pole wektorowe jest polem potencjalnym, jeśli istnieje funkcja (zwana potencjałem pola) \( \displaystyle \displaystyle\varrho : U\to \mathbb{R} \) taka, że

\( \displaystyle (P(x,y),Q(x,y)) \ =\ (\frac{\partial \varrho}{\partial x}(x,y), \frac{\partial \varrho}{\partial y}(x,y)), \)

co zapisujemy krótko

\( \displaystyle F\ =\ \nabla\varrho. \)

Uwaga 12.17.

Zauważmy, że jeśli pole jest potencjalne, to z faktu, że \( \displaystyle P=\displaystyle\frac{\partial \varrho}{\partial x} \) i \( \displaystyle Q=\displaystyle\frac{\partial \varrho}{\partial y}, \) wynika, że \( \displaystyle \displaystyle\frac{\partial P}{\partial y} \textbf{=}\frac{\partial Q}{\partial x} \), bo oba wyrażenia są równe \( \displaystyle \displaystyle\frac{\partial^2 \varrho}{\partial x\partial y} \).

Korzystając z twierdzenia Greena, możemy wykazać, że w polu potencjalnym całka krzywoliniowa nie zależy od drogi całkowania. Dokładniej, zachodzi następujące stwierdzenie:

Stwierdzenie 12.18.

Niech \( \displaystyle U \) będzie obszarem jednospójnym w \( \displaystyle \displaystyle\mathbb{R}^2 \), a \( \displaystyle F \) polem wektorowym na \( \displaystyle U. \) Niech \( \displaystyle A \) i \( \displaystyle B \) będą dwoma punktami w \( \displaystyle U \), a \( \displaystyle K_1 \) i \( \displaystyle K_2 \) dwoma krzywymi łączącymi punkty \( \displaystyle A \) i \( \displaystyle B. \) Wówczas

\( \displaystyle \displaystyle\int\limits_{K_1}Pdx+Qdy \ =\ \displaystyle\int\limits_{K_2}Pdx+Qdy. \)

Dowód 12.18.

Stwierdzenie wykażemy tylko w przypadku, gdy krzywe \( \displaystyle K_1 \) i \( \displaystyle K_2 \) nie przecinają się i ograniczają razem zbiór normalny (względem którejś osi) \( \displaystyle D, \) czyli \( \displaystyle \displaystyle\partial D=K_1-K_2, \) tak jak w dowodzie twierdzenia Greena. Wtedy z twierdzenia Greena mamy

\( \displaystyle \oint\limits_{K_1-K_2}Pdx+Qdy \ =\ \iint\limits_D(\frac{\partial P}{\partial y}-\frac{\partial Q}{\partial x})dxdy \ =\ 0, \)

bo obie pochodne cząstkowe są sobie równe (zobacz wyżej).

Zauważmy, że z tego stwierdzenia wynika od razu, że całka po krzywej zamkniętej w polu potencjalnym wynosi zero.

Można także sformuowaćnastępujące stwierdzenie (dowód pominiemy).

Stwierdzenie 12.19.

Niech \( \displaystyle U \) będzie obszarem jednospójnym w \( \displaystyle \displaystyle\mathbb{R}^2 \), a \( \displaystyle F=(P,Q) \) polem wektorowym klasy \( \displaystyle {\cal C}^1 \) na \( \displaystyle U. \) Jeśli

\( \displaystyle \frac{\partial P}{\partial y} \ =\ \frac{\partial Q}{\partial x}, \)

to pole \( \displaystyle F \) jest polem potencjalnym.

Przykład 12.20.

Przypomnijmy znany z fizyki wzór na pracę. Niech \( \displaystyle F=(P,Q) \) będzie polem wektorowym reprezentującym siłę. Siły pola \( \displaystyle F \) działają na punkt, który przesuwamy po krzywej \( \displaystyle K. \) Wtedy praca pola sił wyraża się wzorem

\( \displaystyle W \ =\ \displaystyle\int\limits_KF\circ d\textbf{x} \ =\ \displaystyle\int\limits_KPdx+Qdy. \)

(1) Policzmy pracę wykonaną przez pole sił \( \displaystyle F=(P,Q), \)

\( \displaystyle P(x,y) \ =\ x^2+y^2, \ Q(x,y)=2xy, \)

wzdłuż krzywej \( \displaystyle K \): \( \displaystyle y=x^2, \) przy przesunięciu punktu od punktu \( \displaystyle \displaystyle (0,0) \) do punktu \( \displaystyle \displaystyle (1,1). \)

Krzywą \( \displaystyle K \) możemy sparametryzować \( \displaystyle \displaystyle\gamma(t)=(t,t^2) \) dla \( \displaystyle t\in[0,1], \) tak więc \( \displaystyle x=t, y=t^2. \) Mamy zatem

\( \displaystyle W \ =\ \displaystyle\int\limits_KPdx+Qdy=\displaystyle\int\limits_0^1((t^2+t^4)+(2t^3)2t)dt \ =\ \displaystyle\int\limits_0^1t^2+5t^4dt \ =\ \frac{4}{3}. \)

wykres

(2) Dane jest pole sił:

\( \displaystyle P(x,y) \ =\ \frac{x}{(x^2+y^2)^{\frac{3}{2}}}, \quad Q(x,y) \ =\ \frac{y}{(x^2+y^2)^{\frac{3}{2}}}. \)

Policzyć pracę wykonaną przez pole sił przy przesuwaniu punktu wokół okręgu o środku w punkcie \( \displaystyle \displaystyle (3,3) \) i promieniu \( \displaystyle 1. \)

Sprawdźmy, że pole \( \displaystyle \displaystyle (P,Q) \) jest polem potencjalnym w zbiorze \( \displaystyle U \) będącym kołem o środku w punkcie \( \displaystyle \displaystyle (3,3) \) i promieniu \( \displaystyle 2. \) (Taki zbiór \( \displaystyle U \) wybieramy, by móc zastosować stwierdzenie 12.19, do zbioru \( \displaystyle U \) nie może należeć punkt \( \displaystyle \displaystyle (0,0), \) bo tam \( \displaystyle P \) i \( \displaystyle Q \) nie są określone).

Policzmy: \( \displaystyle \displaystyle\frac{\partial P}{\partial y}=\frac{-3xy}{(x^2+y^2)^{\frac{5}{2}}}=\frac{\partial Q}{\partial x}, \) tak więc pole jest potencjalne na podstawie stwierdzenia stwierdzenia 12.19, a w polu potencjalnym całka po krzywej zamkniętej (a więc także po naszym okręgu) jest równa zero.

rycina

Wektor pola wektorowego na krzywej \( K \) oraz jego składowa styczna do krzywej

Na zakończenie warto wspomnieć o związku całki krzywoliniowej zorientowanej z całką krzywoliniową niezorientowaną, wprowadzoną na wykładzie z Analizy Matematycznej 1.

Weźmy krzywą \( \displaystyle K \) o parametryzacji \( \displaystyle \displaystyle\gamma=(\varphi,\psi) : [a,b]\to \mathbb{R}^2. \) Niech \( \displaystyle F=(P,Q) \) będzie polem wektorowym na \( \displaystyle K. \) Mamy wówczas całkę krzywoliniową zorientowaną:

\( \displaystyle \displaystyle\int\limits_KF\circ d\textbf{x}=\displaystyle\int\limits_a^b(P(\varphi(t),\psi(t)),Q(\varphi(t),\psi(t)))\circ ((\varphi'(t),\psi'(t))dt. \)

Z definicji iloczynu skalarnego w \( \displaystyle \mathbb{R}^2 \) i normy euklidesowej w \( \displaystyle \mathbb{R}^2 \),

\( \begin{array}{lll}\displaystyle & (P(\varphi(t),\psi(t)),Q(\varphi(t),\psi(t)))\circ ((\varphi'(t),\psi'(t)) \\ & =\|(P(\varphi(t),\psi(t)),Q(\varphi(t),\psi(t)))\|\cdot \|(\varphi'(t),\psi'(t))\|\cos \alpha, \end{array} \)

gdzie \( \displaystyle \|v\| \) oznacza długość wektora \( \displaystyle v \), a \( \displaystyle \displaystyle\alpha \) jest kątem pomiędzy wektorem \( \displaystyle \displaystyle (P(\varphi(t),\psi(t)),Q(\varphi(t),\psi(t))) \), a wektorem stycznym \( \displaystyle \displaystyle (\varphi'(t),\psi'(t)). \) Ze wzoru na długość wektora mamy

\( \displaystyle \|(\varphi'(t),\psi'(t))\|=\sqrt{\varphi'^2(t)+\psi'^2(t)}. \)

Zauważmy jeszcze, że

\( \displaystyle F_s(\gamma(t)):=\|(P(\varphi(t),\psi(t)),Q(\varphi(t),\psi(t)))\|\cos \alpha \)

jest długością rzutu prostopadłego wektora \( \displaystyle \displaystyle (P(\varphi(t),\psi(t)),Q(\varphi(t),\psi(t))) \) na styczną do krzywej, czyli długością składowej stycznej. A zatem

\( \displaystyle \displaystyle\int\limits_KF\circ d\textbf{x}=\displaystyle\int\limits_a^bF_s(\gamma(t))\sqrt{\varphi'^2(t)+\psi'^2(t)}dt=\displaystyle\int\limits_KF_s dl. \)

Równania różniczkowe zwyczajne

Równania różniczkowe zwyczajne.



Przedstawiamy kilka praktycznych problemów, których opis w języku matematyki prowadzi do równań różniczkowych. Dowodzimy twierdzenia Picarda o istnieniu i jednoznaczności rozwiązania problemu początkowego Cauchy'ego. Przedstawiamy dwie metody przybliżonego rozwiązywania równań różniczkowych (metodę kolejnych przybliżeń Picarda i metodę łamanych Eulera). Pokazujemy też jak za pomocą analizy pola kierunków można określić przybliżony przebieg rozwiązań równania różniczkowego.

Modele matematyczne, które prowadzą do równań różniczkowych

Opis wielu zagadnień praktycznych korzysta z modeli, w których w naturalny sposób pojawia się zależność od pochodnej. Rozważmy kilka z tych problemów.

wykres

Rysunek do przykładu 13.1.

Przykład 13.1.

(stygnięcie, ogrzewanie pewnej substancji) Z obserwacji wynika, że substancja stygnie (odpowiednio: ogrzewa się) tym szybciej, im większa jest różnica temperatury tej substancji i otoczenia. Jeśli \( \displaystyle x(t) \) oznacza temperaturę substancji w chwili \( \displaystyle t \), obserwację można sformułować następująco: zmiana temperatury substancji \( \displaystyle x(t+h)-x(t) \) po upływie czasu \( \displaystyle h \) od pomiaru temperatury w chwili \( \displaystyle t \) jest proporcjonalna do różnicy temperatur \( \displaystyle x(t)-x^* \), gdzie \( \displaystyle x^* \) oznacza temperaturę otoczenia, co można zapisać za pomocą równości

\( \displaystyle \frac{x(t+h)-x(t)}{h}\approx-\lambda (x(t)-x^*), \ \ x(t_0)=x_0, \)

gdzie \( \displaystyle \lambda>0 \) jest pewną stałą, a \( \displaystyle x_0 \) oznacza temperaturę substancji, którą zanotowaliśmy na początku obserwacji w chwili \( \displaystyle t_0 \). Znak minus, który poprzedza różnicę \( \displaystyle x(t)-x^* \) bierze się stąd, że substancja stygnie (czyli \( \displaystyle x(t+h)-x(t) < 0 \) po upływie czasu \( \displaystyle h>0 \)), gdy ma wyższą temperaturę niż otoczenie (tj. gdy \( \displaystyle x(t)-x^*>0 \)) albo ogrzewa się (czyli \( \displaystyle x(t+h)-x(t)>0 \) po upływie czasu \( \displaystyle h>0 \)), gdy otoczenie ma wyższą temperaturę niż obserwowana substancja (tj. gdy \( \displaystyle x(t)-x^* < 0 \)). Jeśli odcinki czasu pomiędzy kolejnymi pomiarami temperatury będą małe, w granicy zależność, którą sformułowaliśmy, przyjmie postać:

\( \displaystyle \frac{dx}{dt}(t)\ = -\lambda (x(t)-x^*), \ \ x(t_0)=x_0. \)

Nietrudno odgadnąć (na przykład przyjmując wpierw dla ułatwienia zadania, że temperatura otoczenia \( \displaystyle x^*=0 \) jest zerowa), że zależność \( \displaystyle \frac{dx}{dt}(t) = -\lambda x(t) \) spełnia funkcja wykładnicza \( \displaystyle t\mapsto \exp (-\lambda t) \), a także każdy iloczyn tej funkcji przez stałą. Nasze doświadczenie podpowiada nam, że w trakcie obserwacji dwóch identycznych próbek substancji, które stygną w tych samych warunkach (np. dwie identyczne filiżanki kawy stojące obok siebie), po upływie określonego czasu zauważymy, że obie będą mieć taką samą temperaturę. Zbudowany model matematyczny

\( \displaystyle \frac{dx}{dt}(t)\ = -\lambda x(t), \ \ x(t_0)=x_0, \)

dostarcza dokładnie jednego rozwiązania i jest nim funkcja

\( \displaystyle x(t)=x_0 \exp (-\lambda (t-t_0)), \)

która spełnia warunek \( \displaystyle x(t_0)=x_0 \), oznaczający, że temperatura substancji na początku obserwacji wynosiła \( \displaystyle x_0 \).

Otrzymane rozwiązanie możemy również łatwo zmodyfikować tak, aby odpowiadało obserwacji w przypadku, gdy temperatura otoczenia \( \displaystyle x^* \) jest dowolna:

\( \displaystyle x(t)=x^* +(x_0-x^*) \exp (-\lambda (t-t_0)). \) Naszkicujmy rodzinę krzywych, odpowiadających różnym wartościom temperatury początkowej (patrz rysunek powyżej).

Niezależnie od temperatury początkowej \( \displaystyle x_0 \) (w momencie \( \displaystyle t_0=0 \)) wszystkie krzywe \( \displaystyle t\mapsto x^* +(x_0-x^*) \exp (-\lambda t) \) zmierzają asymptotycznie do prostej \( \displaystyle x=x^* \), co odpowiada wielokrotnie czynionej przez nas obserwacji: wraz z upływem czasu wszystkie przedmioty, które znajdują się w pewnym pomieszczeniu (a nie są w jakiś sposób izolowane przed ciepłem), osiągają

temperaturę otoczenia.

Niemal każda dziedzina nauki (fizyka, chemia, biologia, ekonomia, demografia, meteorologia i wiele innych) tworzy modele, w których pojawiają się zależności od funkcji i jej pochodnej (lub pochodnych wyższego rzędu).

(ruch jednostajnie przyśpieszony, spadek swobodny) Z opisem ruchu punktu materialnego, który spada swobodnie w polu grawitacyjnym, spotkaliśmy się już w szkole na lekcjach fizyki. Można przyjąć, że przyśpieszenie ziemskie jest (w pobliżu powierzchni Ziemi) wielkością stałą \( \displaystyle g=9.81 \frac{m}{s^2} \). Pamiętając, że przyśpieszenie jest pochodną rzędu drugiego funkcji położenia \( \displaystyle t\mapsto x(t) \), otrzymujemy równanie

\( \displaystyle x''(t)=g, \)

które po jednokrotnym całkowaniu spełnia przyjmuje postać

\( \displaystyle x'(t)=gt+v_0, \)

gdzie \( \displaystyle v_0 \) jest prędkością w chwili \( \displaystyle t_0=0 \). Kolejne całkowanie prowadzi do znanego wzoru na położenie punktu materialnego w chwili \( \displaystyle t \) w ruchu jednostajnie przyspieszonym:

\( \displaystyle x(t)=\frac{1}{2}gt^2+v_0t+x_0, \)

gdzie \( \displaystyle x_0 \) jest położeniem

punktu w chwili początkowej \( \displaystyle t_0=0 \).

Przykład 13.3.

(rozwój kolonii bakterii, prawo Malthusa) Obserwacja grupy jednakowych organizmów (np. kolonii bakterii), rozwijających się i rozmnażających w środowisku, w którym jest nieograniczona ilość pożywienia i nie ma naturalnych wrogów, prowadzi do obserwacji, że liczba nowo powstałych organizmów w jednostce czasu jest proporcjonalna do liczby organizmów w danej chwili. Prowadzi to do równania

\( \displaystyle \frac{x(t+h)-x(t)}{h}\approx \lambda x(t), \)

w którym \( \displaystyle x(t) \) oraz \( \displaystyle x(t+h) \) oznaczają liczebność grupy organizmów w chwili \( \displaystyle t \) oraz po upływie czasu \( \displaystyle h \), natomiast \( \displaystyle \lambda \) jest stałą charakteryzującą tempo rozmnażania się danej grupy organizmów. Przy \( \displaystyle h\to 0 \) otrzymujemy równanie różniczkowe

\( \displaystyle x'=\lambda x, \)

które spełnia funkcja

\( \displaystyle x(t)=N_0 \exp(\lambda t), \)

gdzie stała \( \displaystyle N_0 \) oznacza liczebność grupy organizmów na początku obserwacji w chwili \( \displaystyle t=0 \). Otrzymane równanie stanowi ilustrację prawa Malthusa, które głosi, że wzrost liczebności organizmów jest wykładniczy.

wykresy

rysunki

Rysunek do przykładu 13.4.

Przykład 13.4.

(zmodyfikowany model rozwoju grupy organizmów) W realnym świecie wykładniczy wzrost liczby organizmów obserwujemy rzadko. W sytuacji, gdy ilość pożywienia jest ograniczona, rozwój grupy organizmów lepiej niż prawo Malthusa opisuje równanie

\( \displaystyle x'=\lambda x(N-x), \)

gdzie \( \displaystyle N \) jest pewną stałą. Jest to równanie Bernoullego \( \displaystyle x'-N\lambda x=-\lambda x^2 \) (omawiamy je szerzej w ramach następnego modułu). Łatwo spostrzec, że spełniają je dwie funkcje stałe \( \displaystyle x(t)=N \) oraz \( \displaystyle x(t)=0 \). Po podstawieniu \( \displaystyle z=\frac{1}{x} \) otrzymujemy równanie liniowe niejednorodne (które także omawiamy w ramach następnego modułu)

\( \displaystyle z'+\lambda N z=\lambda, \)

które spełnia każda funkcja postaci

\( \displaystyle z(t)=\frac{1}{N}+C\exp(-\lambda N t), \)

gdzie \( \displaystyle C \) jest stałą. Jej wartość można określić, biorąc pod uwagę liczebność grupy \( \displaystyle N_0 \) w chwili \( \displaystyle t=0 \), czyli biorąc \( \displaystyle z(0)=\frac{1}{N_0} \). Otrzymamy stąd \( \displaystyle C=\frac{1}{N_0}-\frac{1}{N} \). Ostatecznie więc rozwiązaniem równania \( \displaystyle x'=\lambda x(N-x) \) jest funkcja

\( \displaystyle x(t)= (\frac{1}{N}+(\frac{1}{N_0}-\frac{1}{N}) \exp(-\lambda N t))^{-1}. \)

Rozwiązanie stałe \( \displaystyle x(t)=N \) jest szczególnym przypadkiem otrzymanego rozwiązania, gdy \( \displaystyle N=N_0 \).

Warto zwrócić uwagę na parę własności tego rozwiązania. Mamy \( \displaystyle x(t)\to N \), gdy \( \displaystyle t\to \infty \), niezależnie od liczebności grupy w chwili początkowej. Stała \( \displaystyle N \) ma naturalną interpretację biologiczną: jest to pojemność ekosystemu, zależna od m.in. ilości pożywienia dostępnego grupie organizmów na określonym obszarze. Ponadto, jeśli \( \displaystyle N_0 < N \) (odpowiednio: \( \displaystyle N_0>N \)), to liczebność grupy \( \displaystyle t\mapsto x(t) \) rośnie (odpowiednio: maleje) i zmierza asymptotycznie do \( \displaystyle N \). Zauważmy także, że żadne z rozwiązań \( \displaystyle t\mapsto x(t) \) nie zmierza do zera, gdy tylko \( \displaystyle N_0>0 \).

Przykład 13.5.

(równanie sprężyny, prawo Hooke'a) Zgodnie z prawem Hooke'a siła, którą należy wywrzeć na ciało sprężyste, aby je odkształcić, jest wprost proporcjonalna do wielkości odkształcenia. Prawo to w przypadku jednowymiarowym (np. ściskanie i rozciąganie sprężyny) opisuje równanie

\( \displaystyle x''=-k^2x, \)

gdzie \( \displaystyle x \) jest wielkością odkształcenia, a \( \displaystyle k^2 \) jest stałą charakteryzującą ciało, które ulega odkształceniu sprężystemu. Otrzymane równanie (równanie liniowe rzędu drugiego o stałych współczynnikach, które szerzej omawiamy w kolejnym module) spełnia każda funkcja postaci

\( \displaystyle x(t)=A \cos(kt)+B\sin (kt), \)

gdzie \( \displaystyle A, B \) są stałymi, których wartość można określić na podstawie np. położenia \( \displaystyle x_0 \) i prędkości \( \displaystyle v_0 \) w chwili początkowej \( \displaystyle t=0 \). Mamy bowiem \( \displaystyle x'(t)=-Ak \sin(kt)+Bk\cos (kt) \), skąd

\( \displaystyle \left\{\begin{align*} x_0 & =x(0)=A \cos(k\cdot 0)+B\sin (k\cdot 0)=A \\ v_0 & =x'(0)=-Ak \sin(k\cdot 0)+Bk\cos (k\cdot 0)=Bk,\end{align*}\right . \)

czyli \( \displaystyle A=x_0 \), \( \displaystyle B=\frac{v_0}{k} \). Zatem ruch końca sprężyny, który w chwili \( \displaystyle t=0 \) odchylono o \( \displaystyle x_0 \) i puszczono z prędkością początkową \( \displaystyle v_0 \), opisuje równanie

\( \displaystyle x(t)=x_0 \cos(kt)+\frac{v_0}{k}\sin (kt). \)

Zauważmy, że otrzymana funkcja jest okresowa o okresie \( \displaystyle T=\frac{2\pi}{k} \) i ma stałą amplitudę, co w przypadku realnej sprężyny nie jest prawdą. Nasz model zaniedbuje bowiem tarcie, na

skutek którego ruch zanika (amplituda maleje do zera), gdy \( \displaystyle t\to \infty \).

W ramach ćwiczeń omawiamy także rozpad promieniotwórczy izotopu oraz zagadnienie ciągłej kapitalizacji odsetek. Problemy te także prowadzą do konstrukcji modeli matematycznych, w których głównym narzędziem jest pewne równanie różniczkowe.

Równanie różniczkowe w postaci normalnej i różniczkowej

Definicja 13.6.

Niech \( \displaystyle F: \mathbb{R}^{n+1}\supset U\mapsto \mathbb{R} \) będzie funkcją ciągłą na zbiorze otwartym \( \displaystyle U \). Równanie

\( \displaystyle F \left(t, x(t), x'(t), x''(t), \dots , x^{(n)}(t) \right)=0, \)

z niewiadomą \( \displaystyle t\mapsto x(t) \) (tj. funkcją \( \displaystyle n \) krotnie różniczkowalną \( \displaystyle t\mapsto x(t) \)), w którym oprócz niewiadomej \( \displaystyle x \) występują także jej pochodne \( \displaystyle x', \ x'', \dots, x^{(n)} \) nazywamy równaniem różniczkowym zwyczajnym rzędu \( \displaystyle n \).

Niech \( \displaystyle \Delta\subset \mathbb{R} \) będzie przedziałem (z końcami lub bez,

ograniczonym lub nieograniczonym). Funkcję

\( \displaystyle u:\Delta\to \mathbb{R} \)

nazywamy rozwiązaniem równania różniczkowego \( \displaystyle F \left(t, x(t), x'(t), x''(t), \dots , x^{(n)}(t) \right)=0, \) jeśli

1. \( \displaystyle u \) jest \( \displaystyle n \)-krotnie różniczkowalna w każdym punkcie przedziału \( \displaystyle \Delta \) (przy czym na końcach przedziału, o ile do niego należą, bierzemy pod uwagę pochodne jednostronne);

2. wykres funkcji \( \displaystyle u \) zawiera się w zbiorze \( \displaystyle U \);

3. dla dowolnego \( \displaystyle t\in\Delta \) zachodzi równość \( \displaystyle F \left(t, u(t), u'(t), u''(t), \dots , u^{(n)}(t) \right)=0 \).

Jeśli w równaniu niewiadomą jest funkcja dwóch lub większej liczby zmiennych i równanie zawiera zależność od pochodnych cząstkowych tej funkcji, na przykład

\( \displaystyle F \left(t,s, x(t,s), \frac{\partial x}{\partial t}, \frac{\partial x}{\partial s}, \dots \right)=0, \)

to równanie tego typu nazywamy równaniem różniczkowym cząstkowym. W dalszym ciągu będziemy zajmować się równaniami zwyczajnym rzędu pierwszego w postaci normalnej

\( \displaystyle x'(t)=f(t, x(t)), \)

tj. takiej postaci, w której pochodna niewiadomej \( \displaystyle x \) jest funkcją tej niewiadomej i zmiennej niezależnej \( \displaystyle t \). Mając bowiem dane równanie różniczkowe zwyczajne rzędu \( \displaystyle n \) w postaci normalnej

\( \displaystyle x^{(n)}=f(t, x, x' , x'', \dots, x^{(n-1)}), \)

możemy je zastąpić układem równań różniczkowych zwyczajnych rzędu pierwszego w postaci normalnej:

\( \displaystyle \left\{ \begin{align*} & x_0'=x_1 \\ & x_1 '=x_2 \\ & x_2'=x_3 \\ & \vdots \\ & x_{n-2}'=x_{n-1} \\ & x_{n-1}'=f(t, x_0, x_1, x_2, \dots, x_{n-2}, x_{n-1}), \end{align*} \right. \)

w którym zmienne

\( \displaystyle x_0, \ x_1, \ x_2, \dots, \ x_{n-2},\ x_{n-1} \)

odpowiadają funkcji niewiadomej \( \displaystyle x \) oraz jej pochodnym

\( \displaystyle x, \ x', \ x'', \dots, \ x^{(n-2)}, \ x^{(n-1)}. \)

Bardzo często zmienną niezależną \( \displaystyle t \) w równaniu różniczkowym nazywamy czasem (ze względu na liczne modele matematyczne, w których właśnie czas przeważnie jest zmienną niezależną). Pochodną funkcji \( \displaystyle t\mapsto x(t) \) oznaczamy tradycyjnie symbolami

\( \displaystyle x', \ \ \frac{dx}{dt}, \ \ \frac{d}{dt}x, \ \ \dot{x}. \)

Ostatnie z oznaczeń pochodnej (za pomocą kropki nad niewiadomą \( \displaystyle \dot{x} \)) jest charakterystyczne dla równań różniczkowych.

Odpowiednio drugą, trzecią i pochodne wyższego rzędu oznaczamy tradycyjnie symbolami:

\( \displaystyle \begin{align*} & x'', \ \ & \frac{d^2x}{dt^2}, \ \ & \frac{d^2}{dt^2}x, \ \ & \ddot{x} & \\ & x''', \ \ & \frac{d^3x}{dt^3}, \ \ & \frac{d^3}{dt^3}x, \ \ & \dddot{x} & \\ & x^{(n)}, \ \ & \frac{d^n x}{dt^n}, \ \ & \frac{d^n}{dt^n}x, \ \ & x^{(n)}. & \end{align*} \)

Uwaga 13.7.

Wraz z równaniem różniczkowym w postaci normalnej \( \displaystyle \frac{dx}{dt}=f(t,x) \) rozważamy też często równanie w postaci różniczkowej

\( \displaystyle dx=f(t,x)dt, \)

bądź w bardziej ogólnej postaci

\( \displaystyle P(t,x)dt+Q(t,x)dx=0, \)

gdzie \( \displaystyle P, Q \) są danymi funkcjami zmiennych \( \displaystyle t,x \). Zadajemy wówczas

pytanie o istnienie takiej funkcji różniczkowalnej \( \displaystyle F: (t,x)\mapsto F(t,x) \), której różniczka

\( \displaystyle dF=\frac{\partial F}{\partial t}dt+\frac{\partial F}{\partial x}dx \) jest tożsama z lewą stroną równania w postaci różniczkowej \( \displaystyle P(t,x)dt+Q(t,x)dx=0. \)

Otrzymujemy wówczas rozwiązanie

\( \displaystyle t\mapsto x(t)\ \text{ lub } \ x\mapsto t(x) \)

dane w postaci uwikłanej

\( \displaystyle F(t, x(t))=C \ \text{ lub } F(t(x),x)=C, \)

gdzie \( \displaystyle C \) jest pewną stałą.

Przykład 13.8.

Dane jest równanie różniczkowe zwyczajne rzędu pierwszego w postaci normalnej

\( \displaystyle \frac{dx}{dt}=-\frac{x+2t}{2x+t}. \)

Zauważmy, że postaci różniczkowej przyjmuje ono wyjątkowo prostą postać

\( \displaystyle (2x+t)dx+(x+2t)dt=0, \)

gdyż

\( \displaystyle 2xdx+2tdt=d(x^2+t^2) \text{ oraz } tdx+xdt=d(tx), \)

stąd równanie w postaci różniczkowej jest tożsame z równaniem

\( \displaystyle d(x^2+xt+t^2)=0, \)

czyli \( \displaystyle x^2+xt+t^2=C \), gdzie \( \displaystyle C \) jest pewną stałą. Funkcje

\( \displaystyle t\mapsto x(t) \) w postaci uwikłanej

\( \displaystyle x(t)^2+x(t)t+t^2=C \)

spełniają dane równanie.

Istnienie i jednoznaczność rozwiązania problemu Cauchy'ego

rycina

Augustin Louis Cauchy (1789-1857)

Definicja 13.9.

Zagadnienie

\( \displaystyle \left\{\begin{align*} x'(t) & =f(t, x(t)) \\ x(t_0) & =x_0\end{align*} \right . \)

polegające na znalezieniu takiego rozwiązania \( \displaystyle t\mapsto x(t) \) równania różniczkowego \( \displaystyle x'(t)=f(t, x(t)) \), które spełnia warunek początkowy \( \displaystyle x(t_0)=x_0 \) (gdzie \( \displaystyle x_0 \) jest zadaną wartością, którą szukane rozwiązanie ma przyjmować w ustalonej chwili początkowej \( \displaystyle t_0 \)) nazywamy

problemem początkowym Cauchy'ego.

Powstaje naturalne pytanie, czy zawsze problem Cauchy'ego ma rozwiązanie i czy jest ono jednoznaczne? Przypomnijmy, że problem

\( \displaystyle \left\{\begin{align*} & \frac{dx}{dt}(t)\ = -\lambda x(t) \\ & x(t_0)=x_0,\end{align*} \right. \)

który rozwiązaliśmy opisując proces stygnięcia (ogrzewania), ma zawsze rozwiązanie

\( \displaystyle x(t)=x^* +(x_0-x^*) \exp (-\lambda (t-t_0)) \)

i jest ono jednoznaczne. Jednak nasze doświadczenie (np. związane z prognozowaniem pogody) podpowiada nam, że nie wszystkie procesy, które przebiegają w czasie, obok nas, mają jednoznaczne rozwiązanie, którego rezultat można przewidzieć w chwili \( \displaystyle t \) na podstawie warunku początkowego. Rozważmy prosty przykład.

Przykład 13.10.

Rozważmy problem początkowy Cauchy'ego

\( \displaystyle \left\{\begin{align*} & \frac{dx}{dt}(t)\ = \sqrt{x(t)} \\ & x(t_0)=x_0,\end{align*}\right. \)

Łatwo zauważyć, że równanie \( \displaystyle x'=\sqrt{x} \) spełnia funkcja stała \( \displaystyle x(t)=0 \). Ponadto po zapisaniu równania w postaci różniczkowej \( \displaystyle \frac{dx}{\sqrt{x} }=dt \) wskazujemy rodzinę funkcji, które je spełniają:

\( \displaystyle 2\sqrt{x}=t+C, \)

gdzie \( \displaystyle C \) jest stałą (zauważmy, że równanie to ma sens tylko jeśli \( \displaystyle t+C\geq 0 \)). Stąd \( \displaystyle x(t)=\big(\frac{t+C}{2}\big)^2 \), o ile \( \displaystyle t+C\geq 0 \). A więc problem Cauchy'ego

a) ma dokładnie jedno rozwiązanie, gdy \( \displaystyle x_0>0 \):

\( \displaystyle x(t)=\left\{\begin{align*} & \frac{1}{4}(t+C)^2, & \; t>-C \\ & 0, & \; t\leq -C\end{align*} \right. \, \quad \text{ gdzie } \ C=2\sqrt{x_0}-t_0, \)

b) nie ma rozwiązania, gdy \( \displaystyle x_0 < 0, \)

c) ma dwa rozwiązania

\( \displaystyle x=0 \quad \text{ oraz }\quad x(t)=\left\{\begin{align*} & \frac{1}{4}(t-t_0)^2, & \; t>t_0 \\ & 0, & \; t\leq t_0\end{align*} \right.\, \)

gdy \( \displaystyle x_0=0 \).

Okazuje się jednak, że przy naturalnych założeniach o funkcji \( \displaystyle f \) problem Cauchy'ego ma rozwiązanie i jest ono jednoznaczne.

Twierdzenie 13.11.

(twierdzenie Picarda) Jeśli funkcja \( \displaystyle \mathbb{R}^2\ni (t,x)\mapsto f(t,x)\in \mathbb{R} \) jest ciągła w pewnym otoczeniu \( \displaystyle (t_0-a, t_0+a)\times (x_0-b, x_0+b) \) punktu \( \displaystyle (t_0, x_0) \) i spełnia warunek Lipschitza względem drugiej zmiennej, tzn.

\( \displaystyle \exists L : \forall x_1, x_2\in (x_0-b, x_0+b) : \ |f(t, x_1)-f(t, x_2)|\leq L|x_1-x_2|, \text{ dla } t\in (t_0-a, t_0+a), \)

to problem początkowy Cauchy'ego

\( \displaystyle \left\{\begin{align*} & x'(t)\ = f(t, x(t)) \\ & x(t_0)=x_0,\end{align*} \right. \)

ma rozwiązanie i jest ono jedyne.

Przedstawimy szkic dowodu tego twierdzenia. Zawiera on bowiem ciekawą ideę, która pozwala opracować praktyczną metodę numerycznego rozwiązywania równania różniczkowego za pomocą ciągu kolejnych przybliżeń rozwiązania danego równania.

Dowód 13.11.

[szkic] Zauważmy, że funkcja \( \displaystyle t\mapsto x(t) \) spełnia podany problem początkowy Cauchy'ego wtedy i tylko wtedy, gdy spełnione jest równanie całkowe z niewiadomą \( \displaystyle t\mapsto x(t) \)

\( \displaystyle x(t)-x(t_0)=\int_{t_0}^t f(s, x(s))ds, \)

czyli

\( \displaystyle x(t)=x_0+\int_{t_0}^t f(s, x(s))ds. \)

Niech

\( \displaystyle X:=\{x:[t_0-\alpha, t_0+\alpha]\ni t\mapsto x(t)\in [x_0-\beta, x_0+\beta], \text{ ciągła }\} \)

będzie przestrzenią funkcji ciągłych na przedziale \( \displaystyle [t_0-\alpha, t_0+\alpha] \) o wartościach w przedziale \( \displaystyle [x_0-\beta, x_0+\beta] \), gdzie \( \displaystyle \alpha < a \), \( \displaystyle \beta < b \). Przestrzeń \( \displaystyle X \) jest przestrzenią metryczną zupełną z metryką zadaną przez normę supremum, tj.

\( \displaystyle d(x_1, x_2)=\|x_1-x_2\|:=\sup\{|x_1(t)-x_2(t)|, t\in [t_0-\alpha, t_0+\alpha]\}. \)

Określmy na tej przestrzeni odwzorowanie:

\( \displaystyle P: X\ni x\mapsto P(x), \qquad {\rm gdzie}\;\; P(x)(t):=x_0+\int_{t_0}^t f(s, x(s))ds. \)

Wykazuje się (pomijamy szczegóły, które można znaleźć np. w podręczniku Ryszarda Rudnickiego, Wykłady z analizy matematycznej, Wydawnictwo Naukowe PWN, Warszawa 2001), że można dobrać stałe \( \displaystyle \alpha \) oraz \( \displaystyle \beta \) tak, że

  • odwzorowanie \( \displaystyle P: X\mapsto X \), tzn. jest określone na \( \displaystyle X \) i

przyjmuje wartości w przestrzeni \( \displaystyle X \), tzn.

\( \displaystyle \|P(x(t))-x_0\| < \beta; \)

  • jest zwężające (czyli spełnia warunek Lipschitza ze stałą

mniejszą od 1), tzn. istnieje stała \( \displaystyle M < 1 \) taka, że

\( \displaystyle \|P(x_1)-P(x_2)\|\leq M \|x_1-x_2\|, \)

dla dowolnych \( \displaystyle x_1, x_2 \) z przestrzeni \( \displaystyle X \). Na mocy twierdzenia Banacha o punkcie stałym w przestrzeni \( \displaystyle X \) istnieje dokładnie jeden punkt \( \displaystyle x^* \), do którego zmierza ciąg iteracji odwzorowania \( \displaystyle P \):

\( \displaystyle \begin{align*} & x_0 \\ & x_1=P(x_0) \\ & x_2=P(x_1) \\ & x_3=P(x_2) \\ & \vdots \\ & x_{n+1}=P(x_n) \\ & \downarrow n\to \infty \\ & x^*.\end{align*} \)

Punkt \( \displaystyle x^* \) jest punktem stałym odwzorowania \( \displaystyle P \), tzn. \( \displaystyle P(x^*)=x^* \), czyli

\( \displaystyle P(x^* (t))=x_0+\int_{t_0}^t f(s, x^* (s))ds, \)

co oznacza, że jest rozwiązaniem danego problemu Cauchy'ego i rozwiązanie to jest jedyne, gdyż (na mocy twierdzenia Banacha o punkcie stałym) ciąg iteracji \( \displaystyle x_{n+1}=P(x_n) \) zawsze zmierza do tego samego punktu \( \displaystyle x^* \) (punktu stałego odwzorowania \( \displaystyle P \), który jest jedyny) niezależnie od wyboru pierwszego punktu \( \displaystyle x_0 \) w ciągu iteracji, byleby został on wybrany z przestrzeni \( \displaystyle X \), w której

odwzorowanie \( \displaystyle P \) jest zwężające.

Uwaga 13.12.

Założenie o spełnianiu przez funkcję \( \displaystyle (t,x)\mapsto f(t,x) \) warunku Lipschitza jest istotne. Funkcja \( \displaystyle (t,x)\mapsto \sqrt{x} \) nie spełnia warunku Lipschitza względem drugiej zmiennej w otoczeniu punktu \( \displaystyle x_0 \). Przypomnijmy, że problem

\( \displaystyle \left\{\begin{align*} & \frac{dx}{dt}(t)\ = \sqrt{x(t)} \\ & x(t_0)=0,\end{align*}\right.\)

ma rozwiązanie, ale nie jest ono jednoznaczne.

Uwagi o przybliżonym rozwiązywaniu równań różniczkowych

Definicja 13.13.

Ciąg określony w dowodzie twierdzenia Picarda

\( \displaystyle \left\{\begin{align*} & x_1(t)=x_0+\int_{t_0}^t f(s, x_0)ds \\ & x_2(t)=x_0+\int_{t_0}^t f(s, x_1(s))ds \\ & x_3(t)=x_0+\int_{t_0}^t f(s, x_2(s))ds \\ & \vdots \\ & x_{n+1}(t)=x_0+\int_{t_0}^t f(s, x_{n} (s))ds \\ & \vdots\end{align*} \right. \)

nazywamy ciągiem kolejnych

przybliżeń Picarda.

Większość metod numerycznych świetnie radzi sobie z wyznaczaniem przybliżonych rozwiązań równań różniczkowych, pod jednym jednak warunkiem: problem Cauchy'ego musi mieć jednoznaczne rozwiązanie. Nie będziemy rozwijać tego zagadnienia, prześledźmy jednak praktyczną realizację metody zawartej w dowodzie twierdzenia Picarda.

Przykład 13.14.

Wyznaczmy metodą Picarda rozwiązanie problemu Cauchy'ego

\( \displaystyle \left\{\begin{align*} & x'(t)\ = x(t) \\ & x(0)=1.\end{align*} \right. \)

Zgodnie z określeniem ciągu Picarda mamy

\( \begin{array}{lll} \displaystyle x_1 & =1+\int_0^t ds & =1+t \\ x_2 & =1+\int_0^t(1+s)ds & =1+t+\frac{1}{2}t^2 \\ x_3 & =1+\int_0^t(1+s+\frac{1}{2}s^2)ds & =1+t+\frac{1}{2}t^2+\frac{1}{6}t^3 \\ x_4 & =1+\int_0^t(1+s+\frac{1}{2}s^2+\frac{1}{6}s^3)ds & =1+t+\frac{1}{2}t^2+\frac{1}{6}t^3+\frac{1}{24}t^4 \\ & \vdots & & \\ x_{n} & =1+\int_0^t\bigg(\sum_{k=0}^{n-1}\frac{s^k}{k!}\bigg)ds & =\sum_{k=0}^{n}\frac{t^{k}}{k!} \\ x_{n+1} & =1+\int_0^t\bigg(\sum_{k=0}^n\frac{s^k}{k!}\bigg)ds & =\sum_{k=0}^{n+1}\frac{t^{k}}{k!} \\ & \vdots & & \end{array} \)

Jak łatwo zauważyć \( \displaystyle n \)-ty wyraz ciągu Picarda jest identyczny z \( \displaystyle n \)-tą sumą częściową szeregu definiującego funkcję wykładniczą

\( \displaystyle \exp t=\sum_{k=0}^\infty \frac{t^n}{n!}=1+t+\frac{1}{2}t^2+\frac{1}{6}t^3+\frac{1}{24}t^4+\dots+\frac{1}{n!}t^n+\dots \)

Ciąg \( \displaystyle x_n \) zmierza więc do funkcji \( \displaystyle x(t)=\exp t \), która jest

jedynym rozwiązaniem danego problemu Cauchy'ego.

rycina

Leonhard Euler (1707-1783)

Prześledźmy także na tym samym przykładzie inną metodę przybliżonego rozwiązywania problemu Cauchy'ego, zwaną metodą łamanych Eulera.

Uwaga 13.15.

Przypomnijmy, że na początku wykładu, omawiając proces stygnięcia (ogrzewania) substancji, zastąpiliśmy iloraz różnicowy

\( \displaystyle \frac{x(t+h)-x(t)}{h}\approx-\lambda (x(t)-x^*), \ \ x(t_0)=x_0, \)

równaniem różniczkowym

\( \displaystyle \frac{dx}{dt}(t)\ = -\lambda (x(t)-x^*), \ \ x(t_0)=x_0. \)

Odwróćmy teraz kolejność postępowania i lewą stronę równania różniczkowego w postaci normalnej

\( \displaystyle \frac{dx}{dt}=f(t,x), \ \ x(t_0)=x_0 \)

zastąpmy ilorazem różnicowym

\( \displaystyle \frac{x(t+h)-x(t)}{h}\approx f(t,x). \)

Stąd \( \displaystyle x(t+h)\approx x(t)+f(t,x)h. \)

Podzielmy przedział od \( \displaystyle t_0 \) do \( \displaystyle t \) na \( \displaystyle n \) równych części punktami

\( \displaystyle t_k:=t_0+\frac{k}{n}(t-t_0), \ \ \ k=0,1,2,\dots, n. \)

Określmy (skończony) ciąg punktów \( \displaystyle x_k \) następująco:

\( \displaystyle \left\{\begin{align*} & x_0=x(t_0) \\ & x_1=x_0+f(t_0, x_0)h \\ & x_2=x_1+f(t_1, x_1)h \\ & x_3=x_2+f(t_2, x_2)h \\ & \vdots \\ & x_{k+1}=x_k+f(t_k, x_k)h \\ & \vdots \\ & x_n=x_{n-1}+f(t_{n-1}, x_{n-1})h, \end{align*} \right. \)

biorąc stały przyrost \( \displaystyle h=\frac{t}{n} \):

\( \displaystyle h=t_1-t_0=t_2-t_1=t_3-t_2=\dots=t_{k+1}-t_k=\dots=t_n-t_{n-1}. \)

Wówczas \( \displaystyle x_k \) stanowi przybliżoną wartość rozwiązania równania w chwili \( \displaystyle t_k \), tj. \( \displaystyle x_k\approx x(t_k) \). Im gęściej podzielimy przedział od \( \displaystyle t_0 \) do \( \displaystyle t \) za pomocą punktów \( \displaystyle t_k \) (tzn. gdy \( \displaystyle n \) jest dużą liczbą), tym przybliżenie to jest lepsze. Łamaną, łączącą punkty \( \displaystyle (t_k, x_k) \) nazywamy łamaną Eulera. Stanowi ona przybliżenie wykresu \( \displaystyle t\mapsto x(t) \) rozwiązania danego

problemu Cauchy'ego w przedziale od \( \displaystyle t_0 \) do \( \displaystyle t \).

Przykład 13.16.

Zastosujmy opisany algorytm do znalezienia przybliżonej wartości rozwiązania problemu Cauchy'ego:

\( \displaystyle \left\{\begin{align*} & x'(t)\ = x(t) \\ & x(0)=1,\end{align*} \right. \)

który rozwiązaliśmy już metodą kolejnych przybliżeń Picarda. Określamy kolejne węzły łamanej Eulera:

\( \displaystyle \begin{align*} & x_0=x(t_0)=1 \\ & x_1=x_0+f(t_0, x_0)h=1+h \\ & x_2=x_1+f(t_1, x_1)h=1+h+(1+h)h=(1+h)^2 \\ & x_3=x_2+f(t_2, x_2)h=(1+h)^2+(1+h)^2 h=(1+h)^3 \\ & \vdots \\ & x_{k+1}=x_k+f(t_k, x_k)h=(1+h)^k+(1+h)^k h=(1+h)^{k+1} \\ & \vdots \\ & x_n=x_{n-1}+f(t_{n-1}, x_{n-1})h=(1+h)^n \end{align*} \)

Biorąc pod uwagę, że \( \displaystyle h=\frac{t}{n} \), otrzymujemy

\( \displaystyle x_n=\big(1+\frac{t}{n}\big)^n. \)

Stąd \( \displaystyle x_n (t)\approx \exp t \), gdyż ciąg \( \displaystyle \big(1+\frac{t}{n}\big)^n \) zmierza do \( \displaystyle \exp t \), gdy \( \displaystyle n\to\infty \).

Uwaga 13.17.

Metody przybliżone rozwiązywania równań różniczkowych są ważnym narzędziem ze względu na fakt, że wielu równań (co można wykazać) nie da się rozwiązać za pomocą metod dokładnych, w tym sensie, że nie istnieje algorytm o skończonej liczbie kroków,

którego wynikiem byłoby dokładne rozwiązanie równania.

Można na przykład wykazać, że nie da się wyrazić za pomocą skończonej liczby operacji na funkcjach elementarnych całek z funkcji

\( \displaystyle \exp(-x^2), \ \ \ \frac{\sin x}{x}, \ \ \ \frac{1}{\ln x}. \)

i wielu innych. Funkcje te pojawiają się w wielu ważnych zagadnieniach nauki, np. funkcja dana za pomocą całki oznaczonej

\( \displaystyle \Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^x \exp(-\frac{1}{2}t^2)dt \)

jest dystrybuantą rozkładu normalnego, jednego z najważniejszych rozkładów prawdopodobieństwa, który służy do modelowania wielu zjawisk w biologii, ekonomii i in.

Wracając do teorii równań różniczkowych, można na przykład wykazać, że nie da się elementarnie rozwiązać równania

\( \displaystyle x'=x^2-t \)

(przykład tego prostego równania podaje W.I.Arnold, Równania różniczkowe zwyczajne, Państwowe Wydawnictwo Naukowe, Warszawa 1975, s. 40). Zauważmy jednak, że funkcja \( \displaystyle f(t,x)=x^2 -t \) spełnia założenia twierdzenia Picarda w przedziałach \( \displaystyle -\infty < t < \infty \), \( \displaystyle -\infty < x < \infty \), a więc problem początkowy Cauchy'ego dla tego równania ma rozwiązanie i jest ono jedyne przy dowolnym warunku początkowym.

W kolejnym module dokonujemy przeglądu wybranych typów równań różniczkowych zwyczajnych, które można rozwiązać w sposób dokładny za pomocą algorytmu o skończonej liczbie etapów. Zwróćmy jednak uwagę, że nie istnieje jeden uniwersalny algorytm znajdowania rozwiązania równania różniczkowego (np. podobny do wzoru na pierwiastki trójmianu kwadratowego).

Pole wektorowe. Pole kierunków

Niezależnie od tego, czy równanie różniczkowe ma rozwiązanie, które można uzyskać za pomocą algorytmu o skończonej liczbie etapów, czy też nie, może zdarzyć się, że nie potrafimy znaleźć tego rozwiązania, bo po prostu nie znamy algorytmu, bądź nie zależy nam na znalezieniu dokładnego rozwiązania, gdy jest ono dla nas mniej interesujące niż na przykład asymptotyczne zachowanie rozwiązań.

Przykład 13.18.

Powróćmy do przykładu z początku wykładu. Równanie

\( \displaystyle x'=\lambda x(N-x) \)

pojawia się w modelu opisu rozwoju grupy organizmów przy założeniu, że pojemność ekosystemu jest ograniczona. Bez rozwiązywania równania możemy zauważyć, że dwie funkcje stałe \( \displaystyle x(t)=0 \) oraz \( \displaystyle x(t)=N \) spełniają to równanie. Ponadto, gdy \( \displaystyle x>N \), pochodna \( \displaystyle x' < 0 \), czyli funkcja \( \displaystyle t\mapsto x(t) \) maleje, a z kolei, gdy \( \displaystyle 0 < x < N \) mamy \( \displaystyle x'>0 \), czyli funkcja \( \displaystyle t\mapsto x(t) \) rośnie. Zwróćmy uwagę, że z tej prostej obserwacji wynika, że liczebność grupy organizmów rośnie (odpowiednio: maleje), gdy jest ich mniej (odpowiednio: więcej) niż wynosi pojemność ekosystemu. Zauważmy, że wyciągnęliśmy dokładnie ten sam wniosek, który w przykładzie 13.4. pojawił się po analizie wyznaczonego rozwiązania równania różniczkowego.

Pamiętamy, że interpretacją geometryczną pochodnej funkcji jednej zmiennej \( \displaystyle t\mapsto x(t) \) różniczkowalnej w punkcie \( \displaystyle t_0 \) jest współczynnik kierunkowy stycznej do wykresu tej funkcji w punkcie \( \displaystyle (t_0, x(t_0)) \). Odwróćmy teraz sytuację i mając dane równanie różniczkowe zwyczajne rzędu pierwszego w postaci normalnej

\( \displaystyle x'(t)=f(t,x(t)), \)

narysujmy wektory zaczepione w punktach \( \displaystyle (t,x) \) należących do dziedziny funkcji \( \displaystyle f \), które tworzą z osią rzędnych (tj. z osią zmiennej \( \displaystyle t \)) kąt, którego tangens jest równy \( \displaystyle f(t,x) \).

Otrzymamy w ten sposób obraz

\( \displaystyle \mathbb{R}^2 \supset \mathrm{dom}\, f\ni (t,x)\mapsto (t,x)+\big(1, f(t,x)\big)\in \mathbb{R}^2, \)

pola wektorowego

\( \displaystyle \mathbb{R}^2 \supset\mathrm{dom}\, f\ni (t,x)\mapsto \big(1, f(t,x)\big)\in \mathbb{R}^2, \)

którego przebieg jest ściśle związany z przebiegiem rozwiązań danego równania. Zgodnie z interpretacją pochodnej, wektor \( \displaystyle [1, f(t,x)] \) zaczepiony w punkcie \( \displaystyle (t_0, x_0) \) jest styczny w tym punkcie do wykresu funkcji \( \displaystyle t\mapsto x(t) \) będącej rozwiązaniem problemu początkowego Cauchy'ego

\( \displaystyle x'=f(x,t), \ \ x(t_0)=x_0. \)

Jeśli więc nawet nie potrafimy rozwiązać danego równania różniczkowego w postaci dokładnej, możemy (np. wspierając się programem do obliczeń symbolicznych Maple, Mathematica lub innym, który pozwala kreślić wykresy) narysować pole wektorowe związane z danym równaniem i na podstawie obrazu pola wektorowego określić w przybliżeniu przebieg rozwiązań równania różniczkowego.

wykres

Rysunek do przykładu 13.19.

Często zamiast szkicować wektory

\( \displaystyle \mathbb{R}^2 \supset\mathrm{dom}\, f\ni (t,x)\mapsto \big(1, f(t,x)\big)\in \mathbb{R}^2, \)

rezygnujemy z informacji o długości wektora i rysujemy na płaszczyźnie zmiennych \( \displaystyle (t,x) \) odcinki o takiej samej długości (np. jednostkowej), nachylone do osi zmiennej \( \displaystyle t \) pod kątem, którego tangens wynosi \( \displaystyle f(t,x) \). Tę reprezentację równania różniczkowego nazywamy polem kierunków równania różniczkowego.

Zauważmy, że jeśli w równaniu \( \displaystyle x'=f(t,x) \) funkcja \( \displaystyle (t,x)\mapsto f(t,x) \) nie zależy od zmiennej \( \displaystyle t \), pole kierunków zacieśnione do którejkolwiek prostej \( \displaystyle t=Const \) jest takie samo. Stąd w przypadku równań typu \( \displaystyle x'=f(x) \) do analizowania pola kierunków i przebiegu rozwiązań równania różniczkowego wystarczy prosta zmiennej \( \displaystyle x \).

Przykład 13.19.

Pole wektorowe związane z równaniem \( \displaystyle x'=2 \).

Przykład 13.20.

Pole wektorowe związane z równaniem \( \displaystyle x'=t \).

Zwróćmy uwagę, że rysując gęściej wektory pola kierunków związanego z danym równaniem, otrzymujemy lepsze wyobrażenie o przebiegu krzywych \( \displaystyle t\mapsto (t, x(t)) \), które stanowią rozwiązanie równania.

wykres

Przykład 13.21.

Pole wektorowe związane z równaniem \( \displaystyle x'=x-t \).

Podobnie jak poprzednio: im więcej wektorów pola, tym lepsze wyobrażenie o przebiegu rozwiązania równania różniczkowego.

Pole wektorowe związane z równaniem \( \displaystyle x'=x^2-t \).

Równania tego nie da się rozwiązać za pomocą algorytmu o skończonej liczbie etapów. Jednak, zgodnie z twierdzeniem Picarda, dla każdego punktu \( \displaystyle (t_0, x_0) \) na płaszczyźnie istnieje dokładnie jedno rozwiązanie problemu Cauchy'ego:

\( \displaystyle \left\{\begin{align*} x'=x^2-t \\ x(t_0)=x_0. \end{align*} \right. \)

Rysując pole kierunków, możemy wyobrazić sobie przebieg krzywych stanowiących rozwiązanie problemu Cauchy'ego dla poszczególnych punktów \( \displaystyle (t_0, x_0) \).

wykres

Rysunek do przykładu 13.22.

Przykład 13.23.

Pole wektorowe związane z równaniem \( \displaystyle x'=\ln |x| \).

Także tego równania nie potrafimy rozwiązać dokładnie za pomocą algorytmu o skończonej liczbie etapów.

Rysując pole kierunków, możemy jednak z łatwością wyobrazić sobie przebieg rozwiązań tego równania.

wykresy

Przegląd metod całkowania równań różniczkowych zwyczajnych

Ten wykład prezentuje metody rozwiązywania wybranych typów równań różniczkowych. Pokazujemy, jak otrzymać rozwiązanie ogólne dla równań rzędu pierwszego: równania o zmiennych rozdzielonych, równania jednorodnego, równania liniowego, równania Bernoullego i równania różniczkowego zupełnego. Z równań wyższych rzędów zajmujemy się tylko równaniem liniowym (jednorodnym i niejednorodnym) o stałych współczynnikach.

Uwaga 14.1.

Przez rozwiązanie równania rozumiemy w tym wykładzie zarówno podanie rozwiązania w postaci jawnej, to znaczy podanie wzoru na szukaną funkcję \( \displaystyle x(t), \) jak też podanie rozwiązania w postaci uwikłanej, czyli \( \displaystyle F(x,t)=C, \) gdzie \( \displaystyle C \) jest stałą dowolną. Aby zapewnić istnienie i jednoznaczność rozwiązań, zakładamy, że wszystkie występujące w naszym wykładzie funkcje są klasy \( \displaystyle {\cal C}^1 \) w pewnym przedziale \( \displaystyle \displaystyle [a,b]\subset \mathbb{R} \), względnie w kostce \( \displaystyle \displaystyle [a,b]\times[c,d]\subset \mathbb{R}^2. \) Na wykładzie pokazujemy tylko, jak dostać rozwiązanie ogólne równania, przykłady rozwiązań problemów Cauchy'ego zostawiamy na ćwiczenia.

Równanie różniczkowe o zmiennych rozdzielonych

Definicja 14.2.

Równanie różniczkowe

\( \displaystyle \dot{x}(t)=g(t)h(x) \)

czyli

\( \displaystyle \frac{dx}{dt}=g(t)h(x) \)

lub równoważnie

\( \displaystyle G(x)dx+H(t)dt=0 \)

nazywamy równaniem różniczkowym o zmiennych rozdzielonych (rrzr).

Równanie to rozwiązujemy, "rozdzielając zmienne", czyli grupując wyrażenia z \( \displaystyle x \) po jednej stronie, a wyrażenia z \( \displaystyle t \) po drugiej stronie znaku równości. Otrzymujemy:

\( \displaystyle \frac{dx}{h(x)}=g(t)dt, \)

skąd rozwiązanie ogólne równania (rrzr) dostajemy w postaci

\( \displaystyle \int\frac{dx}{h(x)}=\int g(t)dt +C, \)

gdzie przez zapis \( \displaystyle \displaystyle\int\frac{dx}{h(x)} \) i \( \displaystyle \displaystyle\int g(t)dt \) rozumiemy dowolną pierwotną z funkcji podcałkowej i gdzie \( \displaystyle C \) jest stałą dowolną.

Uwaga 14.3.

Postępując jak powyżej, mogliśmy "zgubić" pewne rozwiązania równania (rrzr). Dokładniej, skoro dzielimy (rrzr) przez \( \displaystyle h(x) \) stronami, to nasze rozwiązanie nie uwzględnia rozwiązań postaci

\( \displaystyle x(t)\equiv x_0, \)

gdzie \( \displaystyle x_0 \) jest takie, że \( \displaystyle h(x_0)=0. \) Te rozwiązania (o ile istnieją) musimy dołączyć do rozwiązania ogólnego równania (rrzr).

Z problemem "gubienia" pewnych rozwiązań spotkamy się na tym wykładzie jeszcze niejednokrotnie. Dla zaznaczenia, że musimy osobno rozważać pewne rozwiązania, będziemy pisać obok równania na przykład:

\( \displaystyle [h(x)=0?], \)

zaznaczając w ten sposób, że należy rozważyć, czy rozwiązania postaci \( \displaystyle x(t) \equiv x_0 \) dla \( \displaystyle h(x_0)=0 \) są rozwiązaniami naszego równania.

A zatem rozwiązania (rrzr) są postaci

\( \displaystyle \int\frac{dx}{h(x)}=\int g(t)dt +C \)

lub

\( \displaystyle x(t)\equiv x_0 \ \) dla \( \displaystyle h(x_0)=0. \)

Przykład 14.4.

Rozwiązać równanie

\( \displaystyle \dot{x}(t)=-2tx \)

Dzieląc przez \( \displaystyle x \), dostajemy

\( \displaystyle \frac{dx}{x}=-2tdt, \quad [x=0?]. \)

Odtąd zakładamy, że \( \displaystyle x\neq 0. \) Całkując, mamy

\( \displaystyle \ln|x|=-t^2+\tilde{C}, \)

gdzie stałą \( \displaystyle \displaystyle\tilde{C} \) zapisujemy jako \( \displaystyle \displaystyle\ln|C| \) dla pewnej stałej \( \displaystyle C\neq 0, \) a zatem

\( \displaystyle \ln|x|=-t^2+\ln|C|, \)

czyli

\( \displaystyle |x|=|C|e^{-t^2}, \)

a więc

\( \displaystyle x=Ce^{-t^2}, \ C\neq 0. \)

Oprócz tego, jak od razu widać, rozwiązaniem jest funkcja

\( \displaystyle x(t)\equiv 0. \)

Reasumując, możemy napisać, że wszystkie rozwiązania naszego równania są postaci

\( \displaystyle x(t)=Ce^{-t^2}, \)

gdzie \( \displaystyle C \) jest stałą dowolną.

Przykład 14.5.

Rozwiązać równanie

\( \displaystyle \dot{x}(t)=x-1 \)

Dzieląc przez \( \displaystyle x-1 \), dostajemy

\( \displaystyle \frac{dx}{x-1}=dt, \quad [x-1=0?]. \)

Całkując, mamy

\( \displaystyle \ln|x-1|=t+\ln|C|,\ C\neq 0, \)

czyli

\( \displaystyle |x-1|=|C|e^{t}, \)

a więc

\( \displaystyle x=Ce^{t}+1, \ C\neq 0. \)

Dodatkowo

\( \displaystyle x(t)\equiv 1 \)

także jest rozwiązaniem naszego równania.

A zatem wszystkie rozwiązania naszego równania są postaci

\( \displaystyle x(t)=Ce^{t}+1, \)

gdzie \( \displaystyle C \) jest stałą dowolną.

Równanie różniczkowe jednorodne

Definicja 14.6.

Funkcja \( \displaystyle f:\mathbb{R}^2\to \mathbb{R} \) jest funkcją jednorodną stopnia \( \displaystyle m \) (gdzie \( \displaystyle m\in \mathbb{N} \)), jeśli dla każdego \( \displaystyle \displaystyle\lambda\in\mathbb{R} \) i wszystkich \( \displaystyle \displaystyle (t,x) \) z dziedziny funkcji, \( \displaystyle \displaystyle (\lambda t,\lambda x) \) też należy do dziedziny \( \displaystyle f \) oraz zachodzi

\( \displaystyle f(\lambda t,\lambda x)=\lambda^mf(t,x). \)

Przykład 14.7.

(1) Funkcja \( \displaystyle f(t,x)=x^2+xt+t^2 \) jest funkcją jednorodną stopnia \( \displaystyle 2. \)

(2) Funkcja \( \displaystyle \displaystyle f(t,x)=\frac{x}{t} \) jest funkcją jednorodną stopnia \( \displaystyle 0. \)

(3) Funkcja \( \displaystyle f(t,x)=x+t^3 \) nie jest funkcją jednorodną.

Definicja 14.8.

Równanie różniczkowe

\( \displaystyle F(t,x)dt+G(t,x)dx=0, \)

gdzie \( \displaystyle F \) i \( \displaystyle G \) są funkcjami jednorodnymi tego samego stopnia \( \displaystyle m \), nazywamy równaniem różniczkowym jednorodnym (rrj).

Uwaga 14.9.

Równanie różniczkowe jednorodne możemy zawsze sprowadzić do postaci (rrj'):

\( \displaystyle \frac{dx}{dt}=f(\frac{x}{t}), \quad [G(t,x)=0?]. \)

Faktycznie, dzieląc (rrj) przez \( \displaystyle G(t,x) \), a następnie dzieląc licznik i mianownik \( \displaystyle \displaystyle{\frac{F(t,x)}{G(t,x)}} \) przez \( \displaystyle t^m \), dostajemy postać (rrj').

Równanie (rrj') rozwiązujemy, podstawiając

\( \displaystyle x=zt. \)

Mamy zatem \( \displaystyle dx=tdz +zdt,\displaystyle \displaystyle\frac{x}{t}=z, \) a więc podstawiając do (rrj'), dostajemy równanie różniczkowe o zmiennych rozdzielonych

\( \displaystyle tdz+(z-f(z))dt=0. \)

To równanie rozwiązujemy znaną już metodą i dostajemy:

\( \displaystyle \int\frac{dz}{z-f(z)}=\int\frac{dt}{t} +C, \quad [z-f(z)=0?]. \)

Przykład 14.10.

Rozwiązać równanie

\( \displaystyle tdx-(t+x)dt=0. \)

To jest równanie jednorodne. (Funkcje są jednorodne stopnia \( \displaystyle 1 \)). Dzielimy stronami przez \( \displaystyle t \) i dostajemy:

\( \displaystyle \frac{dx}{dt}=1+\frac{x}{t}. \)

Podstawiając \( \displaystyle x=zt \), otrzymujemy równanie:

\( \displaystyle tdz=dt, \)

zatem

\( \displaystyle dz=\frac{dt}{t}. \)

Rozwiązaniem tego równania jest

\( \displaystyle z=\ln|t|+C, \)

gdzie \( \displaystyle C \) jest dowolną stałą. Skoro \( \displaystyle x=zt \), to

\( \displaystyle x=t\ln|t|+Ct. \)

Równanie różniczkowe liniowe rzędu pierwszego

Definicja 14.11.

Równanie różniczkowe

\( \displaystyle \dot{x}(t)+p(t)x=q(t) \)

nazywamy równaniem różniczkowym liniowym rzędu pierwszego (rrl-1).

Jeśli funkcja \( \displaystyle q(t)\equiv 0 \), to równanie

\( \displaystyle \dot{x}(t)+p(t)x=0 \)

nazywamy równaniem różniczkowym liniowym jednorodnym rzędu pierwszego (rrlj-1).

Jeśli funkcja \( \displaystyle q(t) \) nie jest tożsamościowo równa zero, to równanie

\( \displaystyle \dot{x}(t)+p(t)x=q(t) \)

nazywamy równaniem różniczkowym liniowym niejednorodnym rzędu pierwszego (rrlnj-1).

Najpierw pokażemy, jak znaleźć rozwiązania równania różniczkowego liniowego jednorodnego (rrlj-1)

\( \displaystyle \dot{x}(t)+p(t)x=0. \)

Widać, że jest to równanie o zmiennych rozdzielonych,

\( \displaystyle \frac{dx}{dt}=-p(t)x, \)

czyli

\( \displaystyle \frac{dx}{x}=-p(t)dt, \quad [x=0?]. \)

Całkując, dostajemy:

\( \displaystyle x(t)=\displaystyle Ce^{- \int p(t)dt}, \)

gdzie \( \displaystyle C \) jest stałą dowolną. (Uwzględniliśmy już, że \( \displaystyle x(t)\equiv 0 \) jest rozwiązaniem naszego równania (rrlj-1)).

Przypuśćmy teraz, że mamy rozwiązać równanie różniczkowe liniowe rzędu pierwszego, niejednorodne,

\( \displaystyle \dot{x}(t)+p(t)x=q(t). \)

Zachodzi następujące stwierdzenie (dowód pomijamy).

Stwierdzenie 14.12.

Rozwiązanie ogólne równania różniczkowego liniowego niejednorodnego rzędu pierwszego jest sumą rozwiązania ogólnego odpowiadającego równania różniczkowego jednorodnego i szczególnego rozwiązania równania (rrlnj-1).

A zatem rozwiązujemy równanie (rrlnj-1), znajdując najpierw rozwiązanie odpowiadającego mu równania różniczkowego liniowego jednorodnego,

\( \displaystyle \dot{x}(t)+p(t)x=0, \)

czyli funkcję

\( \displaystyle x_o(t)=\displaystyle Ce^{-\int p(t)dt}. \)

Następnie musimy znaleźć rozwiązanie ogólne równania niejednorodnego. Zgodnie ze
stwierdzeniem 14.12, wystarczy znaleźć szczególne rozwiązanie (rrlnj-1). Może nam się udać takie rozwiązanie szczególne zgadnąć (patrz przykład 14.15.) i wtedy wystarczy je dodać do rozwiązania ogólnego równania jednorodnego. Istnieją także metody szukania rozwiązań szczególnych, tu poznamy jedną z nich. Jest to tak zwana metoda uzmienniania stałej. Aby zastosować tę metodę, załóżmy, że rozwiązanie ogólne (rrlnj-1) można zapisać w postaci

\( \displaystyle x(t)=\displaystyle C(t)e^{-\int p(t)dt}, \)

gdzie \( \displaystyle C(t) \) jest pewną funkcją klasy \( \displaystyle {\cal C}^1, \) którą musimy znaleźć. By wyznaczyć \( \displaystyle C(t) \), podstawmy nasze \( \displaystyle x(t)=\displaystyle C(t)e^{-\int p(t)dt} \) do równania \( \displaystyle \displaystyle\dot{x}(t)+p(t)x=q(t). \) Dostaniemy:

\( \displaystyle \dot{x}(t)+p(t)x=\displaystyle \dot{C}(t)e^{-\int p(t)dt}-C(t)p(t)e^{-\int p(t)dt}+p(t)C(t)e^{-\int p(t)dt}=q(t), \)

czyli po uproszczeniu

\( \displaystyle \dot{C}(t) \displaystyle e^{-\int p(t)dt}=q(t). \)

Stąd

\( \displaystyle \dot{C}(t)=\displaystyle e^{\int p(t)dt}q(t), \)

czyli

\( \displaystyle C(t)=\displaystyle \int e^{\int p(t)dt}q(t)dt +C, \)

gdzie, jak wcześniej, \( \displaystyle \int e^{\int p(t)dt}q(t)dt \) oznacza dowolną pierwotną z funkcji podcałkowej, a \( \displaystyle C \) jest stałą.

Podstawiając otrzymane \( \displaystyle C(t) \) do wzoru na rozwiązanie, dostajemy:

\( \displaystyle x(t)=\displaystyle e^{-\int p(t)dt}( \int e^{\int p(t)dt}q(t)dt +C), \)

czyli, zapisując zgodnie ze stwierdzeniem 14.12, dostajemy następujące stwierdzenie.

Stwierdzenie 14.13.

\( \displaystyle x(t)= \displaystyle Ce^{-\int p(t)dt}+e^{-\int p(t)dt}( \int e^{\int p(t)dt}q(t)dt ) \)

jest rozwiązaniem ogólnym (rrlnj-1).

Łatwo sprawdzić, że \( \displaystyle e^{-\int p(t)dt}\displaystyle( \int e^{\int p(t)dt}q(t)dt ) \) jest szczególnym rozwiązaniem (rrlnj-1).

Przykład 14.14.

Rozwiązać równanie liniowe niejednorodne:

\( \displaystyle \dot{x}+2x=e^{3t}. \)

Zgodnie z wyżej wprowadzonymi oznaczeniami mamy tu \( \displaystyle p(t)=2 \) oraz \( \displaystyle q(t)=e^{3t}. \) Rozwiązując równanie jednorodne, dostajemy

\( \displaystyle x_o(t)=\displaystyle Ce^{-\int2dt}=Ce^{-2t}. \)

Stosując metodę uzmienniania stałej (lub od razu wstawiając do wzoru na rozwiązanie ogólne), mamy:

\( \displaystyle x(t)=\displaystyle e^{-2t}( C+ \int e^{3t}e^{\int 2dt} dt )= e^{-2t}( C+ \frac{1}{5}e^{5t} )=Ce^{-2t}+\frac{1}{5}e^{3t} \)

jest rozwiązaniem ogólnym naszego równania niejednorodnego.

Przykład 14.15.

Znaleźć rozwiązanie równania

\( \displaystyle \dot{x}-x=e^{2t}. \)

Równanie jednorodne

\( \displaystyle \dot{x}-x=0 \)

ma rozwiązanie ogólne \( \displaystyle x_o(t)=Ce^t. \) Rozwiązanie szczególne naszego równania niejednorodnego łatwo zgadnąć, otóż jest to \( \displaystyle x(t)=e^{2t}. \) Tak więc rozwiązanie ogólne równania \( \displaystyle \displaystyle\dot{x}-x=e^{2t} \), to zgodnie ze stwierdzeniem 14.12

\( \displaystyle x(t)=Ce^t+e^{2t}. \)

Równanie Bernoullego

rycina

Jakob Bernoulli (1654-1705)

Definicja 14.16.

Równanie różniczkowe

\( \displaystyle \dot{x}(t)+p(t)x=q(t)x^r, \quad \) gdzie \( \displaystyle r\in\mathbb{R}\setminus\{0,1\} \)

nazywamy równaniem różniczkowym Bernoullego (rrB).

Zauważmy, że dla \( \displaystyle r=0 \) lub \( \displaystyle r=1 \) powyższe równanie staje się równaniem różniczkowym liniowym (jednorodnym lub nie).

Równanie różniczkowe Bernoullego rozwiązujemy za pomocą podstawienia

\( \displaystyle x^{1-r}=z \)

i sprowadzenia równania do równania liniowego. Faktycznie, skoro \( \displaystyle z=x^{1-r} \), to \( \displaystyle \displaystyle\dot{z}=(1-r)x^{-r}\dot{x}. \) Mnożąc (rrB) obustronnie przez \( \displaystyle \displaystyle (1-r)x^{-r} \), dostajemy równanie

\( \displaystyle (1-r)x^{-r}\dot{x}+p(t)(1-r)x^{1-r}=q(t)(1-r), \)

i podstawiając, mamy:

\( \displaystyle \dot{z}+(1-r)p(t)z=(1-r)q(t), \)

czyli równanie liniowe rzędu pierwszego z niewiadomą funkcją \( \displaystyle z. \) Takie równanie umiemy już rozwiązać.

Zauważmy też, że jeśli \( \displaystyle 1-r < 0 \), czyli \( \displaystyle r>1 \), to zawsze "gubimy" rozwiązanie \( \displaystyle x\equiv 0 \).

Przykład 14.17.

Rozwiązać równanie

\( \displaystyle 3\dot{x}-x=\frac{t}{x^2}. \)

Zapiszmy to równanie jako

\( \displaystyle \dot{x}-\frac{1}{3}x=\frac{t}{3x^2}. \)

Zatem \( \displaystyle p(t)=-\frac{1}{3}, \ q(t)=\frac{t}{3}, \ r=-2. \)

Nasze równanie, po pomnożeniu obustronnie przez \( \displaystyle 3x^{2} \), zamienia się w równanie

\( \displaystyle 3x^2\dot{x}-x=t, \)

czyli po podstawieniu

\( \displaystyle z=x^{1-r}=x^3, \)

dostajemy równanie liniowe niejednorodne

\( \displaystyle \dot{z}-z=t. \)

Zgodnie ze wzorem na rozwiązanie ogólne równania liniowego podanym w stwierdzeniem 14.13 mamy

\( \displaystyle z(t)=\displaystyle e^{-\int(-1)dt}\displaystyle( C+\int te^{\int (-1) dt} dt), \)

czyli

\( \displaystyle z(t)=Ce^t-(t+1), \)

a zatem rozwiązanie naszego równania Bernoullego to

\( \displaystyle (x(t))^3=Ce^t-(t+1). \)

Równanie różniczkowe zupełne

Definicja 14.18.

Załóżmy, że mamy dane dwie funkcje \( \displaystyle M, N :D\to \mathbb{R}, \) klasy \( \displaystyle {\cal C}^1, \) gdzie \( \displaystyle D \) jest obszarem jednospójnym w \( \displaystyle \displaystyle\mathbb{R}^2. \) Równanie różniczkowe

\( \displaystyle M(t,x)dt+N(t,x)dx=0 \)

nazywamy równaniem różniczkowym zupełnym (rrz), jeśli w \( \displaystyle D \) zachodzi

\( \displaystyle \frac{\partial M}{\partial x}=\frac{\partial N}{\partial t}. \)

Często definiuje się też równanie różniczkowe zupełne jako takie równanie, że pole wektorowe \( \displaystyle F(t,x)=(M(t,x),N(t,x)) \) jest polem potencjalnym. Jak wiemy, w obszarach jednospójnych te warunki są równoważne (patrz uwaga 12.17. stwierdzeniem 12.19.).

Metoda rozwiązywania równań różniczkowych zupełnych jest dokładnie taka, jak metoda szukania potencjału dla pola potencjalnego (patrz ćwiczenie 12.4.). Aby rozwiązać (rrz), wystarczy znaleźć taką funkcję \( \displaystyle \displaystyle\varrho(t,x) \), by

\( \displaystyle M(t,x)=\frac{\partial \varrho}{\partial t}(t,x) \)

i

\( \displaystyle N(t,x)=\frac{\partial \varrho}{\partial x}(t,x). \)

Jeśli znajdziemy takie \( \displaystyle \displaystyle\varrho(t,x) \), to rozwiązaniem ogólnym (rrz) będzie

\( \displaystyle \varrho(t,x)=C, \)

ze stałą dowolną \( \displaystyle C. \)

(Dowód powyższego faktu pomijamy, wymaga bowiem wprowadzenia pojęcia różniczki zupełnej).

Aby znaleźć \( \displaystyle \displaystyle\varrho(t,x), \) całkujemy funkcję \( \displaystyle M(t,x) \) po zmiennej \( \displaystyle t. \) Dostajemy wtedy

\( \displaystyle \varrho(t,x)=\int M(t,x)dt + g(x), \)

gdzie \( \displaystyle g \) jest pewną, na razie nieznaną, funkcją klasy \( \displaystyle {\cal C}^1. \) Aby wyznaczyć \( \displaystyle g \), liczymy pochodną po \( \displaystyle x \) z obu stron powyższego równania. Dostajemy:

\( \displaystyle N(x,t)=\frac{\partial (\int M(t,x)dt)}{\partial x}+g'(x). \)

Porównując te strony tego równania, wyznaczamy \( \displaystyle g'(x), \) a całkując, dostajemy \( \displaystyle g(x), \) a zatem także \( \displaystyle \displaystyle\varrho(x,y). \)

Przykład 14.19.

Rozwiązać równanie różniczkowe

\( \displaystyle (t+x)dt+(t-x)dx=0. \)

Mamy \( \displaystyle M(t,x)=t+x, \ N(t,x)=t-x. \) Zachodzi

\( \displaystyle \frac{\partial M}{\partial x}=1=\frac{\partial N}{\partial t}, \)

a więc równanie jest zupełne. Wyznaczmy \( \displaystyle \displaystyle\varrho(x,y). \) Mamy

\( \displaystyle \varrho(x,y)=\frac{1}{2}t^2+tx+g(x). \)

Licząc pochodną po \( \displaystyle x \) i porównując z \( \displaystyle N \), dostaniemy:

\( \displaystyle t-x=N(t,x)=\frac{\partial \bigg(\frac{1}{2}t^2+tx+g(x)\bigg)}{\partial x}=t+g'(x), \)

skąd

\( \displaystyle g'(x)=-x, \)

a więc

\( \displaystyle g(x)=-\frac{1}{2}x^2+C, \)

czyli

\( \displaystyle \varrho(t,x)=\frac{1}{2}t^2-\frac{1}{2}x^2+C. \)

Równanie różniczkowe liniowe rzędu \( \displaystyle n \) o stałych współczynnikach

Wszystkie rozpatrywane do tej pory równania były równaniami różniczkowymi rzędu pierwszego. Zajmiemy się teraz pewnym szczególnym przypadkiem równań wyższego rzędu, czyli równaniami liniowymi rzędu \( \displaystyle n \) o stałych współczynnikach, dla których to równań możemy opisać metodę prowadzącą do znalezienia rozwiązań. Należy bowiem zdawać sobie sprawę, że nie ma metod umożliwiających dokładne rozwiązanie dowolnego równania różniczkowego. W praktyce często zadowalamy się rozwiązaniami przybliżonymi. Szukaniem rozwiązań przybliżonych zajmuje się dział matematyki zwany metodami numerycznymi.

Definicja 14.20.

Równanie różniczkowe

\( \displaystyle x^{(n)}+a_1x^{(n-1)}+\ldots+a_{n-1}x'+a_{n}x=0, \)

gdzie \( \displaystyle a_1,\ldots,a_n \) są ustalonymi liczbami rzeczywistymi nazywamy równaniem różniczkowym liniowym jednorodnym, rzędu \( \displaystyle n \) o stałych współczynnikach (rrlj-n).

Równanie różniczkowe

\( \displaystyle x^{(n)}+a_1x^{(n-1)}+\ldots+a_{n-1}x'+a_{n}x=f(t), \)

gdzie \( \displaystyle a_1,\ldots,a_n \) są ustalonymi liczbami rzeczywistymi, a funkcja \( \displaystyle f \) nie jest tożsamościowo równa zero, nazywamy równaniem różniczkowym liniowym niejednorodnym, rzędu \( \displaystyle n \) o stałych współczynnikach (rrlnj-n).

Aby znaleźć rozwiązanie równania liniowego jednorodnego (rrlj-n), oprzemy się na poniższym stwierdzeniu (podamy go bez dowodu).

Stwierdzenie 14.21.

Rozwiązanie ogólne równania różniczkowego liniowego jednorodnego rzędu \( \displaystyle n \) o stałych współczynnikach jest kombinacja liniową

\( \displaystyle x=C_1x_1+\ldots+C_nx_n \)

\( \displaystyle n \) rozwiązań szczególnych tego równania ze stałymi dowolnymi \( \displaystyle C_1,\ldots,C_n. \)

Musimy zatem mieć \( \displaystyle n \) liniowo niezależnych rozwiązań równania (rrlj-n), gdzie przez liniową niezależność funkcji rozumiemy fakt, że żadna z tych funkcji nie jest równa kombinacji liniowej pozostałych. Aby znaleźć te rozwiązania, przypuśćmy, że funkcja

\( \displaystyle x(t)=e^{\lambda t} \)

jest szczególnym rozwiązaniem naszego równania. Wstawiając tę funkcję do równania, dostajemy:

\( \displaystyle \lambda^n e^{\lambda t}+a_1\lambda^{n-1}e^{\lambda t}+a_2\lambda^{n-2}e^{\lambda t}+\ldots+a_{n-1}\lambda e^{\lambda t}=0, \)

czyli

\( \displaystyle \lambda^n +a_1\lambda^{n-1}+a_2\lambda^{n-2}+\ldots+a_{n-1}\lambda=0. \)

Definicja 14.22.

Równanie

\( \displaystyle \lambda^n +a_1\lambda^{n-1}+a_2\lambda^{n-2}+\ldots+a_{n-1}\lambda=0. \) nazywamy równaniem charakterystycznym dla równania (rrlj-n).

Aby znaleźć rozwiązania szczególne \( \displaystyle x_1,\ldots,x_n \) równania różniczkowego (rrlj-n), musimy najpierw rozwiązać równanie charakterystyczne dla tego równania. Rozwiązując, należy znaleźć wszystkie \( \displaystyle n \) pierwiastków tego równania \( \displaystyle \displaystyle\lambda_1,\ldots,\lambda_n \) (mogą być zespolone!). To jak wyglądają rozwiązania \( \displaystyle x_1,\ldots,x_n \), zależy od postaci \( \displaystyle \displaystyle\lambda_1,\ldots,\lambda_n, \) czyli od tego czy są rzeczywiste, czy zespolone, czy pojedyncze, czy wielokrotne.

Przypadek I. Wszystkie pierwiastki równania charakterystycznego są różne.

Przypadek I.A. \( \displaystyle \displaystyle\lambda_1,\ldots,\lambda_n \) są liczbami rzeczywistymi. Wówczas mamy rozwiązanie szczególne

\( \displaystyle x_1(t)=e^{\lambda_1t},\ldots,x_n(t)=e^{\lambda_nt} \)

i rozwiązanie ogólne naszego (rrlj-n) ma postać

\( \displaystyle x(t)=C_1e^{\lambda_1t}+\ldots+C_ne^{\lambda_nt}. \)

Przypadek I.B. Wśród \( \displaystyle \displaystyle\lambda_1,\ldots,\lambda_n \) są liczby zespolone. Przyjmijmy, że \( \displaystyle \displaystyle\lambda_1=a+ib, b\neq 0. \) Zauważmy, że skoro \( \displaystyle a+ib \) jest pierwiastkiem równania charakterystycznego, to jest nim także \( \displaystyle a-ib \) (bo \( \displaystyle a_1,\ldots,a_n \) są rzeczywiste; dla naszego równania pierwiastków zespolonych jest zatem zawsze parzysta ilość). Niech \( \displaystyle \displaystyle\lambda_2=a-ib. \) Wówczas dostajemy dwa liniowo niezależne rozwiązania szczególne postaci

\( \displaystyle x_1(t)=e^{at}\cos bt, \ x_2(t)=e^{at}\sin bt. \)

Niech zatem \( \displaystyle \displaystyle\lambda_1=a_1+ib_1,\ldots,\lambda_{2s}=a_{s}-ib_{s} \) będą pierwiastkami zespolonymi, a \( \displaystyle \displaystyle\lambda_{2s+1},\ldots,\lambda_n \) rzeczywistymi (może nie być żadnego). Wtedy rozwiązanie ogólne naszego (rrlj-n) ma postać

\( \displaystyle \begin{align*} x(t) & = e^{a_1t}(C_1\cos b_1t+C_2\sin b_1t)+e^{a_2t}(C_3\cos b_2t+C_4\sin b_2t)+\ldots \\ & +e^{a_1{2s}t}(C_{2s-1}\cos b_{s}t+C_{2s}\sin b_st)+ +C_{2s+1}e^{\lambda_{2s+1}t}+\ldots+C_ne^{\lambda_nt}. \end{align*} \)

Przypadek II. Wśród pierwiastków równania charakterystycznego są pierwiastki wielokrotne.

Przypadek II.A Niech pierwiastek \( \displaystyle \displaystyle\lambda_1 \) będzie \( \displaystyle k \)-krotnym rzeczywistym pierwiastkiem równania charakterystycznego. Odpowiada mu wtedy \( \displaystyle k \) liniowo niezależnych rozwiązań szczególnych:

\( \displaystyle x_1(t)=e^{\lambda_1t},\ x_2(t)=te^{\lambda_1t},\ldots,x_k(t)=t^{k-1}e^{\lambda_1t}. \)

Przypadek II.B Niech pierwiastek \( \displaystyle \displaystyle\lambda_1=a+ib \) będzie \( \displaystyle k \)-krotnym pierwiastkiem zespolonym równania charakterystycznego. Wtedy \( \displaystyle a-ib=\lambda_2 \) także jest \( \displaystyle k \)-krotnym pierwiastkiem równania charakterystycznego i odpowiada im \( \displaystyle 2k \) liniowo niezależnych rozwiązań szczególnych:

\( \displaystyle \begin{array}{lll} x_1(t) & = & \displaystyle e^{at}\cos bt,\ x_2(t)=e^{at}\sin bt, \ x_3(t)=te^{at}\cos bt,\ x_4(t)=te^{at}\sin bt,\ldots, \\ x_{2k-1}(t) & = & \displaystyle t^{k-1}e^{at}\cos bt,\ x_{2k}(t)=t^{k-1}e^{at}\sin bt. \end{array} \)

Zauważmy, że za każdym razem dostajemy w sumie \( \displaystyle n \) rozwiązań \( \displaystyle x_1,\ldots,x_n \) - bo suma ilości wszystkich pierwiastków równania stopnia \( \displaystyle n, \) liczonych wraz z krotnościami wynosi \( \displaystyle n. \) Rozwiązanie ogólne (rrlj-n) znajdujemy zatem, biorąc kombinację liniową

\( \displaystyle x=C_1x_1+\ldots+C_nx_n. \)

Przykład 14.23.

Rozwiązać równanie:

\( \displaystyle x^{(2)}-5x'+6x=0 \)

Wypisujemy równanie charakterystyczne:

\( \displaystyle \lambda^2-5\lambda+6=0. \)

Równanie to ma dwa różne rozwiązania rzeczywiste

\( \displaystyle \lambda_1=2,\ \lambda_2=3. \)

Rozwiązania szczególne to

\( \displaystyle x_1(t)=e^{2t},\ x_2(t)=e^{3t}, \)

zatem rozwiązanie ogólne to

\( \displaystyle x(t)=C_1e^{2t}+C_2e^{3t}. \)

Przykład 14.24.

Rozwiązać równanie:

\( \displaystyle x^{(2)}-4x'+4x=0 \)

Wypisujemy równanie charakterystyczne:

\( \displaystyle \lambda^2-4\lambda+4=0. \)

Równanie to ma jeden pierwiastek podwójny (\( \displaystyle k=2 \))

\( \displaystyle \lambda_1=\lambda_2=2. \)

Zatem rozwiązania szczególne to

\( \displaystyle x_1(t)=e^{2t},\ x_2(t)=te^{2t}, \)

a rozwiązanie ogólne to

\( \displaystyle x(t)=C_1e^{2t}+C_2te^{2t}. \)

Przykład 14.25.

Rozwiązać równanie:

\( \displaystyle x^{(2)}+x=0 \)

Wypisujemy równanie charakterystyczne:

\( \displaystyle \lambda^2+\lambda=0. \)

Równanie to ma (dwa sprzężone) pierwiastki zespolone

\( \displaystyle \lambda_1=i, \ \lambda_2=-i, \) tak więc tu \( \displaystyle a=0, \ b=1. \)

Zatem rozwiązania szczególne to

\( \displaystyle x_1(t)=\cos t,\ x_2(t)=\sin t, \)

a rozwiązanie ogólne to

\( \displaystyle x(t)=C_1\cos t+C_2\sin t. \)

Powiemy teraz, jak znaleźć rozwiązania niektórych równań różniczkowych liniowych niejednorodnych rzędu \( \displaystyle n, \) (rrlnj-m). Ograniczymy się do tych sytuacji, kiedy można zastosować tak zwaną metodę przewidywań.

Bez dowodu podamy następujące stwierdzenie:

Stwierdzenie 14.26.

Rozwiązanie ogólne równania różniczkowego niejednorodnego rzędu \( \displaystyle n \) o stałych współczynnikach:

\( \displaystyle x^{(n)}+a_1x^{(n-1)}+\ldots+a_{n-1}x'+a_{n}x=f(t) \)

jest sumą rozwiązania ogólnego równania jednorodnego

\( \displaystyle x^{(n)}+a_1x^{(n-1)}+\ldots+a_{n-1}x'+a_{n}x=0 \)

i rozwiązania szczególnego równania niejednorodnego.

To właśnie do znalezienia tego szczególnego rozwiązania będziemy stosować metodę przewidywań. Okazuje się, że dla pewnych funkcji \( \displaystyle f(t) \) można przewidzieć postać rozwiązania szczególnego.

Przypadek 1. Funkcja

\( \displaystyle f(t)=e^{at}P(t), \)

gdzie \( \displaystyle P(t) \) jest wielomianem zmiennej \( \displaystyle t \) oraz liczba \( \displaystyle a \) nie jest pierwiastkiem równania charakterystycznego.

Wtedy rozwiązanie szczególne jest postaci

\( \displaystyle x_1(t)=Q(t)e^{at}, \)

gdzie \( \displaystyle Q \) (którego współczynniki musimy wyznaczyć) jest wielomianem tego samego stopnia co \( \displaystyle P. \)

Przypadek 2. Funkcja

\( \displaystyle f(t)=e^{at}P(t), \)

gdzie \( \displaystyle P(t) \) jest wielomianem zmiennej \( \displaystyle t \) oraz liczba \( \displaystyle a \) jest pierwiastkiem \( \displaystyle k \)-krotnym równania charakterystycznego.

Wtedy rozwiązanie szczególne jest postaci

\( \displaystyle x_1(t)=t^kQ(t)e^{at}, \)

gdzie \( \displaystyle Q \) jest wielomianem tego samego stopnia co \( \displaystyle P. \)

Przypadek 3. Funkcja

\( \displaystyle f(t)=e^{at}(P_1(t)\cos t+P_2(t)\sin t), \)

gdzie \( \displaystyle P_1(t) \) i \( \displaystyle P_2(t) \) są wielomianami zmiennej \( \displaystyle t \) oraz liczba \( \displaystyle a+ib \) nie jest pierwiastkiem równania charakterystycznego.

Wtedy rozwiązanie szczególne jest postaci

\( \displaystyle x_1(t)=e^{at}(Q_1(t)\cos t+Q_2(t)\sin t), \)

gdzie \( \displaystyle Q_1 \) i \( \displaystyle Q_2 \) są wielomianami stopnia równego \( \displaystyle \displaystyle\max\{\deg P_1, \deg P_2\}. \)

Przypadek 4. Funkcja

\( \displaystyle f(t)=e^{at}(P_1(t)\cos t+P_2(t)\sin t), \)

gdzie \( \displaystyle P_1(t) \) i \( \displaystyle P_2(t) \) są wielomianami zmiennej \( \displaystyle t \) oraz liczba \( \displaystyle a+ib \) jest pierwiastkiem \( \displaystyle k \)-krotnym równania charakterystycznego.

Wtedy rozwiązanie szczególne jest postaci

\( \displaystyle x_1(t)=e^{at}t^{k}(Q_1(t)\cos t+Q_2(t)\sin t), \)

gdzie znowu \( \displaystyle Q_1 \) i \( \displaystyle Q_2 \) są wielomianami stopnia równego \( \displaystyle \displaystyle\max\{\deg P_1, \deg P_2\}. \)

W każdym z powyższych przypadków współczynniki nieznanych wielomianów wyliczymy, wstawiając \( \displaystyle x_1(t) \) do naszego równania niejednorodnego.

Uwaga 14.27.

W przypadku, gdy funkcja \( \displaystyle f(t) \) w równaniu niejednorodnym jest sumą funkcji opisanych w przypadkach \( \displaystyle 1,\ldots,4, \) powiedzmy \( \displaystyle f=f_1+\ldots+f_s, \) to szukamy najpierw \( \displaystyle s \) rozwiązań szczególnych dla równań niejednorodnych z prawymi stronami równymi \( \displaystyle f_1,\ldots,f_s. \) Znajdujemy \( \displaystyle s \) funkcji \( \displaystyle x_{11},\ldots,x_{1s}. \) Szukane rozwiązanie szczególne to

\( \displaystyle x_1=x_{11}+\ldots+x_{1s}, \)

co wynika z liniowości naszego równania.

Przykład 14.28.

Rozwiązać równanie

\( \displaystyle x^{(2)}-x=\sin t + te^t. \)

Rozwiązujemy najpierw równanie jednorodne

\( \displaystyle x^{(2)}-x=0. \)

Równanie charakterystyczne to

\( \displaystyle \lambda^{2}-1=0, \)

z rozwiązaniami \( \displaystyle \displaystyle\lambda_1=1, \lambda_2=-1. \) Tak więc rozwiązanie ogólne równania jednorodnego to

\( \displaystyle x_o(t)=C_1e^{t}+C_2e^{-t}. \)

Szukamy teraz rozwiązań szczególnych, najpierw dla równania

\( \displaystyle x^{(2)}-x=\sin t. \)

Tu \( \displaystyle a=0, b=1, \) zatem \( \displaystyle a+ib=i \) nie jest pierwiastkiem równania charakterystycznego. Przewidujemy zatem rozwiązanie szczególne w postaci:

\( \displaystyle x_{11}(t)=A\sin t+B\cos t. \)

To \( \displaystyle x_{11} \) wstawiamy do równania \( \displaystyle x^{(2)}-x=\sin t. \) Dostajemy:

\( \displaystyle -A\sin t-B\cos t-A\sin t-B\cos t=\sin t, \)

skąd dostajemy układ równań

\( \displaystyle -2A=1,\ -2B=0, \)

czyli \( \displaystyle A=-\frac{1}{2}, \ B=0. \) Tak więc

\( \displaystyle x_{11}(t)=-\frac{1}{2}\sin t. \)

Rozwiążemy teraz równanie

\( \displaystyle x^{(2)}-x= te^t. \)

Tu \( \displaystyle a=1 \) i liczba \( \displaystyle 1 \) jest (jednokrotnym) pierwiastkiem równania charakterystycznego. Wielomian \( \displaystyle P(t) \) ma stopień \( \displaystyle 1. \) Rozwiązania szczególnego szukamy zatem w postaci

\( \displaystyle x_{12}(t)=t(At+B)e^t. \)

Współczynniki \( \displaystyle A \) i \( \displaystyle B \) wyznaczymy, wstawiając \( \displaystyle x_{12} \) do równania \( \displaystyle x^{(2)}-x= te^t. \) Dostaniemy

\( \displaystyle e^t(At^2+4At+Bt+2B+2A)-(At^2+Bt)e^t=e^t(4At+2B+2A)=te^t, \)

skąd

\( \displaystyle 4A=1, \ 2A+2B=0 \) zatem \( \displaystyle A=\frac{1}{4}, \ B=-\frac{1}{4}, \)

czyli

\( \displaystyle x_{12}(t)=(\frac{1}{4}t^2-\frac{1}{4}t)e^t. \)

Sumując, dostajemy rozwiązanie szczególne wyjściowego równania niejednorodnego:

\( \displaystyle x_1(t)=-\frac{1}{2}\sin t+(\frac{1}{4}t^2-\frac{1}{4}t)e^t. \)

Tak więc rozwiązanie ogólne naszego równania to:

\( \displaystyle x(t)=x_o(t)+x_1(t)=C_1e^{t}+C_2e^{-t}-\frac{1}{2}\sin t+(\frac{1}{4}t^2-\frac{1}{4}t)e^t. \)

Zastosowania równań różniczkowych. Elementy rachunku wariacyjnego

Rozważamy zagadnienie wariacyjne polegające na wyznaczeniu ekstremów funkcjonału danych za pomocą całki \( \displaystyle J[f]=\int_a^b L(f,f', t)dt \) w klasie funkcji \( \displaystyle f \) różniczkowalnych o ciągłej i ograniczonej pochodnej na przedziale \( \displaystyle [a,b] \). Wyprowadzamy równanie Lagrange'a-Eulera (równanie ekstremali funkcjonału \( \displaystyle J \)). Analizujemy trzy klasyczne zagadnienia wariacyjne (o najmniejszej powierzchni obrotowej, zagadnienie brachistochrony i zagadnienie izoperymetryczne).

Przypomnijmy fakt znany z teorii całki oznaczonej funkcji jednej zmiennej.

Uwaga 15.1.

Jeśli \( \displaystyle \gamma: [\alpha,\beta]\ni t\mapsto (x(t), y(t))\in \mathbb{R}^2 \) jest parametryzacją klasy \( \displaystyle C^1 \) pewnej krzywej \( \displaystyle \gamma \) na płaszczyźnie, to długość tej krzywej wyraża całka oznaczona:

\( \displaystyle l=l(\gamma)=\int_\alpha^\beta\sqrt{(x'(t))^2+(y'(t))^2}dt, \) która w szczególnym przypadku, gdy krzywa \( \displaystyle \gamma : [a,b]\ni x\mapsto(x, f(x)) \) jest wykresem funkcji zmiennej \( \displaystyle x \), przyjmuje postać

\( \displaystyle l= \int_a^b \sqrt{(1+(f'(x))^2}dx. \)

Na pytanie o kształt najkrótszej krzywej łączącej dwa wyróżnione punkty na płaszczyźnie, np. \( \displaystyle A=(x_A, y_A) \), \( \displaystyle B=(x_B, y_B) \), każdy natychmiast odpowiada: to odcinek prostej o podanych końcach:

\( \displaystyle \{(1-t)A+Bt, t\in[0,1]\}:=\{(x,y)\in \mathbb{R}^2 : x(t)=(1-t)x_A+tx_B, (t)=(1-t)y_A+ty_B\}. \)

Intuicja podpowiada nam też, że wskazany odcinek prostej jest jedynym rozwiązaniem postawionego problemu; każda inna krzywa łącząca punkty \( \displaystyle A \) i \( \displaystyle B \) jest dłuższa. Nikt też nie ma wątpliwości, że całka wyrażająca długość krzywej \( \displaystyle \gamma \) łączącej wskazane punkty, może być dowolnie duża, gdyż od punktu \( \displaystyle A \) do \( \displaystyle B \) możemy wędrować po dowolnie długiej krzywej.

Rozważmy kolejny przykład. Pamiętamy, że

Uwaga 15.2.

Pole powierzchni powstałej z obrotu krzywej \( \displaystyle \gamma: [\alpha,\beta]\ni t\mapsto (x(t), y(t))\in \mathbb{R}^2 \) dookoła osi rzędnych wyraża całka oznaczona

\( \displaystyle S=S(\gamma)=2\pi \int_\alpha^\beta |y(t)|\sqrt{(x'(t))^2+(y'(t))^2}dt, \)

która w szczególnym przypadku, gdy krzywa \( \displaystyle \gamma : [a,b]\ni x\mapsto(x, f(x)) \) jest wykresem funkcji zmiennej \( \displaystyle x \), przyjmuje postać

\( \displaystyle S=2\pi \int_a^b |f(x)|\sqrt{(1+(f'(x))^2}dx. \)

Przykład 15.3.

Bryłą powstałą z obrotu dookoła osi \( \displaystyle Ox \) okręgu \( \displaystyle x(t)=r \cos t \), \( \displaystyle y(t)=R+r \sin t \), gdzie \( \displaystyle R>r \), jest torus o polu

\( \displaystyle S=2\pi\int_{0}^{2\pi}(R+r\sin t)\sqrt{r^2(\sin^2 t+\cos^2 t)}dt=4\pi^2 rR. \)

wykres

Zapytani o kształt krzywej, która w wyniku obrotu daje najmniejsze pole wśród wszystkich krzywych zaczepionych na końcach przedziału w tych samych punktach, przeważnie odpowiadamy (czerpiąc intuicję z przykładów płaskich), że to powierzchnia powstała z obrotu odcinka prostej, czyli pobocznica stożka. Jednak chwila refleksji i wspomnienie zabaw z bańkami mydlanymi każe nam zrewidować to przypuszczenie. Bańka mydlana, dzięki siłom napięcia powierzchniowego przyjmuje kształt taki, aby jej pole było możliwie najmniejsze. Rozpięta na dwóch obręczach nigdy nie przyjmie kształtu pobocznicy stożka. Czy kształt bańki rozpiętej na dwóch obręczach można opisać za pomocą wzoru?

Rozważmy bardziej ogólne zadanie. Niech

\( \displaystyle J[f]:=\int_{a}^{b} L(f, f', t)dt \)

będzie całką zależną od pewnej funkcji \( \displaystyle f \) klasy \( \displaystyle C^1 \) na odcinku o ograniczonej pierwszej pochodnej, gdzie \( \displaystyle L:\mathbb{R}^3\mapsto \mathbb{R} \) jest pewną funkcją o ciągłych pochodnych cząstkowych. Stawiamy problem polegający na znalezieniu takiej funkcji \( \displaystyle f \), aby wartość całki \( \displaystyle J[f] \) była ekstremalna (tj. najmniejsza albo największa) w zbiorze tych funkcji, których wartości na końcach przedziału \( \displaystyle [a,b] \) są takie same.

Niech \( \displaystyle C^1 [a,b] \) będzie zbiorem funkcji ciągłych na przedziale \( \displaystyle [a,b] \) o ciągłej i ograniczonej pochodnej na przedziale \( \displaystyle [a,b] \) (na końcach przedziału zakładamy istnienie skończonych granic jednostronnych pochodnej).

Konsekwencją faktu, że granica jednostajnie zbieżnego ciągu funkcji ciągłych jest funkcją ciągłą, jest następująca:

rycina

Uwaga 15.4.

Zbiór \( \displaystyle C^1 [a,b] \) z normą \( \displaystyle \|f\|:=\sup\{|f(t)| : t\in [a,b]\}+ \sup\{|f'(t)| : t\in [a,b]\} \) stanowi przestrzeń Banacha (tj. przestrzeń unormowaną zupełną)

Odwzorowanie

\( \displaystyle J : C^1 [a,b] \ni f \mapsto J[f]\in \mathbb{R} \)

(które zgodnie z tradycyjną terminologią nazywa się funkcjonałem działającym na przestrzeni funkcji dopuszczalnych \( \displaystyle C^1 [a,b] \)) jest więc określone na przestrzeni Banacha i przyjmuje wartości w zbiorze liczb rzeczywistych (który - przypomnijmy - również jest przestrzenią Banacha z normą równą wartości bezwzględnej liczby). Pamiętamy, że warunkiem koniecznym istnienia ekstremum funkcji różniczkowalnej jest zerowanie się jej różniczki zupełnej (różniczki w sensie Frecheta). Okazuje się, że przy naturalnych założeniach o funkcji \( \displaystyle L \) odwzorowanie \( \displaystyle f\mapsto J[f] \) jest różniczkowalne. Jesteśmy w stanie wyznaczyć tę różniczkę.

Twierdzenie 15.5.

Jeśli \( \displaystyle L:\mathbb{R}^3\supset U\mapsto \mathbb{R} \) jest funkcją określoną na zbiorze otwartym \( \displaystyle U \) o ciągłych pochodnych cząstkowych, to odwzorowanie \( \displaystyle C^1 [a,b]\ni f\mapsto J[f]\in \mathbb{R} \) jest różniczkowalne w sensie Frecheta w każdym punkcie \( \displaystyle f\in C^1 [a,b] \). Wartość różniczki \( \displaystyle d_f J \) na wektorze \( \displaystyle h\in C^1 [a,b] \) wynosi

\( \displaystyle \begin{align*} d_f J(h)=\int_{a}^b(\frac{\partial L}{\partial x}(f, f', t)h+\frac{\partial L}{\partial y}(f, f', t)h')dt \\ =\int_{a}^b(\frac{\partial L}{\partial x}(f, f', t)h-\frac{d}{dt}\frac{\partial L}{\partial y}(f, f', t)h)dt+[\frac{\partial L}{\partial y}(f, f', t)h]_a^b. \end{align*} \)

Definicja 15.6.

Funkcję \( \displaystyle (x,y,t)\mapsto L(x,y,t) \), która określa funkcjonał \( \displaystyle J[f]=\int_{a}^b L(f,f',t)dt \), nazywamy funkcją Lagrange'a.

Dowód

Niech \( \displaystyle h\in C^1[a,b] \) będzie przyrostem argumentu funkcjonału \( \displaystyle J \). W dowolnym punkcie \( \displaystyle f\in C^1[a,b] \), wobec ciągłości pochodnych cząstkowych funkcji Lagrange'a, mamy

\( \displaystyle \begin{align*} J[f+h]-J[f] & =\int_{a}^{b}\bigg(L(f+h, f'+h', t)-L(f,f', t)\bigg)dt \\ & =\int_a^b\bigg(\frac{\partial L}{\partial x}(f,f', t)h+\frac{\partial L}{\partial y}(f,f', t)h'\bigg)dt+o(\|h\|),\end{align*} \)

gdzie \( \displaystyle \|h\|=\max|h|+\max|h'| \). Wynika stąd, że funkcjonał \( \displaystyle J \) jest różniczkowalny w sensie Frecheta w każdym punkcie \( \displaystyle f \) i jego różniczka \( \displaystyle d_f J \) na wektorze \( \displaystyle h \) przyjmuje wartość

\( \displaystyle d_f J(h)=\int_a^b\bigg(\frac{\partial L}{\partial x}(f,f', t)h+\frac{\partial L}{\partial y}(f,f', t)h'\bigg)dt. \)

Całkując przez części drugi składnik tego wyrażenia, dostajemy

\( \displaystyle \int_a^b \frac{\partial L}{\partial y}(f,f', t)h'dt=\bigg[\frac{\partial L}{\partial y}(f,f', t)h\bigg]_a^b-\int_a^b \frac{d}{dt}\bigg(\frac{\partial L}{\partial y}(f,f', t)\bigg)hdt. \)

Stąd

\( \displaystyle d_f J(h)=\int_a^b\bigg(\frac{\partial L}{\partial x}(f,f', t)-\frac{d}{dt}\frac{\partial L}{\partial y}(f,f', t)\bigg)h \,dt+\bigg[\frac{\partial L}{\partial y}(f,f', t)h\bigg]_a^b. \)

Rozważmy

\( \displaystyle A:=\{f\in C^1 [a,b] : f(a)=y_a, \ f(b)=y_b\} \)

rodzinę funkcji z przestrzeni \( \displaystyle C^1 [a,b] \), które na końcach przedziału \( \displaystyle [a,b] \) przyjmują ustalone wartości \( \displaystyle y_a \), \( \displaystyle y_b \). Zauważmy, że jeśli \( \displaystyle f_1, f_2\in A \), to również \( \displaystyle (1-t)f_1+tf_2\in A \) dla dowolnej liczby rzeczywistej \( \displaystyle t \). Zauważmy, że \( \displaystyle A\subset C^1[a,b] \) jest podprzestrzenią afiniczną oraz

\( \displaystyle A=f^* +A_0 =\{f^* + f, f\in A_0\}, \)

gdzie \( \displaystyle A_0 =\{f\in C^1 [a,b] : f(a)=f(b)=0\} \) jest podprzestrzenią wektorową przestrzeni \( \displaystyle C^1 [a,b] \), natomiast wektor \( \displaystyle f^* (t)=y_a +\frac{t-a}{b-a}(y_b - y_a) \).

Warto zauważyć, że

Uwaga 15.7.

Zacieśnieniem różniczki \( \displaystyle d_f J \) do \( \displaystyle A_0 \) jest

\( \displaystyle A_0\ni h\mapsto \int_{a}^b\big(\frac{\partial L}{\partial x}(f, f', t)h-\frac{d}{dt}\frac{\partial L}{\partial y}(f, f', t)h\big)dt. \)

Wynika stąd

rycina

Leonhard Euler (1707-1783)

Wniosek 15.8.

Różniczka \( \displaystyle d_f J \) zeruje się na podprzestrzeni afinicznej \( \displaystyle A \) wtedy i tylko wtedy, gdy funkcja \( \displaystyle f\in A \) spełnia równanie

\( \displaystyle \frac{d}{dt}\frac{\partial L}{\partial y}(f, f', t)=\frac{\partial L}{\partial x}(f, f', t). \)

Równanie, które występuje w tezie powyższego wniosku, nazywamy równaniem Lagrange'a-Eulera.

Uwaga 15.9.

Gdy funkcjonał dany jest wzorem \( \displaystyle J[y]=\int_{a}^b L(y,y',t)dt \), równanie Lagrange'a-Eulera zapisuje się w uproszczonej notacji

\( \displaystyle \frac{d}{dt}\frac{\partial L}{\partial y'}=\frac{\partial L}{\partial y}. \)

Zapis ten jednak należy rozumieć tak, jak we wyprowadzonym wzorze, tzn. gdy \( \displaystyle (x_1,x_2,x_3)\mapsto L(x_1,x_2,x_3) \) jest funkcją Lagrange'a, to lewa strona \( \displaystyle \frac{d}{dt}\frac{\partial L}{\partial y'} \) oznacza wyrażenie, które powstaje z wyznaczenia pochodnej po zmiennej \( \displaystyle t \) z podstawienia do pochodnej cząstkowej \( \displaystyle \frac{\partial L}{\partial x_2} \) odpowiednio \( \displaystyle f,f', t \) za \( \displaystyle x_1, x_2, x_3 \). W podobny sposób należy rozumieć też prawą stronę równania: \( \displaystyle \frac{\partial L}{\partial y} \), która oznacza podstawienie do pochodnej \( \displaystyle \frac{\partial L}{\partial x_1} \) odpowiednio \( \displaystyle f,f', t \) za \( \displaystyle x_1, x_2, x_3 \).

Uwaga 15.10.

a) Równanie Lagrange'a-Eulera jest równaniem różniczkowym zwyczajnym rzędu (co najwyżej) drugiego.

b) Jeśli funkcja \( \displaystyle L \) nie zależy jawnie od zmiennej \( \displaystyle t \), to równanie Lagrange'a -Eulera jest równoważne równaniu różniczkowemu rzędu (co najwyżej) pierwszego:

\( \displaystyle L(f, f', t)-f'\frac{\partial L}{\partial y}(f, f', t)=Const, \)

gdzie \( \displaystyle Const \) jest dowolną stałą.

Dowód

Obie uwagi wykażemy w ramach ćwiczeń.

Definicja 15.11.

Każde rozwiązanie równania Lagrange'a-Eulera nazywamy ekstremalą funkcjonału \( \displaystyle J \) na zbiorze \( \displaystyle A \). Równanie Lagrange'a-Eulera nazywa się też często równaniem ekstremali funkcjonału \( \displaystyle J \). Zagadnienie polegające na wyznaczeniu ekstremów funkcjonału \( \displaystyle J \) nazywamy zagadnieniem wariacyjnym. Tradycyjnie wariacją funkcjonału \( \displaystyle J \) nazywamy różniczkę \( \displaystyle d_f J \) (w sensie Frecheta) funkcjonału \( \displaystyle J \). Funkcjonał \( \displaystyle J[f]=\int_a^b L(f, f', t)dt \) nazywa się często (zwłaszcza w mechanice) funkcjonałem działania lub całką działania. Zwróćmy uwagę, że termin ekstremala oznacza punkt \( \displaystyle f\in A \), w którym spełniony jest warunek konieczny istnienia ekstremum funkcjonału \( \displaystyle J \).

Większość praktycznych zagadnień wariacyjnych ma jasną interpretację fizyczną czy geometryczną, z której w oczywisty sposób wynika, że ekstremala (tj. rozwiązanie równania Lagrange'a-Eulera) jest punktem zbioru \( \displaystyle A\subset C^1[a,b] \), w którym funkcjonał \( \displaystyle J \) osiąga minimum czy maksimum.

Przykład 15.12.

Wyznaczymy krzywą klasy \( \displaystyle C^1 \) o końcach \( \displaystyle (a, y_a) \), \( \displaystyle (b, y_b) \), która obracana dokoła osi poziomej tworzy najmniejszą powierzchnię obrotową. Wiemy już, że pole powierzchni obrotowej wyraża całka

\( \displaystyle S(y)=2\pi\int_a^b|f(t)|\sqrt{1+(f'(t))^2}dt. \)

Wyznaczmy więc ekstremalę tego funkcjonału na \( \displaystyle A_0=\{f\in C^1[a,b] : f(a)=y_a, f(b)=y_b\} \). Funkcja \( \displaystyle L(x,y,t)=x\sqrt{1+y^2} \) nie zależy od zmiennej \( \displaystyle t \), stąd równanie równanie Lagrange'a-Eulera jest równoważne równaniu \( \displaystyle L(f, f', t)-\frac{\partial L}{\partial y}(f, f', t)=C_1 \), gdzie \( \displaystyle C_1 \) jest pewną stałą. Równanie to ma więc postać

\( \displaystyle f\sqrt{1+(f')^2}-ff'\frac{f'}{\sqrt{1+(f')^2}}=C_1, \)

gdzie \( \displaystyle C_1 \) jest pewną stałą. Po sprowadzeniu do wspólnego mianownika otrzymamy

\( \displaystyle \frac{f}{\sqrt{1+(f')^2}}=C_1, \)

czyli

\( \displaystyle (f')^2+1=\frac{f^2}{C_1^2}. \)

Równanie to spełnia rodzina funkcji \( \displaystyle f(x)=C_1 \cosh \frac{t-C_2}{C_1} \), gdzie \( \displaystyle C_2 \) jest stałą. Stałe \( \displaystyle C_1 \) i \( \displaystyle C_2 \) wyznaczamy z warunków zadania, tj.

\( \displaystyle \left\{\begin{align*} f(a)=y_a \\ f(b)=y_b\end{align*}\right. \text{ czyli } \left\{\begin{align*} C_1 \cosh \frac{a-C_2}{C_1}=y_a \\ C_1 \cosh \frac{b-C_2}{C_1}=y_b\end{align*}.\right. \)

Łatwo sobie wyobrazić, że układ ten może nie mieć rozwiązania. Gdy odległość \( \displaystyle |b-a| \) rośnie, powierzchnia powstała z obrotu krzywej \( \displaystyle f \) przy ustalonych promieniach \( \displaystyle y_a \), \( \displaystyle y_b \) może mieć pole większe niż suma pól kół o tych promieniach, tj. większe niż \( \displaystyle \pi (y_a^2 +y_b^2) \). Jeśli natomiast różnica \( \displaystyle b-a \) nie jest zbyt duża, znajdziemy stałe \( \displaystyle C_1 \), \( \displaystyle C_2 \) spełniające warunki zadania. Powierzchnię powstałą z obrotu wykresu funkcji \( \displaystyle f(t)=C_1 \cosh \frac{t-C_2}{C_1} \), \( \displaystyle a\leq t\leq b \), nazywamy katenoidą.

Przykład 15.13.

W polu grawitacyjnym znajdują się dwa punkty \( \displaystyle A \) oraz \( \displaystyle B \). Po jakiej krzywej powinien ześlizgiwać się bez tarcia punkt materialny, aby drogę od \( \displaystyle A \) do \( \displaystyle B \) przebyć w najkrótszym czasie?

Chwila refleksji nad zadaniem przywołuje doświadczenia narciarskie i skłania do przypuszczenia, że wśród różnych tras na ośnieżonym stoku (tarcie nart zaniedbujemy), chcąc zjechać z góry jak najszybciej (co nie oznacza, że najbezpieczniej!), powinniśmy wybrać raczej taką, która jest stroma na początku, aby dobrze się rozpędzić.

Bez straty ogólności możemy przyjąć, że początek trasy znajduje się w punkcie \( \displaystyle A=(0,0) \), tj. w początku układu współrzędnych, którego oś pionową zwracamy na dół (czyli przeciwnie, niż zwykle). Niech \( \displaystyle B=(a,b) \). Jeśli punkt materialny znajdzie się w położeniu \( \displaystyle (x,y) \), to zgodzie z prawem zachowania energii jego energia kinetyczna będzie równa zmianie energii potencjalnej \( \displaystyle mgy \) pomiędzy punktem początkowym, który znajduje się na poziomie zerowym a danym punktem na poziomie \( \displaystyle y \), czyli \( \displaystyle \frac{1}{2}mv^2= mgy \), gdzie \( \displaystyle m \) jest masą punktu materialnego, a \( \displaystyle v(t)=\sqrt{\big(\frac{dx}{dt}\big)^2+\big(\frac{dy}{dt}\big)^2} \) jest jego prędkością. Stąd po zmianie zmiennych \( \displaystyle v(t)=\sqrt{1+\big(\frac{dy}{dx}\big)^2}\frac{dx}{dt} \) i zapisaniu równania w postaci różniczkowej \( \displaystyle vdt=\sqrt{1+\big(\frac{dy}{dx}\big)^2}dx \) oraz po uwzględnieniu prawa zachowania energii (\( \displaystyle v=\sqrt{2gy} \)) otrzymujemy

\( \displaystyle \sqrt{2gy}dt=\sqrt{1+\big(\frac{dy}{dx}\big)^2}dx, \)

czyli

\( \displaystyle \frac{dt}{dx}=\frac{\sqrt{1+\big(\frac{dy}{dx}\big)^2}}{\sqrt{2gy}}. \)

Stąd całkowity czas, jaki jest niezbędny, aby pokonać drogę z położenia \( \displaystyle x=0 \) do \( \displaystyle x=a \) (licząc wzdłuż osi zmiennej \( \displaystyle x \)), wyraża całka oznaczona

\( \displaystyle \int_{0}^{a}\frac{dt}{dx}dx=\frac{1}{\sqrt{2g}}\int_0^a\sqrt{\frac{1+\big(\frac{dy}{dx}\big)^2}{y}}dx. \)

Zadanie sprowadza się więc do wyznaczenia ekstremali funkcjonału

\( \displaystyle J[y]=\int_0^a\sqrt{\frac{1+\big(\frac{dy}{dx}\big)^2}{y}}dx, \)

(czynnik \( \displaystyle \frac{1}{\sqrt{2g}} \) jest stały) w zbiorze tych funkcji \( \displaystyle x\mapsto y(x) \), które na końcach przedziału \( \displaystyle [0, a] \) przyjmują odpowiednio wartości \( \displaystyle y(0)=0 \) i \( \displaystyle y(a)=b \). Zauważmy, że funkcja

Lagrange'a

\( \displaystyle (x_1, x_2, x_3)\mapsto L(x_1, x_2, x_3)=\sqrt{\frac{1+x_2 ^2}{x_1}} \)

nie zależy od zmiennej \( \displaystyle x_3 \),

stąd rozwiązanie równanie Lagrange'a-Eulera jest równoważne równaniu

\( \displaystyle L(y, y', x)-y'\frac{\partial L}{\partial x_2}(y, y', x)=Const, \)

gdzie \( \displaystyle Const \) jest dowolną stałą. Po przekształceniu równanie to przyjmie postać:

\( \displaystyle \frac{\sqrt{1+(y')^2}}{\sqrt{y}}-\frac{1}{\sqrt{y}}\frac{(y')^2}{\sqrt{1+(y')^2}}=C \)

a po sprowadzeniu do wspólnego mianownika składników po lewej stronie równości i podniesieniu do kwadratu:

\( \displaystyle \frac{1}{y(1+(y')^2)}=C^2. \)

Rozwiązanie \( \displaystyle x\mapsto y(x) \) równania \( \displaystyle y(1+(y')^2)=C^{-2} \) można przedstawić w postaci parametrycznej:

\( \displaystyle \{\begin{align*} x(\theta) & =r(\theta-\sin\theta)+C_1 \\ y(\theta) & =r(1-\cos \theta), \end{align*}. \)

gdzie \( \displaystyle r=\frac{1}{2}C^{-2} \), a \( \displaystyle C_1 \) jest kolejną stałą. Z twierdzenia o różniczkowaniu złożenia mamy

\( \displaystyle \frac{dy}{dx}=\frac{dy}{dt} \big(\frac{dx}{dt}\big)^{-1} =\frac{r\sin\theta}{r(1-\cos\theta)}=\frac{\sin\theta}{(1-\cos\theta)}, \)

stąd - po przekształceniach

\( \displaystyle \begin{align*} y\bigg(1+\big(\frac{dy}{dx}\big)^2\bigg) & =r(1-\cos \theta)(1+\frac{\sin^2\theta}{(1-\cos\theta)^2}) \\ & =2r=C^{-2},\end{align*} \)

czyli krzywa \( \displaystyle \theta \mapsto (x(\theta), y(\theta)) \) spełnia równanie Lagrange'a-Eulera. Uwzględniając współrzędne początku \( \displaystyle A=(0,0) \), otrzymujemy \( \displaystyle C_1=0 \). Następnie uwzględniając również koniec trasy \( \displaystyle B=(a,b) \), wyznaczamy wartość stałej \( \displaystyle r \), a co za tym idzie również stałej \( \displaystyle C \). Szczegółowe obliczenia pomijamy. Zwróćmy jednak uwagę na krzywą

\( \displaystyle \left\{\begin{align*} x(\theta) & =r(\theta-\sin\theta) \\ y(\theta) & =r(1-\cos \theta), \end{align*}\right. \)

która jest rozwiązaniem zadania brachistochrony (czyli krzywej najszybszego spadku). Krzywą tą jest łuk cykloidy łączący punkty \( \displaystyle A \) i \( \displaystyle B \).

Przykład 15.14.[zagadnienie izoperymetryczne]

Rozważmy rodzinę krzywych klasy \( \displaystyle C^1 \) o ustalonych końcach \( \displaystyle A=(-1,0) \) i \( \displaystyle B=(1,0) \). Czy istnieje krzywa o ustalonej długości, która wraz z odcinkiem o końcach \( \displaystyle A \), \( \displaystyle B \) ogranicza obszar o możliwie największym polu?
Zadanie sprowadza się do maksymalizowania wartości całki wyrażającej pole pod wykresem funkcji \( \displaystyle f \)

\( \displaystyle F(f)=\int_{-1}^{1}f(t)dt \)

przy warunku

\( \displaystyle G(f)=\int_{-1}^{1}\sqrt{1+(f'(t))^2}dt=Const, \)

który oznacza, że długość łuku krzywej \( \displaystyle t\mapsto (t, f(t)) \), przy \( \displaystyle a\leq t\leq b \) jest stała. Mamy więc zagadnienie polegające na

znalezieniu ekstremum warunkowego: ekstremum funkcjonału \( \displaystyle f\mapsto F(f) \) na poziomicy funkcjonału \( \displaystyle G(f)=Const \).

Korzystając z twierdzenia o funkcjonale Lagrange'a (stanowiącego ugólnienie klasycznego twierdzenia o mnożnikach Lagrange'a), można wykazać, że

Uwaga 15.15.

Jeśli funkcjonał \( \displaystyle F \) osiąga wartość ekstremalną przy warunku \( \displaystyle G(f)=Const \), to istnieje stała \( \displaystyle \lambda \) taka, że \( \displaystyle f \) jest
ekstremalą funkcjonału \( \displaystyle \Phi=F+\lambda G \).

W rozważanym przez nas przykładzie funkcjonał \( \displaystyle \Phi \) ma postać:

\( \displaystyle \Phi(f)=\int_{-1}^{1}\bigg(f+\lambda \sqrt{1+(f')^2}\bigg)dx. \)

Zwróćmy uwagę,że funkcja Lagrange'a

\( \displaystyle L(x,y, t)=x+\lambda\sqrt{1+y^2} \)

określająca funkcjonał \( \displaystyle \Phi \) nie zależy od zmiennej \( \displaystyle t \), wobec tego funkcja \( \displaystyle f \) spełnia równanie równoważne równaniu Lagrange'a-Eulera

\( \displaystyle L(f,f', t)-f'\frac{\partial L}{\partial y}(f, f', t)=C_1, \)

gdzie \( \displaystyle C_1 \) jest stałą. Dostajemy więc

\( \displaystyle f+\lambda \sqrt{1+(f')^2}-\lambda f'\frac{f'}{\sqrt{1+(f')^2}}=C_1, \)

które po uproszczeniu (po sprowadzeniu składników do wspólnego mianownika) przyjmie postać

\( \displaystyle f-C_1=\frac{-\lambda}{\sqrt{1+(f')^2}} \)

lub równoważną

\( \displaystyle 1+(f')^2 =\frac{\lambda ^2}{(C_1-f)^2}. \)

Równanie to spełnia rodzina funkcji \( \displaystyle f(t)=\sqrt{\lambda^2 -(t-C_2)^2}+C_1 \), gdzie \( \displaystyle C_2 \) jest kolejną stałą (przypomnijmy, że \( \displaystyle C_1 \) jest stałą, która pojawiła się z całkowania równania Lagrange'a -Eulera). Stałe \( \displaystyle C_1 \), \( \displaystyle C_2 \) wyznaczymy z warunków zadania \( \displaystyle f(-1)=0 \) oraz \( \displaystyle f(1)=0 \), czyli \( \displaystyle \sqrt{\lambda^2 -(-1-C_2)^2}=\sqrt{\lambda^2 -(1-C_2)^2} \), skąd \( \displaystyle C_2=0 \), a także \( \displaystyle C_1=-\sqrt{\lambda^2-1} \). Widzimy więc, że rozwiązaniem zagadnienia jest funkcja

\( \displaystyle f(t)=\sqrt{\lambda^2-t^2}-\sqrt{\lambda^2-1}. \)

Współrzędne punktu \( \displaystyle (t, f(t)) \) wykresu funkcji \( \displaystyle f \) spełniają równanie

\( \displaystyle t^2 + \big(f(t)+\sqrt{\lambda^2-1}\big)^2=\lambda^2, \)

czyli równanie okręgu o środku w punkcie \( \displaystyle (0, \sqrt{\lambda^2-1}) \) i promieniu \( \displaystyle |\lambda| \). Rozwiązaniem problemu jest więc łuk okręgu, którego cięciwą jest dany odcinek \( \displaystyle \overline{AB} \). Stałą \( \displaystyle \lambda \) wyznaczymy z warunku \( \displaystyle G(f)=Const \). Mamy

\( \displaystyle \begin{align*} G(f) & =\int_{-1}^{1}\sqrt{1+(f')^2}dx \\ & =\int_{-1}^{1}\sqrt{\frac{x^2+\lambda^2-x^2}{\lambda^2-x^2}}dx \\ & =2|\lambda|\arcsin\frac{x}{\lambda}\bigg|_{-1}^{1}=2|\lambda|\arcsin\frac{1}{\lambda}.\end{align*} \)

Stąd \( \displaystyle \lambda \) jest rozwiązaniem równania

\( \displaystyle \frac{1}{\lambda}=\sin\frac{Const}{2|\lambda|}. \)

Szkicując wykresy funkcji \( \displaystyle t\mapsto t \) oraz \( \displaystyle t\mapsto \sin\big(\frac{C}{2}t\big) \), możemy łatwo przekonać się, że dla \( \displaystyle 0\leq C < 2 \) jedynym rozwiązaniem równania \( \displaystyle t=\sin\big(\frac{C}{2}t\big) \) jest \( \displaystyle t=0 \). Wówczas nie znajdziemy takiej stałej \( \displaystyle \lambda \), aby \( \displaystyle \frac{1}{\lambda}=0 \). Wynika to zresztą w oczywisty sposób z interpretacji geometrycznej rozważanego zagadnienia: punktów \( \displaystyle A=(-1,0) \) oraz \( \displaystyle B=(1,0) \) nie da się połączyć krzywą o długości \( \displaystyle C < 2 \). Gdy \( \displaystyle C=2 \), rozwiązaniem zagadnienia jest po prostu odcinek \( \displaystyle \overline{AB} \), który w tym przypadku ogranicza zerowe pole \( \displaystyle C=0 \), Gdy zaś \( \displaystyle C>2 \), znajdziemy rozwiązanie \( \displaystyle t_0 \) równania \( \displaystyle t=\sin\big(\frac{C}{2}t\big) \) i weźmiemy \( \displaystyle \lambda =\frac{1}{t_0} \). Na przykład dla \( \displaystyle C=\pi \) mamy \( \displaystyle t_0=1 \), więc \( \displaystyle \lambda=1 \). }}

W ten sposób pokazaliśmy intuicyjnie oczywisty fakt, iż

Wniosek 15.16.

Wśród krzywych o ustalonych końcach \( \displaystyle A, B \) i tej samej długości \( \displaystyle l>AB \) największe pole wraz z odcinkiem \( \displaystyle \overline{AB} \) ogranicza łuk okręgu.