W poprzednim wykładzie zdefiniowaliśmy zmienną X, która opisywała sumę oczek na dwóch kostkach. Jaka jest średnia wartość tej zmiennej? Zanim odpowiemy na to pytanie, zastanówmy się co ono właściwie powinno znaczyć.
Intuicyjnie, jeśli będziemy rzucać parą kostek bardzo dużo razy, to średnia z wyników będzie zbiegać do pewnej wartości i tę wartość można nazwać średnią sumą oczek. Jeśli powtórzylibyśmy rzut dwiema kostkami n razy, to spodziewamy się, że wynik k uzyskamy mniej więcej P(X=k)n razy. A zatem średnia suma z n powtórzeń będzie miała wartość bliską
∑12k=2P(X=k)nkn=∑12k=2P(X=k)k.
Ta wartość wydaje się być rozsądną definicją średniej wartości X.
Uwaga 5.1
W powyższym rozumowaniu uznaliśmy, że jeśli n jest duże, to w n powtórzeniach rzutu dwiema kostkami wynik k uzyskamy mniej więcej P(X=k)n razy. Ogólniej, w n powtórzeniach pewnego doświadczenia zdarzenie A powinno wystąpić mniej więcej P(A)n razy. Warto zwrócić uwagę, że korzystamy tu z intuicji częstościowej prawdopodobieństwa, o której mówiliśmy już w pierwszym wykładzie. W szczególności nasze uzasadnienie definicji wartości oczekiwanej ma raczej charakter nieformalny. Co ciekawe, wkrótce okaże się, że intuicji częstościowej odpowiada twierdzenie w naszej teorii (szczególny przypadek tzw. Prawa Wielkich Liczb).
Definicja (Wartość oczekiwana)
Niech X będzie zmienną losową o rozkładzie dyskretnym. Wartością oczekiwaną (ew. średnią) X nazywamy wartość sumy
EX=∑x∈RxP(X=x),
o ile jest ona absolutnie zbieżna.
Przykład 5.2
Założenie absolutnej zbieżności jest niejako konieczne - nie chcemy, żeby wartość EX zależała od kolejności sumowania. Z drugiej strony prowadzi ono czasem do zaskakujących wyników. Rozważmy zmienną X zdefiniowaną następująco: X przyjmuje tylko wartości postaci 2k i −2k dla k≥2, przy czym P(X=2k)=P(X=2−k)=12k. Zmienna ta ma rozkład symetryczny względem 0, intuicyjnie więc jej wartością oczekiwaną powinno być 0. Ponieważ jednak szereg definiujący EX nie jest absolutnie zbieżny (składa się on z nieskończenie wielu wartości 1 i nieskończenie wielu −1), to EX jest nieokreślone.
Przykład 5.3
Spróbujmy obliczyć wprost z definicji wartość oczekiwaną zmiennej o rozkładzie Bernoulliego i zmiennej o rozkładzie dwumianowym.
Dla X o rozkładzie Bernoulliego z prawdopodobieństwem sukcesu p mamy
EX=0⋅P(X=0)+1⋅P(X=1)=P(X=1)=p.
Dla Y o rozkładzie dwumianowym Binom(n,p) mamy
EY = \sum_{k=0}^n k P(X=k) = \sum_{k=0}^n k {n \choose k}p^k(1-p)^{n-k} = n \sum_{k=1}^n \frac{k}{n}{n \choose k}p^k(1-p)^{n-k}.
Korzystając z pochłaniania dostajemy
n \sum_{k=1}^n {n-1 \choose k-1}p^k(1-p)^{n-k} = np \sum_{k=0}^{n-1} {n-1 \choose k}p^k(1-p)^{n-1-k} = np.
(bo ostatnia suma jest po prostu rozwinięciem dwumianu (p+(1-p))^{n-1}).
Jest to bardzo interesujący wynik. Zmienna Y jest sumą n zmiennych Y_1,\ldots,Y_n, gdzie każda ze zmiennych Y_i ma rozkład Bernoulliego z prawdopodobieństwem sukcesu p. Okazuje się, że EY = \sum_{i=1}^n EY_i. Czyżby wartość oczekiwana była addytywna, a nasze rozwlekłe obliczenia EY zupełnie niepotrzebne? Już wkrótce poznamy odpowiedź na to pytanie.
Bardzo przydatną i fundamentalną własność wartości oczekiwanej opisuje poniższe twierdzenie
Twierdzenie 5.4
Niech X:\Omega \rightarrow \mathbb{R} będzie dyskretną zmienną losową o skończonej wartości oczekiwanej. Niech ponadto \Omega będzie
przeliczalna, lub ogólniej, niech \sum_{\omega \in \Omega} P(\omega) = 1. Wtedy:
EX = \sum_{\omega \in \Omega} P(\omega) X(\omega).
Innymi słowy: zamiast sumować po możliwych wartościach zmiennej X możemy sumować po zdarzeniach elementarnych.
Dowód
EX = \sum_{x \in \mathbb{R}} x P(X=x) = \sum_{x \in \mathbb{R}} x \sum_{\omega \in \Omega} P(\omega)[X(\omega) = x] = \sum_{\omega \in \Omega} P(\omega) \sum_{x \in \mathbb{R}}x [X(\omega) = x] = \sum_{\omega \in \Omega} P(\omega) X(\omega).
Z twierdzenia 5.4 w prosty sposób wynika następujący:
Wniosek 5.5
Jeśli X jest zmienną losową o rozkładzie dyskretnym, a f:\mathbb{R}\rightarrow \mathbb{R} dowolną funkcją, to zachodzi
Ef(X) = \sum_{x \in \mathbb{R}} P(X=x) f(x),
o ile Ef(X) istnieje.
Dowód
Wystarczy popatrzeć na f jako na zmienną losową określoną na \mathbb{R},P_X, ew. powtórzyć dowód twierdzenia 5.4.
Wniosek ten okaże się bardzo przydatny przy obliczaniu wariancji - pojęcia, które wkrótce zdefiniujemy.
Twierdzenie 5.4 ma zaskakująco wiele zastosowań i warto o nim pamiętać, nawet jeśli wydaje się zupełnie oczywiste (a może właśnie szczególnie wtedy). Zobaczmy przykład:
Przykład 5.6
Spróbujmy obliczyć wartość oczekiwaną sumy oczek w rzucie dwiema kostkami. Niech X będzie zmienną opisującą sumę oczek. Wtedy z definicji EX mamy
EX = \sum_{k=2}^{12} kP(X=k).
Należałoby teraz obliczyć wszystkie wartości P(X=k). Nie jest to bardzo trudne, ale jest nieco uciążliwe i łatwo się przy tych obliczeniach pomylić.
Spróbujmy inaczej. Przyjmijmy, że \Omega = \{ (i,j) : 1 \le i,j \le 6\} i oczywiście P((i,j)) = \frac{1}{36} dla każdych 1 \le i,j \le 6. Wtedy X((i,j)) = i+j i z twierdzenia 5.4 mamy
EX = \sum_{1 \le i,j \le 6} \frac{1}{36} (i+j).
Oczywiście \sum_{1 \le i,j \le 6} i = \sum_{1 \le i,j \le 6} j z symetrii, więc
EX = \frac{1}{36} \cdot 2 \cdot \ \sum_{1 \le i,j \le 6} i = \frac{1}{18} \cdot 6 \cdot \sum_{1 \le i \le 6} i = \frac{1}{3} \cdot 21 = 7.
Wyprowadzenie wymagające więcej spostrzegawczości niż rachunków, zdecydowanie mniej uciążliwe niż nasz pierwszy pomysł.
Twierdzenie 5.4 pozwala też w prosty sposób pokazać zapowiadaną wcześniej addytywność wartości oczekiwanej (choć nie w pełnej ogólności):
Twierdzenie 5.7(Liniowość wartości oczekiwanej)
Niech X,Y dyskretne zmienne losowe o skończonej wartości oczekiwanej. Wtedy:
Dowód
Jeśli \sum_{\omega \in \Omega} P(\omega) = 1 (np. \Omega jest przeliczalna), to pierwszy punkt tezy natychmiast wynika z twierdzenia 5.4:
E(cX) = \sum_{\omega \in \Omega} P(\omega) cX(\omega) = c\sum_{\omega \in \Omega} P(\omega) X(\omega) = cEX.
Drugi punkt nie jest dużo trudniejszy:
E(X+Y) = \sum_{\omega \in \Omega} P(\omega) (X+Y)(\omega) = \sum_{\omega \in \Omega} P(\omega) X(\omega) + \sum_{\omega \in \Omega} P(\omega) Y(\omega) = EX+EY.
Ogólny przypadek nie jest dużo trudniejszy. Zbiory postaci X=x\wedge Y=y = \{\omega \in \Omega: X=x,Y=y\} stanowią podział \Omega i zachodzi
\sum_{x,y \in \mathbb{R}} P(X=x \wedge Y=y) = 1
bo X i Y dyskretne. Można zatem myśleć o tych zbiorach jako o elementach pewnej nowej przestrzeni probabilistycznej, na której są określone X i Y i która spełnia założenia twierdzenia 5.4. Bardziej formalnie możemy nasz dowód uogólnić następująco:
E(X+Y) = \sum_{z \in \mathbb{R}} P(X+Y=z) z = \sum_{z \in \mathbb{R}} \sum_{x,y | x+y=z} P(X=x \wedge Y=y) (x+y)=\sum_{x,y \in \mathbb{R}} P(X=x \wedge Y=y) (x+y) =
= \sum_{x,y \in \mathbb{R}} P(X=x\wedge Y=y) x + \sum_{x,y\in\mathbb{R}} P(X=x\wedge Y=y) y = EX+EY.
Podobnie uogólniamy pierwszą część dowodu.
Trudno jest przecenić znaczenie tego twierdzenia - jeśli musielibyśmy wskazać w całym kursie rachunku prawdopodobieństwa jedno twierdzenie o największym znaczeniu w informatyce teoretycznej, to prawdopodobnie byłaby nim właśnie liniowość wartości oczekiwanej. Siła tego twierdzenia bierze się przede wszystkim stąd, że nie wymaga ono żadnych założeń, w szczególności zmienne X i Y nie muszą być niezależne.
Przykład 5.8
Spróbujmy raz jeszcze obliczyć oczekiwaną sumę oczek z dwóch kostek. Tym razem przedstawimy sumę oczek X jako X = X_1+X_2, gdzie X_1,X_2 są wynikami z poszczególnych kostek. Wtedy
EX = EX_1+EX_2 = 2\sum_{i=1}^6 \frac{1}{6} i = 7.
Przykład 5.9
Wrzucamy losowo n kul do n urn. Jaka jest wartość oczekiwana frakcji pustych urn?
Niech X_i będzie zmienną, która przyjmuje wartość 1 jeśli i-ta urna jest pusta, a wartość 0 gdy nie jest pusta. Wtedy X=X_1+\ldots+X_n jest liczbą pustych urn. Mamy
EX_i = P(X_i=1) = (1-\frac{1}{n})^n.
A zatem z liniowości dostajemy
EX = EX_1+\ldots+EX_n = n(1-\frac{1}{n})^n .
A zatem oczekiwana frakcja pustych urn jest równa
(1-\frac{1}{n})^n.
Co ciekawe dla n \rightarrow \infty wartość ta zbiega do \frac{1}{e}.
Ten przykład pokazuje siłę twierdzenia o liniowości wartości oczekiwanej. Zachęcamy czytelnika do próby rozwiązania powyższego zadania wprost z definicji.
Skoro E(X+Y) = EX+EY, to naturalne wydaje się pytanie, czy zachodzi E(XY) = EXEY, czyli czy wartość oczekiwana jest multiplikatywna. Łatwo zauważyć, że nie może to być prawdą - wystarczy wziąć X o rozkładzie Bernoulliego i Y=X.
Okazuje się jednak, że czasem wartość oczekiwana jest multiplikatywna:
Twierdzenie 5.10
Jeśli X,Y niezależne zmienne dyskretne o skończonych wartościach oczekiwanych, to E(XY) = EXEY.
Dowód
E(XY) = \sum_{z \in \mathbb{R}} P(XY = z) z = \sum_{z \in \mathbb{R}} \sum_{x \in \mathbb{R}\setminus \{0\}} z P(X = x \wedge Y = \frac{z}{x}) = \sum_{z \in \mathbb{R}} \sum_{x \in \mathbb{R}\setminus \{0\}} xP(X = x)\frac{z}{x}P(Y = \frac{z}{x}).
Zmieniając kolejność sumowania i podstawiając y = \frac{z}{x} dostajemy
E(XY) = \sum_{x \in \mathbb{R}\setminus \{0\}} xP(X = x) \sum_{y \in \mathbb{R}} yP(Y = y) = EXEY.
Na koniec odnotujmy bardzo przydatny wzór na wartość oczekiwaną zmiennej o wartościach naturalnych:
Twierdzenie 5.11
Niech X będzie zmienną losową o wartościach naturalnych. Wtedy EX = \sum_{i =1}^\infty P(X \ge i).
Dowód
EX = \sum_{i=1}^\infty iP(X=i) = \sum_{i=1}^\infty \sum_{j=1}^i P(X=i) = \sum_{j=1}^\infty \sum_{i=j}^\infty P(X=i) = \sum_{j=1}^\infty P(X \ge j).
Przykład
Obliczmy wartość oczekiwaną zmiennej o rozkładzie geometrycznym. Niech X \sim Geom(p). Wtedy P(X \ge i) = (1-p)^{i-1} i z powyższego twierdzenia dostajemy
EX = \sum_{i \ge 1} P(X \ge i) = \sum_{i \ge 1} (1-p)^{i-1} = \frac{1}{1-(1-p)} = \frac{1}{p}.
Obliczanie EX wprost jest istotnie bardziej skomplikowane - sprowadza się, de facto, do powtórzenia dowodu twierdzenia 5.11.
W poprzednim wykładzie zdefiniowaliśmy, dla dowolnej dyskretnej zmiennej losowej X i zdarzenia A o niezerowym prawdopodobieństwie, nową zmienną X|A.
Można oczywiście obliczyć wartość oczekiwaną tak zdefiniowanej zmiennej:
E(X|A) = \sum_{x \in \mathbb{R}} xP((X|A) = x) = \sum_{x \in \mathbb{R}} xP(X=x|A).
Związek między tak określonymi warunkowymi wartościami oczekiwanymi, a zwykłą wartością oczekiwaną, jest taki sam jak między prawdopodobieństwami warunkowymi, a zwykłym prawdopodobieństwem:
Twierdzenie 5.12 (Wzór na całkowitą wartość oczekiwaną)
Niech X:\Omega\rightarrow\mathbb{R} będzie dyskretną zmienną losową i niech A_1,A_2,\ldots będzie podziałem \Omega. Wtedy:
EX = \sum_{k=1}^\infty P(A_k) E(X|A_k).
Dowód
Na mocy twierdzenia o prawdopodobieństwie całkowitym
P(X=x) = \sum_{k=1}^\infty P(A_k) P(X=x|A_k)
dla każdego k \in \mathbb{N} i x \in \mathbb{R}. Mnożąc tę tożsamość stronami przez x i sumując po wszystkich x dostajemy tezę:
EX = \sum_{x \in \mathbb{R}} \sum_{k=1}^\infty xP(A_k) P(X=x|A_k) = \sum_{k=1}^\infty \sum_{x \in \mathbb{R}} xP(A_k) P(X=x|A_k) = \sum_{k=1}^\infty P(A_k) E(X|A_k).
Uwaga
Podobnie jak w przypadku wzoru na prawdopodobieństwo całkowite, prawdziwa jest także wersja powyższego twierdzenia dla skończonych podziałów \Omega, dowód analogiczny. Ponadto tak jak w przypadku wzoru na prawdopodobieństwo całkowite, można powyższe twierdzenie traktować jako przepis na obliczanie wartości oczekiwanej przez przypadki.
Przykład 5.13
Korzystając ze wzoru na całkowitą wartość oczekiwaną obliczymy ponownie wartość oczekiwaną zmiennej X \sim Geom(p).
EX = P(X = 1) E(X|X=1) + P(X>1) E(X|X > 1) = p \cdot 1 + (1-p) E(X|X > 1).
Zauważmy, że X|(X > 1) ma taki sam rozkład jak 1+X . Intuicyjnie jest to dość oczywiste, (prosty) formalny dowód dużo ogólniejszego faktu pojawi się na ćwiczeniach.
A zatem
EX = p + (1-p) E(1+X) = 1 + (1-p)EX.
Stąd pEX = 1 i ostatecznie EX = \frac{1}{p}.
Wartość oczekiwana niesie bardzo istotną informację na temat zmiennej losowej. Tym niemniej, ograniczanie się w analizie do samej wartości oczekiwanej może być zwodnicze, a czasem wręcz niebezpieczne.
Jest duża różnica między inwestycją, w której z prawdopodobieństwem \frac{1}{2} zyskujemy 1,000,000 zł i z prawdopodobieństwem \frac{1}{2} tracimy 800,000 zł, a inwestycją w której z prawdopodobieństwem \frac{1}{2} zyskujemy 101,000 i z prawdopodobieństwem \frac{1}{2} zyskujemy 99,000. W obu przypadkach wartość oczekiwana zysku wynosi 100,000 zł, a pomimo to większość osób bez wahania wybrałaby drugą opcję.
Podobnie, jest duża różnica między algorytmem, którego oczekiwany czas działania jest równy cn\log n , ale który często działa w czasie bliskim zeru i często działa wielokrotnie wolniej niż średnio, a algorytmem o tym samym średnim czasie działania, który prawie zawsze działa w czasie bliskim średniej. Znów jasne jest, że opcja druga jest z reguły bardziej pożądana.
Aby móc porównywać inwestycje w pierwszym przykładzie i algorytmy w drugim, wprowadzimy miarę tego jak bardzo zmienna losowa odchyla się od swojej wartości średniej. Naturalnym pomysłem byłoby rozważenie wielkości E|X-EX|. Pomysł ten jest dobry, a tak zdefiniowaną wielkość nazywa się z reguły średnim odchyleniem X . Posługiwanie się odchyleniem średnim jest jednak z wielu różnych względów dość problematyczne. W dużym uproszczeniu "pojęcie to nie ma dobrych własności", choćby dlatego, że użyta w definicji wartość bezwględna skutecznie utrudnia korzystanie z narzędzi analitycznych takich jak różniczkowanie.
Zamiast średniego odchylenia będziemy używać pojęć wariancji i odchylenia standardowego:
Definicja (Wariancja i odchylenie standardowe)
Wariancją dyskretnej zmiennej losowej X nazywamy wartość
VarX = E(X-EX)^2,
o ile ona istnieje.
Odchyleniem standardowym X nazywamy \sigma(X) = \sqrt{VarX}.
W tym miejscu należy się wyjaśnienie kwestii: po co nam aż dwie wielkości?
Wariancja, w przeciwieństwie do średniego odchylenia, ma bardzo dobre własności i pojawia się w wielu sytuacjach w naturalny sposób. Wbrew pozorom nie jest ona jednak dobrym substytutem średniego odchylenia z tego prostego powodu, że średniego odchylenia nie mierzy. Łatwo to zauważyć, jeśli zastanowimy się co się dzieje z wariancją, jeśli pomnożymy zmienną losową przez stałą:
Var(cX) = E(cX-E(cX))^2 = E(c(X-EX))^2= c^2E(X-EX)^ = c^2VarX.
To nie wygląda dobrze - sensowna miara średniego odchylenia powinna w takiej sytuacji wzrastać |c|-krotnie. Rozwiązaniem tego problemu jest odchylenie standardowe, dla którego jak łatwo zauważyć mamy \sigma(cX) = |c|\sigma(X).
Okazuje się, że odchylenie standardowe jest bardzo dobrą miarą "typowych odchyleń" od średniej, w szczególności ma z reguły wartość bardzo bliską odchyleniu średniemu.
Wariancję rzadko oblicza się wprost z definicji. Jedną z przydatniejszych metod jest poniższy wzór:
Twierdzenie 5.14
VarX = E(X^2) - (EX)^2.
Dowód
VarX = E(X-EX)^2 = E(X^2 - 2XEX + (EX)^2) = E(X^2) - 2(EX)^2 + (EX)^2 = E(X^2) - (EX)^2.
Przykład 5.15
Spróbujmy za pomocą tego wzoru obliczyć wariancję rozkładu Bernoulliego i rozkładu dwumianowego.
Dla zmiennej X o rozkładzie Bernoulliego z prawdopodobieństwem sukcesu p mamy:
VarX = E(X^2) - (EX)^2 = EX-(EX)^2 = p - p^2 = pq.
Dla zmiennej Y \sim Binom(n,p) mamy:
VarY = E(Y^2) - (EY)^2 = \sum_{k=0}^n k^2{n \choose k}p^k(1-p)^{n-k} - (np)^2 = n\sum_{k=1}^n k\frac{k}{n}{n \choose k}p^k(1-p)^{n-k} - (np)^2.
Korzystając z pochłaniania dostajemy:
n\sum_{k=1}^n k {n-1 \choose k-1}p^k(1-p)^{n-k} - (np)^2 = np \sum_{k=0}^{n-1} (k+1) {n-1 \choose k}p^k(1-p)^{n-1-k} - (np)^2 = np (\sum_{k=0}^{n-1} k{n-1 \choose k}p^k(1-p)^{n-k} + \sum_{k=0}^{n-1} {n-1 \choose k}p^k(1-p)^{n-k}) - (np)^2.
Jedno z wyrażeń w nawiasie jest dwumianem (p+q)^n, a drugie wartością oczekiwaną zmiennej o rozkładzie Binom(n-1,p). Dostajemy więc:
np ((n-1)p + 1) - (np)^2 = np(np+q) - (np)^2 = (np)^2 + npq - (np)^2 = npq.
Okazało się, że VarY = nVarX, co sugeruje, że być może wariancja jest addytywna, tak jak wartość oczekiwana (liniowa być nie może, bo Var(cX) = c^2VarX ). Sprawdźmy:
Var(X+Y) = E((X+Y)-E(X+Y))^2 = E((X-EX)+(Y-EY))^2 = E( (X-EX)^2 +2(X-EX)(Y-EY) + (Y-EY)^2) = VarX+VarY + 2E(X-EX)(Y-EY).
Prawie się udało, niestety pojawił się dodatkowy człon E(X-EX)(Y-EY), sprawdźmy czy jest on równy 0:
E(X-EX)(Y-EY) = E( XY - XEY - YEX + EXEY) = E(XY) - EXEY - EXEY + EXEY = E(XY) - EXEY .
I wszystko jasne: wariancja jest addytywna wtw, gdy wartość oczekiwana jest multiplikatywna. Ważny szczególny przypadek takiej sytuacji opisuje poniższe twierdzenie:
Twierdzenie 5.16
Jeśli dyskretne zmienne losowe X i Y są niezależne i mają skończoną wariancję, to Var(X+Y) = VarX+VarY .
Dowód
Wynika z wcześniejszych rozważań i multiplikatywności wartości oczekiwanej dla zmiennych niezależnych.
Uwaga 5.17
Człon E(X-EX)(Y-EY) nazywa się kowariancją X i Y. Kowariancja jest duża/dodatnia dla zmiennych, które razem przyjmują małe wartości i razem duże, czyli są "w tej samej fazie". Małe/ujemne wartości kowariancji oznaczają zmienne "w przeciwnym fazach".
Czasem jesteśmy zmuszeni obliczyć wariancję sumy zmiennych, które nie są niezależne. Poniższy przykład pokazuję bardzo typową sytuację tego rodzaju i standardowy sposób radzenia sobie z zależnością zmiennych 0/1-kowych.
Przykład 5.9 (c.d.)
Obliczmy wariancję liczby pustych urn. Korzystając z twierdzenia 5.14 mamy
VarX = E(X^2) - (EX)^2.
Wartość drugiego członu już znamy, aby obliczyć pierwszy rozbijemy X^2 na poszczególne składniki i skorzystamy z liniowości wartości oczekiwanej
E(X^2) = E(\sum_{i=1}^n X_i)^2 = E(\sum_{i=1}^n\sum_{j=1}^n X_iX_j) = \sum_{i=1}^n\sum_{j=1}^n E(X_iX_j).
W tej sumie występują dwa rodzaje wyrazów:
Tych pierwszych jest n, drugich - n^2-n.
A zatem
VarX = n(1-\frac{1}{n})^n + (n^2-n) (1-\frac{2}{n})^n - n^2 (1-\frac{1}{n})^{2n}.
Wartość oczekiwana i wariancja są szczególnymi przypadkami następujących dwóch pojęć:
Definicja (Moment)
Jeśli X jest zmienną losową, to k-tym momentem zmiennej losowej X nazywamy wartość wyrażenia E(X^k), o ile ona istnieje.
Definicja (Moment centralny)
Jeśli X jest zmienną losową i EX < \infty, to k-tym momentem centralnym zmiennej losowej X nazywamy wartość wyrażenia E(X-EX)^k , o ile ona istnieje.
A zatem wartość oczekiwana jest pierwszym momentem zmiennej, a wariancja drugim momentem centralnym.
Z wyższych momentów korzysta się istotnie rzadziej, niż z EX i VarX, mają one jednak swoje miejsce w zastosowaniach. Czytelnikowi polecamy zastanowienie się, co mierzą trzeci, a co czwarty moment centralny?
Obliczanie wartości oczekiwanej i wariancji wprost z definicji lub za pomocą jednego z wyprowadzonych przez nas wzorów bywa często uciążliwe i pracochłonne. Poznamy teraz metodę, która pozwala często znacznie uprościć te rachunki.
Definicja (Funkcja tworząca prawdopodobieństwa)
Niech X będzie zmienną losową o wartościach naturalnych. Funkcją tworzącą prawdopodobieństwa zmiennej X zmiennej X nazywamy:
g_X(t) = \sum_{k=0}^\infty P(X=k) t^k.
Tak jak to z reguły bywa z funkcjami tworzącymi, często wygodnie jest je traktować jako szeregi formalne i nie przejmować się zbieżnością. Tym niemniej, z twierdzenia o zbieżności zmajoryzowanej wynika łatwo natychmiast następujący:
Fakt 5.18
Szereg definiujący g_X(t) jest zawsze absolutnie zbieżny co najmniej na przedziale [-1,1].
Czasem wygodniej jest korzystać z następującej tożsamości:
Fakt 5.19
Dla tych t dla których szereg definiujący g_X(t) jest absolutnie zbieżny zachodzi:
g_X(t) = E(t^X).
Dowód
Oczywisty.
Jak obliczać wartość oczekiwaną i wariancję za pomocą funkcji tworzących prawdopodobieństwa? Wystarczy je zróżniczkować.
(Prawie prawdziwe) twierdzenie
Jeśli X o wartościach naturalnych ma skończoną wartość oczekiwaną, to:
EX = g_X'(1) .
(Prawie poprawny) dowód
g_X'(t) = \sum_{k=0}^\infty kP(X=k) t^{k-1}.
Podstawiając t=1 dostajemy tezę.
Powyższe rozumowanie wygląda przekonująco, formalnie jednak nie jest całkiem poprawne. Z tego, że szereg g_X(t) jest zbieżny w przedziale [-1,1] wynika, że możemy go zróżniczkować wewnątrz tego przedziału, ale niekoniecznie w t=1. Dlatego należy sformułować twierdzenie tak:
Twierdzenie 5.20
Jeśli X o wartościach naturalnych ma skończoną wartość oczekiwaną, to:
EX = \lim_{t\rightarrow 1^-} g_X'(t) .
Dowód
Z twierdzenia Abela suma szeregu potęgowego jest funkcją ciągłą (ew. jednostronnie ciągłą) wszedzie tam gdzie jest zbieżna. A zatem:
EX = \sum_{k=0}^\infty kP(X=k) 1^{k-1} = \lim_{t\rightarrow 1^-} (\sum_{k=0}^\infty kP(X=k) t^{k-1}) = \lim_{t\rightarrow 1^-} g_X'(t).
W praktyce tego rodzaju niuansy nie mają znaczenia. Funkcje tworzące prawdopodobieństwa, z którymi będziemy mieli do czynienia będą zbieżne na całej prostej rzeczywistej i problemy opisane powyżej nie będą występować. W szczególności prawdziwy będzie wzór EX = g_X'(1).
Łatwo zgadnąć jak za pomocą funkcji tworzących prawdopodobieństwa oblicza się wariancję. Różniczkując dwukrotnie! Spróbujmy:
g_X''(t) = \sum_{k=0}^\infty k(k-1)P(X=k) t^{k-2}.
A zatem
g_X''(1) = E(X(X-1))
oraz
g_X''(1) + g_X'(1) = E(X^2),
o ile oczywiście te pochodne istnieją. Z tego właśnie wzoru będziemy korzystać w praktyce, w ogólnym przypadku zachodzi
Twierdzenie 5.21
Jeśli X o wartościach naturalnych ma skończoną wartość oczekiwaną i wariancję, to
E(X^2) = \lim_{t\rightarrow 1^-} (g_X'(t)+g_X''(t))
oraz
VarX = \lim_{t\rightarrow 1^-} (g_X'(t)+g_X''(t) -(g_X'(t))^2).
Dowód
Analogiczny jak dla twierdzenia 5.20.
Przykład 5.22
Znajdźmy funkcję tworzącą prawdopodobieństwa rozkładu dwumianowego (w tym przypadku mamy do czynienia z wielomianem tworzącym i większość rozważań powyżej mocno się upraszcza). Niech X \sim Binom(n,p). Wtedy
g_X(t) = \sum_{k=0}^n {n \choose k}p^kq^{n-k} t^k = (q+pt)^n .
Obliczmy pierwszą i drugą pochodną g_X(t):
g_X'(t) = np(q+pt)^{n-1},
g_X''(t) = n(n-1)p^2(q+pt)^{n-2}.
A zatem
EX = g_X'(1) = np(q+p)^{n-1} = np, oraz
VarX = g_X''(1) + g_X'(1) - (g_X'(1))^2 = n(n-1)p^2 + np - (np)^2 = np-np^2 = npq.
Udowodnimy teraz kilka własności funkcji tworzących prawdopodobieństwa, które znacząco ułatwiają posługiwanie się nimi.
Twierdzenie 5.23
Niech X,Y będą niezależnymi zmiennymi o wartościach naturalnych. Wtedy
g_{X+Y}(t) = g_X(t) g_Y(t) .
Dowód
Dla t \in [-1,1] zachodzi
g_{X+Y}(t) = E(t^{X+Y}) = E(t^Xt^Y) = E(t^X)E(t^Y) = g_X(t) g_Y(t),
więc musi też zachodzić teza.
Twierdzenie to w naturalny sposób uogólnia się na dowolną skończoną liczbę niezależnych zmiennych losowych.
Przykład 5.24
Korzystając z powyższego twierdzenia możemy policzyć g_X(t) dla X \sim Binom(n,p) w alternatywny sposób. Zauważmy mianowicie, że dla zmiennej Y o rozkładzie Bernoulliego z prawdopodobieństwem sukcesu p mamy
g_Y(t) = q+pt,
a ponieważ X jest sumą n niezależnych zmiennych o takim właśnie rozkładzie, to
g_X(t) = (g_Y(t))^n = (q+pt)^n.
Twierdzenie 5.25
Jeśli X jest zmienną losową o wartościach naturalnych, a c \in \mathbb{N}, to
g_{cX}(t) = g_X(t^c).
Dowód
g_{cX}(t) = \sum_{k=0}^\infty P(cX = k) t^k = \sum_{i=0}^\infty P(cX = ci) t^{ci} = \sum_{i=0}^\infty P(X = i) (t^c)^i = g_X(t^c).
Twierdzenie 5.26
Niech N,X_1,X_2,\ldots,X_N będą niezależnymi zmiennymi losowymi o wartościach naturalnych. Ponadto, niech wszystkie X_i mają ten sam rozkład X_i \sim X. Wtedy dla S = X_1 + \ldots + X_N zachodzi
g_S(t) = g_N(g_X(t))
oraz
ES = ENEX.
Dowód
Dla t \in [-1,1] mamy z twierdzenia o całkowitej wartości oczekiwanej
g_S(t) = E(t^S) = \sum_{k=0}^\infty P(N=k) E(t^S | N=k) = \sum_{k=0}^\infty P(N=k) E(t^{X_1+\ldots+X_k}).
Z niezalezności X_i dostajemy
g_S(t) = \sum_{k=0}^\infty P(N=k) E(t^{X_1})\cdot \ldots \cdot E(t^{X_k}) = \sum_{k=0}^\infty P(N=k) (g_X(t))^k = g_N(g_X(t)).
Druga część twierdzenia wynika z pierwszej, ciągłości funkcji tworzących w t=1 oraz tego, że g_X(1) = 1.
ES = \lim_{t \rightarrow 1^-} g_S'(t) = \lim_{t \rightarrow 1^-} g_N'(g_X(t))\cdot g_X'(t) = \lim_{t \rightarrow 1^-} g_N'(t) g_X'(t) = ENEX.
Przykład 5.27
Rzucamy kostką, niech N będzie wynikiem rzutu. Następnie rzucamy N razy monetą. Jaki rozkład ma łączna liczba orłów? W szczególności jak wygląda funkcja tworząca prawdopodobieństwa tego rozkładu?
Niech X_1,X_2,\ldots, będą wynikami rzutów monetą. Wtedy łączna liczba orłów jest równa
S = X_1+\ldots+X_N
i mamy do czynienia z sytuacją z udowodnionego właśnie twierdzenia.
Ponieważ
g_N(t) = \frac{1}{6}\sum_{i=1}^6 t^i
oraz
g_{X_i}(t) = \frac{1+t}{2},
to
g_S(t) = \frac{1}{6}\sum_{i=1}^6 (\frac{1+t}{2})^i.