Processing math: 100%

Wykład 4: Dyskretne zmienne losowe

Motywacja i definicja zmiennej losowej

Motywacja

Dotychczas nie nakładaliśmy żadnych warunków na to jak wyglądają elementy Ω. Mogły to być pary liczb, słonie, czy słowa TAK i NIE. Nie miało to dla nas większego znaczenia. Wyobraźmy sobie jednak, że chcemy obliczyć średnią sumę oczek z dwóch kostek albo wykonać histogram wagi słonia. Jak zinterpretować te zadania w obrębie naszej teorii?

Zarówno suma oczek na kostkach, jak i waga słonia, są pewnymi funkcjami, określonymi na odpowiednim Ω i przypisującymi każdemu zdarzeniu elementarnemu pewną interesującą nas cechę, która jest liczbą rzeczywistą. W pierwszym przypadku każdemu wynikowi rzutu dwiem kostkami przypisujemy sumę oczek, w drugim każdemu słoniowi jego wagę. Obliczanie średniej i wykonywanie histogramu będzie się odbywać na wartościach tak zdefiniowanej funkcji.

Definicja zmiennej losowej (prawie)

Uwaga 4.1
Definicje i rozważania w tym paragrafie nie są do końca poprawne, ale za to są zupełnie elementarne. Poprawiamy je w następnym paragrafie poświęconym teorii miary.

Prawie definicja (Zmienna losowa)
Niech (Ω,P) będzie przestrzenią probabilistyczną. Zmienną losową (określoną na Ω) nazywamy dowolną funkcję X:ΩR.

Jak widać, wbrew swojej nazwie, zmienne losowe nie są wcale zmiennymi, nie są też w żadnym sensie losowe.
Przykład 4.2
Rzut dwiema kostkami można w naturalny sposób opisać przestrzenią probabilistyczną (Ω,P), gdzie Ω={(i,j):1i,j6}, a P jest zadane schematem klasycznym. Na takiej przestrzeni można określić zmienną losową X opisującą sumę oczek następująco:
X((i,j))=i+j.
Podobnie możemy postąpić dla iloczynu oczek, oczek na pierwszej kostce, itp.

Zmiennej losowej można użyć do definiowania zdarzeń w jej dziedzinie. Na przykład, za pomocą opisanej powyżej zmiennej X możemy zdefiniować zdarzenia:

  • X=5 - suma oczek wynosi 5,
  • X4 - suma oczek jest nie większa niż 4,
  • X{3,5,,11} - suma oczek jest nieparzysta, itd.

Formalnie, napis XA będziemy interpretować jako zdarzenie {ωΩ:X(ω)A}=X1(A), i analogicznie napisy X=a, Xa, itp.
Można pójść z tą notacją jeszcze dalej, np. sin(X)>X/20. Dowolny napis postaci ϕ(X), gdzie ϕ(x) jest formułą logiczną zmiennej X możemy zinterpretować jako {ωΩ:ϕ(X(ω))}=(Xϕ)1(prawda).
Nic też nie stoi na przeszkodzie, aby definiować zdarzenia za pomocą więcej niż jednej zmiennej. Jeśli na przykład X jest, jak poprzednio, sumą oczek z dwóch kostek, a Y iloczynem, to możemy zdefiniować zdarzenie "suma oczek jest większa niż iloczyn" napisem X>Y. Tak jak poprzednio, dla dowolnej formuły logicznej ϕ(x,y) i zmiennych X,Y definiujemy zdarzenie ϕ(X,Y) jako {ωΩ:ϕ(X(ω),Y(ω))}.
W naturalny sposób możemy interpretować formuły trzech i więcej zmiennych.

Jeśli interesują nas własności zmiennej losowej X takie jak jej średnia wartość, tak czy inaczej zdefiniowany rozrzut wartości itp., to dziedzina X oraz to jak konkretnie X jest zdefiniowana nie mają dla nas znaczenia. Cała istotna informacja o zmiennej X jest zawarta w tzw. rozkładzie X.

Prawie definicja (Rozkład zmiennej losowej)
Rozkładem zmiennej losowej X nazywamy przestrzeń probabilistyczną (R,PX), gdzie
PX(A)=P(XA)=P(X1(A)).

Będziemy też pisać XY, jeśli X i Y mają taki sam rozkład.

Odrobina teorii miary

Nasze dotychczasowe rozważania zawierają niestety drobną lukę logiczną. Otóż w definicji rozkładu X pojawia się prawdopodobieństwo P(X1(A)), ale nie jest wcale powiedziane, że wartość ta jest określona. Zgodnie z definicją, przestrzeń probabilistyczna jest trójką (Ω,F,P). Umówiliśmy się pomijać σ-ciało F wszędzie tam, gdzie jest ono równe 2Ω lub po prostu nie ma znaczenia. W przypadku definicji zmiennej losowej F ma znaczenie - musimy zagwarantować, że X1(A)F dla tych zbiorów A, na których ma być określony rozkład X.

Przyjmiemy, że rozkład ma być określony na borelowskich podzbiorach R, co prowadzi do następującej definicji zmiennej losowej:
Definicja (Zmienna losowa)
Niech (Ω,F,P) będzie przestrzenią probabilistyczną. Zmienną losową (określoną na Ω) nazywamy dowolną funkcję X:ΩR taką, że dla dowolnego zbioru borelowskiego AR zachodzi X1(A)F (czyli f musi być mierzalna względem F ).

Z kolei rozkład zmiennej losowej definiujemy następująco (uzupełniamy poprzednią definicję wskazując, które zbiory będą mierzalne):
Definicja (Rozkład zmiennej losowej)
Rozkładem zmiennej losowej X nazywa przestrzeń probabilistyczną R,B,PX, gdzie B jest rodziną borelowskich podzbiorów R oraz
PX(A)=P(XA)=P(X1(A)).

Założenie mierzalności funkcji będzie się pojawiać w tym i dalszych wykładach jeszcze kilkukrotnie. Za każdym razem jest to motywowane rozważaniami, które właśnie przeprowadziliśmy.


Podstawowe rozkłady dyskretne

Omówimy teraz kilka najbardziej typowych rozkładów zmiennych losowych, przy czym przez najbliższych kilka wykładów ograniczymy się do tzw. rozkładów dyskretnych.
Definicja (Rozkład dyskretny)
Zmienna X ma rozkład dyskretny (lub krócej: jest dyskretna) jeśli zachodzi
xRP(X=x)=1.
Innymi słowy, z prawdopodobieństwem 1 zmienna X przyjmuje jedną z przeliczalnie wielu wartości.

Uwaga 4.3
W powyższej definicji pojawia się suma po zbiorze nieprzeliczalnym, co może budzić pewne zaniepokojenie. Proszę jednak zwrócić uwagę, że tylko przeliczalnie wiele wartości w tej sumie może być niezerowych na mocy przeliczalnej addytywności prawdopodobieństwa. W dalszej części wykładu będziemy dość często używać tego rodzaju notacji.

Przykład 4.4
Łatwo podać przykład zmiennej dyskretnej - na przykład liczba rzutów do wypadnięcia pierwszego orła. Przykładem zmiennej niedyskretnej jest czas T oczekiwania w kolejce. O ile nie jest to bardzo nietypowa kolejka, to dla każdej liczby t>0 zachodzi P(T=t)=0 (może się zdarzyć, że P(T=0)>0). A zatem tRP(T=t)=P(T=0) i z reguły jest to wartość mniejsza niż 1. Zmiennymi tego rodzaju zajmiemy się za kilka wykładów.

W tym wykładzie interesować nas będą wyłącznie zmienne dyskretne. Co więcej, z reguły będą one przyjmować jedynie wartości naturalne.

Poniższy fakt opisuje bardzo przydatną własność zmiennych dyskretnych, często uznaje się go wręcz za ich definicję:
Fakt 4.5
Jeśli X jest zmienną dyskretną, a AR, to
P(XA)=xAP(X=x).
Dowód
Zachodzi oczywiście P(XA)xAP(X=x) na mocy przeliczalnej addytywności prawdopodobieństwa. Podobnie P(XA)xAP(X=x). Dodając stronami dostajemy 11, a równość jest możliwa tylko jeśli zachodzi teza.

Fakt 4.5 pokazuje, że cała informacja o zmiennej dyskretnej X jest zawarta w wartościach P(X=x). Często wprowadza się oznaczenie fX(x)=P(X=x), a funkcję fX nazywa się funkcją prawdopodobieństwa X. Nie będziemy tego jednak robić w tym wykładzie.

Przyjrzymy się teraz kilku najważniejszym rozkładom dyskretnym.

Rozkład Bernoulliego

Definicja (Rozkład Bernoulliego)
Zmienna X ma rozkład Bernoulliego jeśli przyjmuje tylko dwie wartości: 0 i 1. Prawdopodobieństwa tych wartości oznacza się zwyczajowo: p=P(X=1) oraz q=P(X=0). Wartość 1 nazywa się często sukcesem, a wartość 0 porażką.

Zmienne takie pojawiają się w naturalny sposób, jeśli przeprowadzamy pewne doświadczenie i interesuje na to, czy zakończyło się ono w konkretny sposób, np. w rzucie monetą wypadł orzeł bądź nie, pacjent przeżył operację bądź nie, itp. Jak wkrótce zobaczymy, zmienne o rozkładzie Bernoulliego pełnią często rolę "klocków", z których składa się bardziej skomplikowane zmienne.

Rozkład jednostajny

Definicja (Rozkład jednostajny (dyskretny))
Zmienna X ma dyskretny rozkład jednostajny na przedziale [a,b] , gdzie a,bZ , jeśli przyjmuje wartości a,a+1,,b, przy czym wszystkie one są równie prawdopodobne, t.j. P(X=a)==P(X=b)=1ba+1.

Rozkład jednostajny ma na przykład liczba oczek na kostce, czy wynik losowania liczby naturalnej z zadanego przedziału (ten drugi przykład jest dość marny, jako że jest właściwie równoważny definicji).

Rozkład dwumianowy

Przykład 4.6
Rzucamy n razy monetą, na której orzeł wypada z prawdopodobieństwem p. Niech X będzie liczbą orłów. Jaki rozkład ma X?

Mamy oczywiście P(X=k)=0 dla k{0,,n}. Jeśli k{0,,n}, to mamy (nk) różnych sposobów na uzyskanie k orłów. Korzystając z niezależności zdarzeń odpowiadających wynikom różnych rzutów łatwo pokazać, że prawdopodobieństwo dla każdego z tych sposobów jest równe pk(1p)nk. A zatem P(X=k)=(nk)pk(1p)nk.

Definicja (Rozkład dwumianowy)
Zmienna X ma rozkład dwumianowy z parametrami n,p, ozn. XBinom(n,p), jeśli P(X=k)=(nk)pk(1p)nk dla k=0,,n i P(X=k)=0 dla pozostałych k.

Ciąg niezależnym doświadczeń (tzw. prób), z których każda kończy się sukcesem z tym samym prawdopodobieństwem, nazywamy ciągiem prób Bernoulliego (wynik każdej z prób jest zmienną o rozkładzie Bernoulliego!). Zmienna o rozkładzie dwumianowym opisuje liczbę sukcesów w ciągu prób Bernoulliego.

Uwaga 4.7
Notację XBinom(n,p) można traktować jako sposób zapisania faktu, że zmienna X ma rozkład dwumianowy. Można też przyjąć, że Binom(n,p) jest pewną wzorcową zmienną o rozkładzie dwumianowym i wtedy napis XBinom(n,p) oznacza, że obie zmienne mają ten sam (dwumianowy) rozkład.

Rozkład geometryczny

Przykład 4.8
Rzucamy monetą, na której orzeł wypada z prawdopodobieństwem p aż do uzyskania pierwszego orła. Niech X będzie liczbą rzutów (łącznie z rzutem, w którym wypadł orzeł). Jaki rozkład ma X?

Oczywiście P(X=k)>0 tylko dla kN{0}. Mamy P(X=1)=p. Korzystając z niezależności dostajemy P(X=2)=(1p)p i ogólnie P(X=k)=(1p)k1p.

Definicja (Rozkład geometryczny)
Zmienna X ma rozkład geometryczny z parametrem p, ozn. XGeom(p), jeśli P(X=k)=(1p)k1p dla kN{0} i P(X=k)=0 dla pozostałych k.

Zmienna o rozkładzie geometrycznym opisuje numer pierwszej próby zakończonej sukcesem w ciągu prób Bernoulliego.

Rozkład Poissona

Przykład 4.9
Kierownik laboratorium komputerowego otrzymuje średnio λ informacji o awarii komputera na miesiąc. Niech X będzie liczbą takich informacji w konkretnym miesiącu. Jaki rozkład ma X?

Podzielmy miesiąc na n przedziałów czasowych. Załóżmy, że n jest na tyle duże, że prawdopodobieństwo otrzymania dwóch informacji o awarii w jednym przedziale jest zaniedbywalne. Załóżmy ponadto, że zdarzenia odpowiadające otrzymaniu informacji o awarii w różnych przedziałach są niezależne. Wtedy mamy do czynienia z ciągiem n prób Bernoulliego. Jakie jest prawdopodobieństwo sukcesu (niezbyt satysfakcjonującego, ale trzymajmy się konwencji)? Skoro spośród n przedziałów średnio λ powinno zawierać awarię, to intuicyjnie prawdopodobieństwo sukcesu p powinno być równe λn. Wydaje się więc, że rozkład naszej zmiennej X jest dobrze przybliżany przez Binom(n,λn) dla dużych n, t.j.
P(X=k)(nk)(λn)k(1λn)nk.
Można pokazać (ćwiczenia), że dla n wyrażenie to zbiega do eλλkk!.
Powyższe rozwiązanie ma oczywiście w jakimś stopniu charakter heurystyczny. W szczególności nie jest wcale jasne, czy nasze założenia są spełnione. Może być na przykład tak, że awarie komputerów mają tendencję do występowania razem (mogą być na przykład powodowane awariami zasilania). Wtedy poszczególne próby nie byłyby niezależne. Okazuje się jednak, że otrzymany przez nas wzór bardzo dobrze opisuje wiele sytuacji praktycznych.

Definicja (Rozkład Poissona)
Zmienna X ma rozkład Poissona z parametrem λ, ozn. XPois(λ), jeśli P(X=k)=eλλkk! dla kN i P(X=k)=0 dla pozostałych k.

Rozkład Poissona dobrze opisuje procesy podobne do sytuacji opisanej w przykładzie 4.9: liczbę telefonów odebranych w centrum obsługi klienta przez godzinę, liczbę błędów ortograficznych na 1000 znaków rękopisu, itp.

Istnieje jeszcze inne, nieco zaskakujące, zastosowanie rozkładu Poissona. Zwróćmy uwagę, że rozkład Poissona uzyskaliśmy jako granicę rozkładów dwumianowych z dużym n, małym p i np=λ. W związku z tym można użyć rozkładu Poissona Pois(np) do przybliżenia rozkładu dwumianowego Binom(n,p) o ile tylko n jest duże (n powinno być dużo większe niż interesująca nas liczba sukcesów k), a p małe. Co ciekawe, prowadzi to z reguły do prostszych rachunków.

Przykład 4.10
Gramy n=1000000 razy w loterii, w której prawdopodobieństwo wygrania wynosi p=1500000. Jakie jest prawdopodobieństwo tego, że wygramy dokładnie k=2 razy?

Liczba wygranych ma rozkład Binom(n,p), a zatem szukane prawdopodobieństwo jest równe
(n2)p2(1p)n2.
Trzeba to jeszcze tylko obliczyć...

Możemy jednak uniknąć rachunków zauważając, że dla małych k (a nasze k jest bardzo małe) możemy uzyskać dobre przybliżenie odpowiedzi korzystając z rozkładu Pois(np) . Tym razem dostajemy dużo prostszy wzór
e2222=2e20.27.


Dalsze definicje i własności

Rozkład warunkowy

Ponieważ napisy XA czy XY interpretujemy jako zdarzenia, możemy bez żadnych dodatkowych definicji używać pojęcia prawdopodobieństwa warunkowego na przykład tak:
P(XA|B)
lub tak:
P(XY|Y1).

Warto w tym miejscu zwrócić szczególną uwagę na pierwsze z wyrażeń. Przypomnijmy, że para (Ω,P(|B)) jest przestrzenią probabilistyczną. Jeśli potraktujemy X jako zmienną losową określoną na tej przestrzeni, to otrzymamy pewną nową zmienną, z reguły oznaczaną X|B, dla której
P(X|BA)=P(XA|B).
Jest to często używany skrót notacyjny. Rozkład zmiennej X|B nazywa się rozkładem X pod warunkiem B.

Uwaga 4.11
Nie należy mylić wprowadzonej tu notacji ze spotykaną w literaturze notacją X|Y, gdzie X,Y są zmiennymi losowymi. Tej drugiej nie będziemy definiować w ramach tego wykładu.

Niezależność zmiennych losowych

Jak zdefiniować niezależność zmiennych losowych. Następująca intuicyjna definicja działa bardzo dobrze
Definicja (Niezależność zmiennych losowych)
Zmienne losowe X,Y są niezależne jeśli dla każdych zbiorów borelowskich A,BR zachodzi
P(XAYB)=P(XA)P(YB).

Uwaga 4.12
Zamiast niezależności zdarzeń XA i YB dla dowolnych zbiorów borelowskich, można zażądać niezależności dla A,B przedziałów, lub po prostu niezależności zdarzeń Xx i Yy dla dowolnych x,yR. Równoważność tych definicji wynika z definicji zbiorów borelowskich, ale jej dowód nie jest prosty.

Co ciekawe, i bardzo przydatne w obliczeniach, dla dyskretnych zmiennych losowych istnieje prostsza charakteryzacja niezależności
Fakt 4.13
Dyskretne zmienne losowe X,Y są niezależne wtedy i tylko wtedy, gdy dla każdych x,yR zachodzi
P(X=xY=y)=P(X=x)P(Y=y).
Dowód
Jeśli dla dowolnych x,yR zachodzi powyższa równość, to X,Y są niezależne, bo
P(XAYB)=xAyBP(X=xY=y)=xAyBP(X=x)P(Y=y)=xAP(X=x)yBP(Y=y)=P(XA)P(YB).

Implikacja w drugą stronę jest oczywista.

Złożenia

Składając zmienną losową X z funkcją f:RR otrzymujemy nową zmienną losową oznaczaną f(X). Oczywiście w ogólnym przypadku musimy założyć, że funkcja f jest mierzalna.
Przykład 4.14
Jeśli X jest liczbą oczek w rzucie kostką, to:

  • dla f(x)=x2 dostajemy zmienną f(X), która jest kwadratem liczby oczek,
  • dla f(x)=xmod2 dostajemy zmienną 0/1-kową f(X), która jest równa 1, gdy wypada nieparzysta liczba oczek.

Oczywiście zamiast pisać f(X) i definiować osobno funkcję f możemy pisać po prostu X2 czy Xmod2.

Aby upewnić się, czy dobrze rozumiemy jak składać zmienne losowe z funkcjami, sprawdźmy jak wygląda rozkład zmiennej f(X):
P(f(X)A)=P(Xf1(A)).

Nie ma powodu, dla którego mielibyśmy się ograniczać do jednej zmiennej i funkcji jednoargumentowych. Jeśli na przykład X,Y są zmiennymi losowymi, a f:R2R jest funkcją mierzalną, to możemy zdefiniować nową zmienną losową f(X,Y). Analogicznie postępujemy w przypadku większej liczby zmiennych.

W ten sposób, jeśli X,Y są zmiennymi losowymi, to zmienną losową jest też ich suma X+Y, iloczyn XY, czy nawet XY.

Jak wygląda rozkład f(X,Y)?
P(f(X,Y)A)=P((X,Y)f1(A)).
Ten wzór pokazuje, że do obliczenia rozkładu zmiennej f(X,Y) nie wystarczy znajomość rozkładów zmiennych X i Y. Musimy znać ich tzw. rozkład łączny tzn. prawdopodobieństwa postaci P(XAYB).

Sytuacja jest wyjątkowo prosta jeśli zmienne X i Y są niezależne. Mamy wtedy:
P(f(X,Y)A)=P((X,Y)f1(A))=(x,y)f1(A)P(X=x)P(Y=y).

W szczególności zachodzi następujący bardzo przydatny fakt:
Fakt 4.15
Jeśli X,Y są niezależnymi zmiennymi dyskretnymi, to
P(X+Y=k)=xRP(X=x)P(Y=kx).

Dowód wynika natychmiast z naszych dotychczasowych rozważań.