Zacznijmy ten wykład od zastanowienia się nad tym czym jest prawdopodobieństwo pojawiające się w jego tytule, i czym jest losowość, która się z prawdopodobieństwem kojarzy. Wydaje się, że mamy z tymi pojęciami do czynienia całkiem często na co dzień. Oto kilka sytuacji, w których pojawia się pojęcie prawdopodobieństwa/szans:
Zauważmy w tym miejscu, że pojęcie prawdopodobieństwa jest tu używane na bardzo różne sposoby:
Pojęcie losowości jest równie skomplikowane jak pojęcie prawdopodobieństwa:
Ale co to właściwie znaczy, że coś jest losowe? Że nie da się tego przewidzieć? A nie da się przewidzieć wyniku rzutu monetą? Może się da... A wynik meczu? Kto wie, może problem leży w naszej niewystarczającej mocy obliczeniowej i nieumiejętności wystarczającego dokładnego uwzględnienia wszystkich parametrów.
Z powyższych rozważań wynika, że pojęcia prawdopodobieństwa i losowości, tak jak są one rozumiane i używane w języku codziennym, są dość niejasne i trudno byłoby uprawiać ścisłą naukę za ich pomocą. Dlatego nie będziemy tego robić. Zamiast tego zdefiniujemy w bardzo skrupulatny sposób pewną klasę obiektów matematycznych, formalnych modeli zjawisk o charakterze losowym, tzw. przestrzenie probabilistyczne. O przestrzeniach probabilistycznych można rozumować w sposób zupełnie ścisły, a problemy, o których wspomnieliśmy na początku wykładu zaczynają się pojawiać dopiero wtedy, gdy pytamy o to jaka przestrzeń probabilistyczna najlepiej opisuje interesującą nas sytuację.
Warto w tym miejscu zwrócić uwagę na jeszcze jedną rzecz. Jak pokazała nasza wstępna dyskusja z pojęciami szans i losowości spotykamy się bardzo często na co dzień. Dlatego, o ile napotkany na ulicy przechodzień prawdopodobnie nie będzie się czuł szczególnie mocno w teorii przestrzeni Banacha, czy nawet całkowaniu, o tyle prawdopodobnie będzie miał bardzo wiele do powiedzenia na temat tego jak prawdopodobne są różne wyniki opisanego przez nas doświadczenia o charakterze losowym. Czyli wszyscy jesteśmy "ekspertami od prawdopodobieństwa". Taka sytuacja jest oczywiście w jakimś sensie dobra - nie musimy się uczyć wszystkiego od początku - ale też może być bardzo niebezpieczna. Mętna i pozbawiona solidnych podstaw wiedza jest często dużo gorsza niż brak jakiejkolwiek wiedzy. Dlatego zachęcam Państwa do świeżego spojrzenia na to, co będzie się działo w kolejnych wykładach i, w miarę możliwości, oderwania się od wszelkiego rodzaju intuicji i "wiedzy" ze szkoły średniej, przynajmniej przez jakiś czas. Formalizm, który tu zdefiniujemy dość długo będzie sprawiał wrażenie zbędnego obciążenia, aż do momentu kiedy nagle okaże się niezbędny, co może się okazać bardzo nieprzyjemną niespodzianką dla kogoś, kto się do niego nie przyzwyczai.
Zanim zdefiniujemy przestrzeń probabilistyczną wprowadzimy kilka definicji, które w znacznym stopniu ułatwią dalsze rozważania. Za pomocą przestrzeni probabilistycznych będziemy modelować tzw. doświadczenia losowe:
Definicja (doświadczenie losowe i zdarzenie elementarne)
Doświadczeniem/eksperymentem losowym nazywamy dowolny proces (lub ciąg czynności) taki, że:
Uwaga 1.1 Powyższa definicja ma nieco inny charakter niż definicje, z którymi spotykamy się z reguły w teoriach matematycznym. Nie definiujemy tutaj formalnie pojęcia doświadczenia losowego, staramy się raczej wskazać jakie jego cechy będą dla nas istotne, oraz wprowadzić kluczowe terminy.
W szczególności założenia powtarzalności doświadczenia nie należy traktować zbyt dosłownie. Na przykład rozwiązując zadania o pojedynku, w którym każdy z uczestników z pewnym prawdopodobieństwem ginie, trudno sobie wyobrazić powtarzanie doświadczenia dowolnie wiele razy. W tego typu sytuacjach mamy na myśli raczej pewnego rodzaju eksperyment myślowy, niż faktyczne powtarzanie eksperymentu. Tym niemniej, założenie powtarzalności jest dość istotne jako podstawa intuicji częstościowej, o której powiemy później.
Definicja (zdarzenie)
Zdarzeniem nazywamy dowolny podzbiór zbioru zdarzeń elementarnych.
Przykład 1.2
Jeśli rozważanym doświadczeniem losowym jest rzut kostką, to zbiorem zdarzeń elementarnych może być na przykład zbiór \(\Omega = \{1,\ldots,6\}\). W tym przypadku zdarzeniami są np. zbiory \(A = \{2,4,6\}\), \(B=\{1,2,3,4\}\), \(C = \{1,2,3,4,5,6\}\), czy \(D = \emptyset \). Każde takie zdarzenie \(X \subseteq \Omega\) należy interpretować jako "wynikiem doświadczenia było jedno ze zdarzeń elementarnych w \(X\)". W szczególności:
To ostatnie zdarzenie jest oczywiście niemożliwe (i tak się je właśnie często nazywa), co nie zmienia faktu, że jest ono zdarzeniem.
Naszym modelem eksperymentu losowego będzie przestrzeń probabilistyczna. Przestrzeń probabilistyczna będzie się składać ze zbioru zdarzeń elementarnych oraz z pewnego sposobu przypisania zdarzenim liczb z przedziału \([0,1]\), które będziemy nazywać ich prawdopodobieństwami. Definicja, której użyjemy będzie zaskakująco skomplikowana. Dlatego zanim ją podamy, zobaczmy dlaczego nie działają naturalne, prostsze pomysły.
Definicja przestrzeni probabilistycznej - pierwsze podejście
Najbardziej naturalną i najprostszą metodą definiowania przestrzeni probabilistycznej wydaje się przyjęci, że przestrzeń taka jest parą \( (\Omega,P)\), gdzie \(P:\Omega \rightarrow [0,1]\) jest funkcją przypisującą prawdpodobieństwo każdemu zdarzeniu elementarnemu. Funkcję taką możemy w naturalny sposób rozszerzyć na dowolne podzbiory \(A \subseteq \Omega\) w następujący sposób
\( P(A) = \sum_{a \in A} P(a)\).
Problemy z tym podejściem pojawią się, gdy spróbujemy wymodelować w ten sposób losowanie punktu z odcinka \([0,1]\). Intuicyjnie, każdy punkt powinien być równie prawdopodobny, ale skoro tak, to prawdopodobieństwa wszystkich punktów muszą być równe \(0\), w przeciwnym przypadku dostaniemy \(P(\Omega) = \infty\).
Widać więc, że nie możemy definiować \(P\) wychodząc od zdarzeń elementarnych - trzeba \(P\) definiować bezpośrednio na podzbiorach \(\Omega\).
Definicja przestrzeni probabilistycznej - drugie podejście
Kolejny naturalny pomysł to zdefiniowanie przestrzeni probabilistycznej jako pary \((\Omega,P)\), gdzie \(P:2^\Omega \rightarrow \mathbb{R}\). Oczywiście funkcja \(P\) pojawiająca się w tej definicji powinna spełniać pewne naturalne własności, np. \(P(A \cup B) = P(A)+P(B)\), jeśli \(A,B \subseteq \Omega\) są rozłączne. Okazuje się, że takie funkcje \(P\) to nic innego jak miary, o których była mowa na wykładzie z analizy matematycznej. I tu pojawia się problem: Jeśli, tak jak poprzednio, spróbujemy zdefiniować przestrzeń probabilistyczną odpowiadającą losowaniu punktu z odcinka, to będziemy musieli określić miarę \(P:2^{[0,1]} \rightarrow [0,1]\). Co więcej, aby miara ta odpowiadała naszej intuicji losowania punktu z odcinka powinna ona spełniać pewne dodatkowe własności, np. \(P(A) = P(a+A)\) dla dowolnych \(a \in [0,1]\) oraz \(A,a+A \subseteq [0,1]\), gdzie \(a+A = \{a+x : x \in A\}\). Niestety, jak wiemy z wykładu z analizy matematycznej, takiej miary skonstruwać się nie da. Najlepsze co możemy zrobić to zdefiniować miarę na dość dużej rodzinie podzbiorów \([0,1]\), tzw. zbiorach mierzalnych w sensie Lebesgue'a.
Powyższe rozważania prowadzą do następującej definicji przestrzeni probabilistycznej:
Definicja (przestrzeń probabilistyczna)
Przestrzenią probabilistyczną nazywamy trójkę \((\Omega,\mathcal{F},P)\), gdzie \(\mathcal{F} \subseteq 2^\Omega\) oraz \(P:\mathcal{F} \rightarrow [0,1]\). Ponadto \(\mathcal{F}\) musi spełniać następujące warunki:
a \(P\) następujące warunki:
Uwaga 1.3
W kolejnych wykładach bardzo często będziemy mieli do czynienia z sytuacjami, w których \(\Omega\) jest zbiorem skończonym, ew. nieskończonym przeliczalnym. W takich sytuacjach problemy z mierzalnością nie mogą się pojawić i w powyższej definicji można zawsze przyjąć \(\mathcal{F} = 2^\Omega\). Dla uproszczenia notacji będziemy wtedy zamiast pisać \((\Omega,P)\) zamiast \( (\Omega,\mathcal{F},P)\), oraz \(A \subseteq \Omega\) zamiast \(A \in \mathcal{F}\).
Uwaga 1.4
Dość często będą nas interesowały wartości \(P\) na podzbiorach jednoelementowych. Będziemy wtedy dla uproszczenia pisać \(P(x)\) zamiast \(P(\{x\})\).
Wprost z definicji przestrzeni probabilistycznej prosto wynika wiele naturalnych własności prawdopodobieństwa, oto kilka z nich:
Fakt 1.5 (własności prawdopodobieństwa)
Niech \((\Omega,\mathcal{F},P)\) będzie przestrzenią probabilistyczną. Wtedy:
Dowód
Z zamkniętości \(\mathcal{F}\) na dopełnienia wynika, że \(\bar{A} \in \mathcal{F}\). Możemy więc użyć przeliczalnej addytywności \(P\) i dostajemy \(P(A)+P(\bar{A}) = P(\Omega) =1\), co daje tezę.
2. wynika z 1. dla \(A=\emptyset\).
3. wynika z zamkniętości \(\mathcal{F}\) na przeliczalne sumy i praw de Morgana,
4. wynika z przeliczalnej addytywności \(P\). Mamy bowiem \(P(B) = P(A) + P(B \setminus A)\) (to, że \(B \setminus A = B \cap \bar{A} \in \mathcal{F}\) wynika z 3.),
Wreszcie, aby pokazać 5. zdefiniujmy dla \(B_i = A_i \setminus \bigcup_{j=1}^{i-1} A_j\) dla \(i=1,2,\ldots\). Wtedy mamy \(\bigcup_{i=1}^\infty A_i = \bigcup_{i=1}^\infty B_i\) oraz \(B_i \subseteq A_i\) i ponadto \(B_i\) są parami rozłączne , a zatem:
\( P(\bigcup_{i=1}^\infty A_i) = P(\bigcup_{i=1}^\infty B_i) = \sum_{i=1}^\infty P(B_i) \le \sum_{i=1}^\infty P(A_i) \).
Zastanowimy się teraz jak powinna wyglądać funkcja \(P\) z definicji przestrzeni probabilistycznej. Jest dość jasne, że podane przez nas aksjomaty nie wyznaczają \(P\) jednoznacznie. Na przykład, jeśli rzucamy monetą i bierzemy \(\Omega = \{O,R\}\), to z aksjomatów wynika jedynie, że
\(P(\emptyset)=0,\ P(\Omega) = 1,\ (P(O)+P(R) = 1\).
A ile jest równe \(P(O)\) czy \(P(R)\)? Wiele osób uważa, że teoria prawdopodobieństwa w jakiś sposób dowodzi tego, że \(P(O)=P(R)=\frac{1}{2}\), czyli w szczególności, że wynika to z aksjomatów. Nic z tych rzeczy, i dobrze, że tak nie jest. Gdyby z aksjomatów wynikało, że \(P(O)=\frac{1}{2}\), to nie bylibyśmy w stanie wymodelować oszukanej monety!
No dobrze, ale w takim razie skąd weźmie się wartość \(P(O)\)? Otóż naszym zadaniem jest, w ramach budowania probabilistycznego modelu rozpatrywanego doświadczenia, dobranie \(P\) tak, aby jak najlepiej opisywało to doświadczenie. Dobrym punktem wyjścia do definicji \(P\) jest często intuicja częstościowa: Jeśli wykonamy bardzo wiele powtórzeń tego samego eksperymentu, to frakcja powtórzeń, w których zaszło zdarzenie \(A\) powinna zbiegać do prawdopodobieństwa \(A\).
Uwaga 1.6
Opisanej powyżej intuicji częstościowej można użyć do innej (nieaksjomatycznej) definicji przestrzeni probabilistycznej odpowiadającej doświadczeniu losowemu. Możemy mianowicie każdemu zdarzeniu \(A\) przypisać prawdopodobieństwo \(P(A)\), które jest granicą frakcji powtórzeń doświadczenia, dla których \(A\) zaszło. Takie podejście niesie ze sobą wiele problemów, zaczynając od tego, że nie jest całkiem jasne dlaczego taka granica miałaby w ogóle istnieć (w tym miejscu warto się zastanowić nad tym co się stanie jeśli spróbujemy użyć tego podejścia do modelowania losowania punktu z odcinka). W naszym podejściu intuicja częstościowa prawdopodobieństwa jest używana tylko przy wyborze modelu, natomiast sama definicja przestrzeni probabilistycznej jest całkowicie od niej niezależna.
Co daje intuicja częstościowa w przypadku rzutu monetą? Intuicyjnie wydaje się jasne, że na dłuższą metę orzeł i reszka powinny wypadać równie często, to jest w połowie rzutów. Jeśli prawdopodobieństwa mają odpowiadać częstościom, to powinniśmy przyjąć \(P(O)=P(R)=\frac{1}{2}\). Mamy wtedy bowiem \(P(O)=P(R)\) oraz \(P(O) + P(R) = P(\Omega) = 1\). Podkreślmy jednak raz jeszcze, że jest to tylko założenie, na dodatek prawie zawsze fałszywe w przypadku fizycznych monet - która moneta jest idealna? Oczywiście monety wyimaginowane są idealne, jeśli tylko tego chcemy.
Rozumowanie, którego użyliśmy przy wyborze probabilistycznego modelu dla rzutu monetą jest stosowane bardzo często, w nieco ogólniejszej postaci, i ma nawet swoją nazwę.
Fakt 1.7 (Schemat klasyczny)
Niech \((\Omega,P)\) będzie skończoną przestrzenią probabilistyczną. Jeśli dla każdych \(x,y \in \Omega\) zachodzi \(P(x) = P(y)\), to:
Oczywisty dowód pomijamy.
Schemat klasyczny ma wiele zastosowań, używając go należy być jednak ostrożnym - schemat klasyczny nie zawsze prowadzi do sensownego modelu.
Przykład 1.8
W XVIII-wiecznej encyklopedii d'Alambert pisze, że prawdopodobieństwo uzyskania co najmniej jednego orła w dwóch rzutach wynosi \(\frac{2}{3}\). Dlaczego? Otóż, możliwe są \(3\) wyniki: O (wtedy dalsze rzuty nie są istotne), RO i RR. Z tych wyników tylko ostatni nam nie pasuje. Zgadzamy się z tym rozumowaniem? Raczej nie. Wydaje się jasne, że wyniki O,RO,RR nie powinny być równie prawdopodobne.
Oczywiście można problem rozważany przez d'Alamberta rozwiązać używając schematu klasycznego. Czy widzisz jak?
Przykład 1.9
Przypuśćmy, że interesuje nas prawdopodobieństwo tego, że w losowej \(5\)-kartowej ręce pokerowej jest dokładnie jedna para (w szczególności nie ma w niej trójki ani dwóch par). Aby obliczyć to prawdopodobieństwo przyjmijmy, że \( \Omega \) to zbiór wszystkich \(5\)-elementowych podzbiorów zbioru \(52\) kart. Niech \(A\) będzie zbiorem wszystkich zbiorów zawierających dokładnie jedną parę. Chcemy obliczyć \(P(A)\). Ponieważ każdy \(5\)-elementowy podzbiór kart powinien być równie prawdopodobny, korzystamy ze schematu klasycznego i dostajemy:
\(P(A) = \frac{|A|}{|\Omega|}\).
Jasne jest, że \(|\Omega| = {52 \choose 5}\), a jaka jest moc \(A\)? Zastanówmy się na ile sposobów można wybrać podzbiór zawierający dokładnie jedną parę:
Ostatecznie dostajemy \(|A| = 13 \cdot 6 \cdot 4^3 \cdot {12 \choose 3}\) oraz \(P(A) = \frac{|A|}{|\Omega|} \approx 0.423 \).
Jak widać użycie schematu klasycznego sprowadziło problem probabilistyczny do problemu kombinatorycznego. Na ćwiczeniach zobaczymy więcej tego rodzaju zadań.
Na koniec wykładu krótka uwaga dotycząca modelowania rzeczywistych doświadczeń przestrzeniami probabilistycznymi: Pamiętajmy, że są to tylko modele i (prawie zawsze) są one jedynie przybliżeniami rzeczywistości. Mówiliśmy już o tym przy okazji przykładu z rzutem monetą, ale zobaczmy jeszcze jeden nieco ciekawszy przykład. Chcemy zbudować model probabilistyczny, który pozwoli nam obliczyć prawdopodobieństwo tego, że losowo wybrana osoba urodziła się \(1\) czerwca. Najprostszy pomysł to przyjąć, że \(\Omega\) składa się z \(365\) dni roku i każdy jest równie prawdopodobny. Ten model prowadzi do odpowiedzi \(\frac{1}{365}\), ale nie jest zbyt dobry. Dlaczego? Zapomnieliśmy o latach przestępnych. Uwzględnienie lat przestępnych jest nieco problematyczne, bo nie dość, że trzeba w tym celu obliczyć jak duża jest frakcja lat przestępnych, to zapewne chcielibyśmy przy tym uwzględnić to ile lat wstecz patrzymy. Nie interesują nas przecież lata przestępne \(150\) lat temu!
No dobrze, przypuśćmy, że udało nam się jakoś uwzględnić lata przestępne. Czy to jest dobry model? Na pewno jest niezły, ale nie jest idealny. Wiadomo przecież, że nie każda data urodzin jest równie prawdopodobna. W niektórych miesiącach rodzi się, z różnych przyczyn, dużo więcej dzieci niż w innych. Zachęcamy czytelnika do zastanowienia się co jeszcze nie zostało uwzględnione w tym modelu.
Wniosek z tych rozważań jest taki, że model probabilistyczny zawsze będzie kompromisem między prostotą opisu, a dokładnością odwzorowania rzeczywistości.