(image)

Rachunek prawdopodobieństwa 1, 2

Jerzy Ombach

Spis treści

Rachunek prawdopodobieństwa — Wstęp

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 1 Wstęp

Prezentowany podręcznik odpowiada przedmiotom: Rachunek prawdopodobieństwa 1 (rozdziały 2 – 11) oraz Rachunek prawdopodobieństwa 2 (rozdziały 12 – 20), prowadzonym od kilku lat dla studentów II roku na specjalnościach matematyka stosowana, matematyka w ekonomii i matematyka ogólna na kierunku matematyka, studia I stopnia, na Uniwersytecie Jagiellońskim. Składa się on w dwóch różnych części, Prezentacji oraz Ćwiczeń komputerowych.

1.1 Prezentacja

Prezentacja w sposób dość zwięzły wprowadza podstawowe narzędzia i metody rachunku prawdopodobieństwa niezbędne do studiowania przedmiotów takich jak statystyka, procesy stochastyczne, ekonometria i matematyka finansowa. Stosunkowo dużo miejsca zajmują przykłady, które mają na celu wyrobienie u Studentów intuicji probabilistycznych. Podobną rolę spełnia dość duża liczba zalecanych na bieżąco ćwiczeń.

Zakładamy znajomość podstaw teorii mnogości, analizy matematycznej funkcji jeden zmiennej, algebry liniowej z geometrią i topologii. W trakcie II roku studenci uczestniczą w równoległych zajęciach z analizy matematycznej funkcji wielu zmiennych oraz z teorii miary i całki. Dzięki temu w miarę upływu czasu będziemy w naszym kursie korzystać z powyższego faktu używając poznane na tych kursach pojęcia i metody. Także to jest powodem, że w Prezentacji zdecydowaliśmy się pominąć dowody pewnych twierdzeń stanowiących podstawę rachunku prawdopodobieństwa, gdyż są one omawiane w trakcie wymienionych kursów.

Rachunek prawdopodobieństwa — Ćwiczenia komputerowe

(image)

Rachunek prawdopodobieństwa 1, 2

1.2 Ćwiczenia komputerowe

W trakcie kursu warto samodzielnie przeprowadzić odpowiednio dużą liczbę eksperymentów ilustrujących przerabiany materiał oraz rozwiązać szereg zagadnień wykorzystujących możliwości stwarzane obecnie przez komputer. Mogą do tego służyć przygotowane Ćwiczenia komputerowe dające możliwość prowadzenia symulacji, obliczeń oraz prezentacji nawiązujących i rozszerzających program kursu.

Ćwiczenia komputerowe są formalne niezależne od Prezentacji, chociaż tematycznie odpowiadają poszczególnym rozdziałom, a niektóre przykłady z Prezentacji są rozwijane w poszczególnych punktach. Każde z Ćwiczeń zawiera wprowadzenie, wskazówki i komentarze, więc osoby orientujące się w tematyce nie muszą przeglądać Prezentacji przed przystąpieniem do poszczególnych Ćwiczeń. Ich zaletą jest możliwość samodzielnej modyfikacji parametrów, a nawet całych procedur, co powinno inspirować użytkownika do samodzielnych eksperymentów. Ćwiczenia były przygotowywane przy użyciu Maple 18. Zdecydowana większość działa sprawnie w kilku poprzednich wersjach Maple oraz w Maple 20191. Do ich przerabiania zalecany jest interface Classic, który wyraźniej niż domyślny interface Standard pozwala na odróżnieniu kodu od tekstu komentarzy, co pozwala myślącemu użytkownikowi na bardziej samodzielną pracę.

Należy podkreślić, że w sieci można znaleźć wiele innych bardzo ciekawych ćwiczeń/demonstracji wspomagających kurs rachunku prawdopodobieństwa. Zostały przygotowane przy użyciu różnorodnego oprogramowania. Także kolejne wersje Maple oferują coraz więcej gotowych aplikacji na ten temat.

1 Maple 2019 ma problem z symbolicznym obliczeniem sum nieskończonych!

Rachunek prawdopodobieństwa — Pomocne podręczniki

(image)

Rachunek prawdopodobieństwa 1, 2

1.3 Pomocne podręczniki

W zakresie naszych kursów rachunku prawdopodobieństwa niniejszy podręcznik jest w zasadzie samowystarczalny. Niemniej, warto nieraz porównać lub skonfrontować przerabiany materiał z innymi źródłami. Warto polecić:

  • Jakubowski J., Sztencel R., Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2010.

    Jest to poważny i kompletny podręcznik o bardziej teoretycznym charakterze, który w niektórych miejscach istotnie poszerza niniejszy kurs.

  • Jakubowski J., Sztencel R., Rachunek prawdopodobieństwa dla prawie każdego, Script, Warszawa 2006. Zawiera mniej treści i szczegółów niż poprzedni, ale osobom mniej zaawansowanym będzie się go dobrze czytać.

  • Ash R..B., Doleans-Dade C., Probability and mesure theory 2nd Edition, Academic Press, New York 2000.

    Jest to dość formalny wykład rachunku prawdopodobieństwa z uwypukleniem powiązań z teorią miary, topologią i analizą funkcjonalną.

  • Ombach J., Rachunek prawdopodobieństwa wspomagany komputerowo dla studentów matematyki stosowanej, Wydawnictwo UJ, Kraków 2018.

    Najbardziej zbliżony do obecnego podręcznika: jest jednak inaczej zorganizowany, zawiera zestawy zadań do samodzielnego rozwiązania oraz dodatki. Jest silniej niż obecna Prezentacja zależny od wyników ćwiczeń komputerowych. Nie zawiera jednak szeregu ważnych tematów (funkcje tworzące, momenty stopu, i inne), które pojawiają się obecnie. Obecny podręcznik zawiera ponad 100 Pytań sprawdzających stopień zrozumienia poszczególnych rozdziałów, przy czym po każdym Pytaniu Czytelnik może ewentualnie skorzystać z podpowiedzi lub nawet pełnych rozwiązań.

Istnieje wiele innych dobrych podręczników do rachunku prawdopodobieństwa. Część z nich została wskazana na stronie (página for seção 20.5) oraz w podręczniku [20]. Są tam także wymienione pozycje, które w sposób istotny poszerzają omawiany w tym kursie materiał.

Do korzystania z Ćwiczeń komputerowych wystarczy niewielka znajomość Maple. Program ten zapewnia wszechstronny system Pomocy, co daje możliwość pracy nawet mało doświadczonym użytkownikom.

Rachunek prawdopodobieństwa — Podstawowe schematy probabilistyczne

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 2 Podstawowe schematy probabilistyczne

2.1 Aksjomaty przestrzeni probabilistycznej

Zaczynamy od podania definicji przestrzeni probabilistycznej zaproponowanej prawie sto lat temu i obecnie najczęściej używanej.

  • Definicja – 2.1 (Kołmogorow) Niech będą dane: niepusty zbiór \(\Omega \), pewna rodzina \(\Sigma \) podzbiorów zbioru \(\Omega \) i funkcja \(P\colon \Sigma \str \r \). Trójkę \((\Omega ,\Sigma ,P)\) nazywamy przestrzenią probabilistyczną, gdy zachodzą następujące warunki:

    • 1. \(\Omega \in \Sigma ,\)

    • 2. jeżeli zbiory \(A_1,A_2,A_3,\dots \in \Sigma \), to \(\bigcup _{i=1}^{\infty }A_i \in \Sigma \),

    • 3. jeżeli \(A,B \in \Sigma \), to \(A\setminus B \in \Sigma \),

    • 4. jeżeli \(A \in \Sigma \), to \(P(A) \ge 0\),

    • 5. jeżeli zbiory \(A_1,A_2,A_3,\dots \in \Sigma \) są parami rozłączne, to:

      \[P(\bigcup _{i=1}^{\infty }A_i) = \sum _{i=1}^{\infty }P(A_i),\]

    • 6. \(P(\Omega ) = 1\).

Terminologia

Rodzina \(\Sigma \) spełniająca warunki 1 - 3 – \(\sigma \)-algebra,

Funkcja \(P\) spełniająca warunki 4, 5 – miara,

Funkcja \(P\) spełniająca warunki 4 - 6 – miara probabilistyczna,

\(\o \in \Omega \) – zdarzenie elementarne,

\(A \in \Sigma \) – zdarzenie,

\(\Omega \setminus A \) – zdarzenie przeciwne do \(A\),

\(P(A)\) – prawdopodobieństwo zdarzenia \(A\),

\(\emptyset \) – zdarzenie niemożliwe,

\(\Omega \) – zdarzenie pewne.

Uwaga. Nie zawsze \(\{\o \} \in \Sigma \), czyli zdarzenia elementarne nie muszą być zdarzeniami!

  • Przykład – 2.2 Rzut kostką. Informacja: czy wypadnie „6"(TAK/NIE).

    \(\Omega = \{1,2,3,4,5,6\}\), \(\Sigma = \{\emptyset , \{1,2,3,4,5\}, \{6\}, \Omega \}\), \(P(A) = \frac {\sharp A}{6}\).

Podstawowe własności:

  • 1. \(\O \in \Sigma \).
    bo \(\O = \Omega \setminus \Omega \).

  • 2. Jeżeli zbiory \(A_1,A_2,A_3,\dots \in \Sigma , \) to \(\bigcap _{i=1}^{\infty }A_i \in \Sigma \),
    bo prawa de Morgana.

  • 3. \(\di P(\O )=0\).
    bo \(\di P(\O ) = P(\bigcup _{i=1}^\infty \O ) = \sum _{i=1}^\infty P(\O )\).

  • 4. Jeżeli zbiory \(A_1,A_2,A_3,\dots , A_n \in \Sigma \) oraz \(A_{i}\cap A_{j} = \O \) dla \(i\neq j\), to: \(\di P(\bigcup _{i=1}^{n}A_i) = \sum _{i=1}^{n}P(A_i)\).
    bo \(\di P(\bigcup _{i=1}^{n}A_i) = P(\bigcup _{i=1}^{\infty }A_i)\), gdzie \(A_i = \O \) dla \(i > n\).

  • 5. Jeżeli \(A\) i \(B\) są takimi zdarzeniami, że \(A\subset B,\) to:

    \[ P(B)=P(A)+P(B\setminus A),\]

    bo \(B = A \cup (B\setminus A)\).

  • 6. Dla każdego zdarzenia \(A\):

    \[ P(\Omega \backslash A)=1-P(A),\]

  • 7. Jeżeli \(A\) i \(B\) są takimi zdarzeniami, że \(A\subset B\), to:

    \[P(A)\le P(B),\]

  • 8. Dla dowolnych zdarzeń \(A\) i \(B\):

    \[P(A\cup B)=P(A)+P(B)-P(A\cap B),\]

    bo \(A\cup B = (A\setminus B) \cup (B \setminus A) \cup (A\cap B)\) – suma zbiorów rozłącznych.

Własności ciągów zdarzeń:

  • 1. Dla dowolnych zdarzeń \(A_1, A_2, A_3, \dots \):

    \[P(\bigcup _{i=1}^{\infty }A_i) \le \sum _{i=1}^{\infty }P(A_i),\]

    bo \(\di \bigcup _{i=1}^{\infty }A_i = \bigcup _{i=1}^{\infty }B_i\) – suma zbiorów rozłącznych, gdzie
    \(B_1 = A_1\), \(B_2 = A_2 \setminus A_1\), \(B_3 = A_3 \setminus (A_1 \cup A_2)\), ….

  • 2. Jeżeli \(P(A_i) = 0\), \(i = 1, \dots n\), \(n \le \infty \), to \(\di P(\bigcup _{i=1}^{n}A_i) = 0\).

  • 3. Jeżeli \(P(A_i) = 1\), \(i = 1, \dots n\), \(n \le \infty \), to \(\di P(\bigcap _{i=1}^{n}A_i) =1 \).
    bo Prawo de Morgana.

  • Twierdzenie – 2.3 (o ciągu zdarzeń wstępujących) Jeżeli \(A_{1}\subset A_{2} \subset A_3 \subset \dots ,\) to:

    \[\lim _{n \rightarrow \infty } P(A_n) =P(\bigcup _{n=1}^{\infty }A_n),\]

Dowód. \(\di P(\bigcup _{n=1}^{\infty }A_n) = P(\bigcup _{n=1}^{\infty }(A_n \setminus A_{n-1})) = \sum _{n=1}^\infty P(A_n \setminus A_{n-1}) = \lim _{N \to \infty } \sum _{n=1}^N P(A_n \setminus A_{n-1}) = \lim _{N \to \infty } P(A_N)\). Tutaj \(A_0 = \O \).   \(\Box \)

  • Twierdzenie – 2.4 (o ciągu zdarzeń zstępujących) Jeżeli \(A_{1}\supset A_{2}\supset A_3\supset \dots \), to:

    \[\lim _{n \rightarrow \infty } P(A_n) =P(\bigcap _{n=1}^{\infty }A_n).\]

Dowód. Prawa de Morgana.   \(\Box \)

Rachunek prawdopodobieństwa — Przyklady przestrzeni probabilistycznych

(image)

Rachunek prawdopodobieństwa 1, 2

2.2 Przykłady przestrzeni probabilistycznych

1. Schemat klasyczny.

Niech: \(\Omega =\{\omega _{1},\dots ,\omega _{n}\}\) oraz niech \(\Sigma \) składa się ze wszystkich podzbiorów zbioru \(\Omega \), czyli: \(\Sigma ={\cal P}(\Omega ).\) Jeżeli \(A\in \Sigma \), to przyjmijmy: \(P(A)={\# A\over n}.\)

Trójka \((\Omega ,\Sigma ,P)\) stanowi przestrzeń probabilistyczną.

Schemat klasyczny jest modelem wielu zjawisk w których liczba zdarzeń elementarnych jest skończona, są one jednakowo prawdopodobne i mamy pełną informację o eksperymencie.

Rzut kostką symetryczną: \(\Omega \) = \(\{1,2,3,4,5,6\}\) – wtedy prawdopodobieństwo każdego zdarzenia elementarnego wynosi \(\frac {1}{6}\).

Rzut dwiema kostkami symetrycznymi: \(\Omega = \{(i,j): i,j = 1,\dots , 6\}\) – zbiór 36 par utworzonych z liczb \(1,2,3,4,5,6\). Wtedy prawdopodobieństwo każdego zdarzenia elementarnego wynosi \(\frac {1}{36}\).

Gdy startując w konkursie wybieramy jedno z 20 pytań, nasz zbiór \(\Omega \) ma 20 elementów i prawdopodobieństwo zdarzenia elementarnego jest równe \(\frac {1}{20}\).

2. Schemat klasyczny z niepełną informacją.

  • Przykład – 2.5

    Rzut dwiema kostkami. Informacja: suma oczek.

    Na przykład, przy 10 rzutach można dostać taką informację:

    \[ 4, 7, 5, 2, 6, 11, 7, 9, 9, 6. \]

    Zdarzeniem elementarnym jest para liczb, czyli \(\Omega = \{(i,j): i,j = 1,...,6\} = \{1,...,6\}^2\).

    Zdarzeniami są zbiory \(F_2\), …, \(F_{12}\), które składają się ze zdarzeń elementarnych. Na przykład \(F_4 = \{(1,3),(2,2),(3,1)\}\).

    Ogólnie: \(F_k = \{(i,j): i+j = k\}\), \(k = 2,...,12\).

    Na podstawie informacji, którą mamy można jednak powiedzieć, że na przykład zaszło zdarzenie: suma oczek jest większa od 10, gdyż jest to zdarzenie \(R_{11} \cup F_{12}\), lub, że suma oczek jest liczbą pierwszą: \(F_2 \cup F_3 \cup F_5 \cup F_7 \cup F_{11}\). \(\sigma \)-algebrą \(\Sigma \) jest więc rodzina składająca się ze wszystkich sum zbiorów \(F_2\), …, \(F_{12}\).

Powyższy przykład można uogólnić.

Niech \(\Omega =\{\omega _{1},\dots ,\omega _{n}\}\).

Niech \(F_1, \dots , F_k\) będą podzbiorami \(\Omega \) spełniającymi warunki:
\(\di \bigcup _{i=1}^k F_i = \Omega \), oraz \(F_i \cap F_j\) dla \(i \neq j\). Określamy:

\[ \Sigma = \left \{\bigcup _{j\ \in J} F_j: J \subset \Omega \right \}. \]

Określamy \(P : \Sigma \to \r \) jako \(P(A) = \frac {\# A}{n}\).

Oczywiście \(\Sigma \) jest \(\sigma \)-algebrą, a (Ω, Σ, P ) przestrzenią probabilistyczną.

  • Przykład – 2.6 Doświadczenie: trzykrotny rzut monetą symetryczną. Informacja: ile wypadło orłów.

    \(\Omega = \{O,R\}^3\).

    \(F_0 = \{(R,R,R)\}\), \(F_1 = \{(O,R,R),(R,O,R),(R,R,O)\}\),
    \(F_2 = \{(0,O,R), (O,R,O), (R,O,O)\}\), \(F_3 = \{)O,O,O)\}\).

3. Schemat dyskretny skończony.

Niech: \(\Omega =\{\omega _{1},\dots ,\omega _{n}\}\), \(\Sigma ={\cal P}(\Omega ).\) Niech \(p_1,p_2, \dots , p_n\) będzie ciągiem liczb dodatnich (lub nieujemnych) takich, że \(\sum _{i=1}^np_i =1\). Określamy:

\[ P(A) = \sum _{i: x_i \in A}p_i, \mbox { dla } A \in \Sigma . \]

Można łatwo sprawdzić (ćwiczenie), że (Ω, Σ, P ) jest przestrzenią probabilistyczną.

Gdy \(p_i = \frac {1}{n}\), to otrzymujemy schemat klasyczny.

Gdy rzucamy fałszywą kostką, to \(p_i\) nie są sobie równe. Na przykład mogą wynosić: \(0.3, 0.15, 0.15, 0.15, 0.15, 0.1\).

Oczywiście \(P(\{\omega _i\}) = p_i\), dla każdego \(i\).

4. Schemat dyskretny nieskończony.

Niech: \(\Omega =\{\omega _{1}, \omega _2, \omega _3,\dots \}\), \(\Sigma ={\cal P}(\Omega ).\) Niech \(p_1,p_2, p_3 \dots \) będzie ciągiem liczb dodatnich (lub nieujemnych) takich, że \(\sum _{i=1}^\infty p_i =1\). Określamy:

\[ P(A) = \sum _{i: x_i \in A}p_i, \mbox { dla } A \in \Sigma . \]

Można sprawdzić, że (Ω, Σ, P ) jest przestrzenią probabilistyczną.

  • Przykład – 2.7

    Powyższy schemat stosowany jest do opisu następującej sytuacji: Gracz rzuca tak długo kostką, aż uzyska „6". Interesuje nas, w którym rzucie to nastąpi. Inaczej, warto tak określić przestrzeń probabilistyczną, żeby zdarzeniami elementarnymi były liczby 1,2,3, …. Zakładając, że mamy pełną informację o przebiegu eksperymentu, określamy więc:
    \(\Omega = \{1,2,3, ... \}\), \(\Sigma ={\cal P}(\Omega ).\). Pamiętając, że \(p_i = P(\{i\})\) możemy kolejno określić: \(p_1\) – prawdopodobieństwo tego, że w pierwszym, rzucie pojawi się „6"= \(\frac {1}{6}\). \(p_2\) – prawdopodobieństwo tego, że w pierwszym, rzucie pojawi się coś innego niż „6", a w drugim rzucie „6"= \(\frac {5}{36}\). Stosujemy tutaj schemat klasyczny:
    \(\Omega = \{1,...,6\}^2\), \(A = \{(i,j) \in \Omega : 1 \le i \le 5, j = 6\}\), \(p_2 = P(A)\). Podobnie, stosując kolejno schematy klasyczne możemy obliczyć, że:

    \(p_i = \frac {5^{i-1}}{6^i}\), dla \(i = 3,4,4, \dots \).

    Zauważmy, że \(\sum _{i=1}^\infty p_i = \frac {1}{6}\frac {1}{1-\frac {5}{6}} = 1.\)

5. Przestrzeń probabilistyczna o nośniku \(\rn \).

Miech \(X\) będzie niepustym zbiorem. Niech \({\cal F} \subset {\cal P}(X)\) będzie rodziną zbiorów. Przez \(\sigma ({\cal F})\) oznaczamy najmniejszą \(\sigma \)-algebrę zawierającą rodzinę \(\cal F\). Zauważmy, że \(\sigma ({\cal F})\) jest iloczynem wszystkich \(\sigma \)-algebr zawierających \(\cal F\).

Jeżeli \(\cal F\) jest rodziną wszystkich zbiorów otwartych w \(X\), to \(\sigma ({\cal F})\) nazywamy \(\sigma \)-algebrą zbiorów borelowskich i oznaczamy \({\cal B}(X)\).

Gdy \(X = \r \), \({\cal B}(\r )\) może być scharakteryzowana również na inne równoważne sposoby. Można udowodnić, że: \({\cal B}(\r ) = \sigma ({\cal G})\), gdzie \(\cal G\) jest:
rodziną wszystkich zbiorów domkniętych, lub
rodziną wszystkich przedziałów \((a,b)\), lub
rodziną wszystkich przedziałów \((a,b]\), lub
rodziną wszystkich przedziałów \((-\infty ,b]\), i t.d. Podobnie można na różne sposoby scharakteryzować \({\cal B}(\rn )\), dla \(n > 1\).

Jakkolwiek \({\cal B}(\rn )\) zawiera większość podzbiorów zawartych w \(\rn \) rozważanych w praktyce i teorii, to istnieją podzbiory \(\rn \), które nie są zbiorami borelowskimi:

\[ {\cal P}(\rn ) \setminus {\cal B}(\rn ) \neq \emptyset !!! \]

Okazuje się, że na zbiorze \({\cal B}(\rn )\) można określić wiele różnych miar. Najważniejszą z nich jest miara Lebesgue’a, która w naturalny sposób uogólnia pojęcie długości w \(\r \), pola w \(\r ^2\) i objętości w \(\r ^3\). Będziemy tę miarę oznaczać przez \(\mu _{L_n}\).

Można pokazać, że miary Lebesgue’a nie można rozszerzyć na \(\sigma \)-algebrę wszystkich zbiorów, \({\cal P}(\rn )\).

Za pomocą miary Lebesgue’a można w różny sposób określać miary probabilistyczne. Najprostszy sposób to:

Prawdopodobieństwo geometryczne.

Niech \(\Omega \in {\cal B}(\rn )\) będzie takim zbiorem, że \(0 < \mu _{L_n}(\Omega ) < \infty \).

Niech \(\Sigma = \{A \subset \Omega : A \in {\cal B}(\rn )\}\).

Niech \(\di P(A) = \frac {\mu _{L_n}(A)}{\mu _{L_n}(\Omega )}\), dla \(A \in \Sigma \).

Można łatwo sprawdzić (ćwiczenie), że (Ω, Σ, P ) jest przestrzenią probabilistyczną.

  • Przykład – 2.8

    Kaja i Leon losują na chybił-trafił i niezależnie od siebie po jednej liczbie od 0 do 100. Jeżeli liczby różnią się nie więcej niż o 10, uważają, że warto pójść razem do kina. Jakie jest prawdopodobieństwo, że Kaja i Leon pójdą razem do kina?

    Przestrzenią zdarzeń elementarnych \(\Omega \) może być kwadrat \([0,100] \times [0,100]\), a miara probabilistyczna miara \(P\) określona jako \(P(A) = \frac {\mu _{L_2}(A)}{100^2})\) dla \(A\in \b (\Omega )\). Zdarzenie, które nas interesuje, \(\di K =\{(x,y) \in \Omega : |x-y| \le \frac {1}{10} \}.\) ma, jak łatwo się przekonać, prawdopodobieństwo \(P(K)= 0.19\).

(image)

Wybierając model matematyczny czynimy zawsze pewne założenia, które wydają się odpowiadać rzeczywistej sytuacji. W powyższym przykładzie założyliśmy, że niezależny od siebie wybór dwóch liczb od 0 do 100 jest identyczny z wyborem punktu w kwadracie o boku mającym długość 100. Gdybyśmy jednak wiedzieli, że, na przykład, Kaja będzie wybierać chętniej małe liczby, ten model byłby bezużyteczny.

Zawsze upewnij się, co w danej sytuacji należy rozumieć przez słowa „wybór losowy".

  • Przykład – 2.9

    Dany jest okrąg o promieniu \(r = 1\). Jakie jest prawdopodobieństwo tego, że losowo wybrana cięciwa tego okręgu jest krótsza niż bok trójkąta równobocznego wpisanego w ten okrąg?

Rozwiązanie:

(1) Mając ustalony jeden z końców cięciwy, wybieramy taki trójkąt równoboczny wpisany, że jego wierzchołek jest w tym punkcie. Losowanie cięciwy oznacza ustalenie drugiego jej końca. Tak więc \(\Omega \) jest całym okręgiem, za \(\Sigma \) naturalnie jest przyjąć rodzinę zbiorów mierzalnych na okręgu, a \(P\) jest miarą Lebesgue’a (długością) podzieloną przez \(2\pi .\) Widać, że prawdopodobieństwo interesującego nas zdarzenia jest równe \(2\over 3\).

(2) Aby wylosować cięciwę, wystarczy podać jej środek. Tutaj \(\Omega \) jest kołem, \(\Sigma \) jest rodziną zbiorów borelowskich zawartych w kole, a \(P\) jest miarą Lebesgue’a podzieloną przez pole koła \(\pi \). Łatwo policzyć, że teraz prawdopodobieństwo naszego zdarzenia jest równe polu pierścienia podzielonemu przez \(\pi \) = \(\frac {\pi - (\frac {1}{2})^2\pi }{\pi }\) = \(3\over 4\).

(3) Losujemy liczbę \(d\) od 0 do 1 i przez dowolnie wybrany punkt odległy od środka okręgu o \(d\) prowadzimy cięciwę prostopadłą do promienia okręgu wyznaczonego przez ten punkt. Teraz \(\Omega \) jest odcinkiem \([0,1]\), a prawdopodobieństwem miara Lebesgue’a. Prawdopodobieństwo, że cięciwa jest krótsza od boku trójkąta wynosi teraz \(\frac 12\).

(image) (image) (image)

Gdzie tkwi błąd?

Użyto frazę „losowo wybrana cięciwa" nie precyzując co to znaczy.

Rachunek prawdopodobieństwa — Losowania

(image)

Rachunek prawdopodobieństwa 1, 2

2.3 Losowania

Wiele problemów można sprowadzić do kwestii losowania. Omówimy dwa najprostsze schematy losowań.

Wyobraźmy sobie, że w urnie jest \(N = 10\) ponumerowanych kul i że wyciągamy z tej urny po kolei \(n = 5\) kul. Zauważmy, że mogą być tu zastosowane dwie metody losowania:

  • • po wyciągnięciu kuli zapisujemy jej numer i wrzucamy ją z powrotem do urny.
    Zdarzeniami są na przykład ciągi:

    \[ (4,2,10,5,7);\ \ (3,3,6,1,2); \ \ (1,2,3,4,5) \ \mbox { lub } \ (7,7,7,7,5); \]

  • • kolejne wyciągnięte kule ustawiamy obok urny. Zdarzeniami są na przykład zbiory:

    \[ \{3,5,6,7,8\};\ \ \{1,2,4,8,10\}\ \mbox { lub }\ \{2,3,4,5,6\}; \]

Zauważmy, że:

W pierwszym przypadku kule mogą się powtarzać i że musimy uwzględniać kolejność, w jakiej się pojawiają. Gdybyśmy nie uwzględnili kolejności, wynik \((1,2,3,4,5)\) odpowiadałby wielu losowaniom, a wynik \((4,4,4,4,4)\) tylko jednemu, tak więc prawdopodobieństwo drugiego wyniku musiałoby być mniejsze niż prawdopodobieństwo wyniku pierwszego, co w schemacie klasycznym nie może zachodzić – a właśnie ten schemat chcemy wykorzystać.

W drugim przypadku każdy taki zbiór jest dla nas zdarzeniem elementarnym. Zauważmy, że kule nie mogą się oczywiście powtarzać i że nie uwzględniamy kolejności – wyobraźmy sobie, że zamiast wyciągać kule po kolei bierzemy pięć kul jednocześnie (i dopiero wtedy odczytujemy numery).

Sytuacja ogólna:

Losowanie \(n\) elementów ze zwracaniem z \(N\) elementowego zbioru \(X\)

\[ \Omega = X^n = \{(x_1, \dots ,x_n): x_i \in X \textrm { dla }\; i=1,\ldots ,n\}, \ \ \ \# \Omega = N^n. \]

Losowanie \(n\) elementów bez zwracania z \(N\) elementowego zbioru \(X\)

\[ \Omega = \{A \subset X: \# A = n \}, \ \ \ \ \# \Omega = \binom {N}{n}. \]

  • Przykład – 2.10 Dany jest \(N\) elementowy zbiór \(X\) oraz \(N_0\) elementowy podzbiór \(W \subset X\). Losujemy \(n\) elementów ze zbioru \(X\). Jakie jest prawdopodobieństwo, że wśród nich dokładnie \(k\) elementów pochodzi ze zbioru \(W\)? Rozwiązanie (losowanie ze zwracaniem). Zdarzeniem sprzyjającym \(A\) jest tutaj zbiór ciągów \(n\) elementowych, z których dokładnie \(k\) elementów jest ze zbioru \(W\). Liczność takiego zbioru jest \(\# A = \binom {n}{k}N_0^k (N - N_0)^{n-k}\). A więc:

    \begin{equation} \label {eq:prz1} P(A) = \frac {\binom {n}{k}N_0^k (N - N_0)^{n-k}}{N^n} = \binom {n}{k}\left (\frac {N_0}{N}\right )^k \left (1 -\frac {N_0}{N}\right )^{n-k}. \end{equation}

    Rozwiązanie (losowanie bez zwracania). Zdarzeniem sprzyjającym \(A\) jest tutaj zbiór podzbiorów \(n\) elementowych, z których dokładnie \(k\) elementów jest ze zbioru \(W\). Liczność takiego zbioru jest \(\# A = \binom {N_0}{k}\binom {N-N_0}{n-k}\). A więc:

    \[ P(A) = {\binom {N_0}{k}\binom {N-N_0}{n-k}}\left /{\binom {N}{n}}\right .. \]

  • Przykład – 2.11

    Jakie jest prawdopodobieństwo tego, że na roku liczącym 75 studentów znajdziemy dwie osoby obchodzące urodziny tego samego dnia?

    Tutaj zdarzeniem elementarnym jest 75-elementowy ciąg o elementach będących kolejnymi dniami roku. Przyjmując upraszczające założenia, że rok ma 365 dni i że we wszystkich dniach roku rodzi się mniej więcej tyle samo ludzi mamy do czynienia z zagadnieniem równoważnym losowaniu ze zwracaniem – 5 razy losujemy datę. Mamy więc \(\#\Omega = 365^{75}\) (jest to naprawdę duża liczba). W tym zadaniu wygodniej będzie wyznaczyć zdarzenie przeciwne do interesującego nas zdarzenia, oznaczmy je przez \(A\). Zdarzenie \(A\) składa się ze zdarzeń elementarnych odpowiadających ciągom, których wszystkie wyrazy są różne. Ponieważ mając wybrany \(75\)-elementowy zbiór, możemy z niego utworzyć \(75!\) różnych ciągów, a z \(365\) elementów możemy utworzyć \(\binom {365}{75}\) różnych zbiorów, więc \(\#A \) jest równa iloczynowi tych dwóch liczb. W takim razie:

    \[ P(A) = \frac {75!\binom {365}{75}}{365^{75}}. \]

    Wyliczamy (np. Maple):

    \[P(A) \approx 0.0002801218262\;\textrm { oraz }\;1 - P(A) \approx 0.9997198782.\]

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

2.4 Pytania

  • Pytanie 2.1 Niech \(A, B \in \Sigma \). Wykaż, że jeżeli \(P(A) = 1\), to \(P(A\cap B) = P(B)\).

Wskazówka. \(P(A \cup B) = P(A) + P(B) - P(A\cap B)\), \(P(A \cup B ) = P(A) =1\).

  • Pytanie 2.2 Wyprowadź wzór na \(P(A \cup B \cup C)\). Uogólnij.

Wskazówka. \(P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A\cap B) - P(A\cap C) - P(B \cap C) + P(A\cap B \cap C)\).

  • Pytanie 2.3 Gracz otrzymuje 13 kart wylosowanych z talii 52 kart i podaje liczbę otrzymanych asów oraz sumaryczną liczbę pozostałych figur. Wskaż zdarzenia, zdarzenia elementarne. Czy za pomocą prawdopodobieństw zdarzeń można obliczyć prawdopodobieństwo tego, że: (a) gracz otrzymał same piki, (b) gracz nie dostał asa?

Wskazówka. \(\Omega = \{K \subset \{1,...,52\}: \sharp K = 13\}\) – zdarzenia elementarne.

\(\Sigma = \s (K_{ij} : i = 0,1,2,3,4, j = 0,1,...,12\}\) – zdarzenia, gdzie \(K_{ij} \subset \{1,...,52\}\) – zawiera dokładnie \(i\) asów oraz dokładnie \(j\) pozostałych figur.

Ad (a). Nie. Ad (b). Tak.

  • Pytanie 2.4 Gracz rzuca trzema monetami jednocześnie tak długo, aż na wszystkich trzech pojawi się orzeł. Opisz przestrzeń probabilistyczną odpowiadającą temu doświadczeniu.

Wskazówka. \(\Omega = \{1,2,3, ... \}\), \(\Sigma ={\cal P}(\Omega )\). \(p_i = (\frac {7}{8})^{i-1}\frac 18\).

  • Pytanie 2.5 Niech \(\cal F\) oznacza rodzinę wszystkich przedziałów \((a,b)\), gdzie \(a < b\), \(a,b, \in \r \). Wykaż, że \(\s ({\cal F}) = {\cal B}(\r )\).

Wskazówka. Każdy przedział \((a,b)\) należy do \({\cal B}(\r )\), więc \(\s ({\cal F} ) \subset {\cal B}(\r )\).

Niech \(G \subset \r \) będzie zbiorem otwartym. Wtedy \(G = \bigcup _{x \in \mathbb {Q} \cap G} (x- \ve _x,x+\ve _x)\), \(\ve _x >0\) jest tak dobrane, że \((x- \ve _x,x+\ve _x) \subset G\). Więc \(\s ({\cal F})\) zawiera wszystkie zbiory otwarte, a więc zawiera także \({\cal B}(\r )\).

  • Pytanie 2.6 Do gry w pliszki potrzebne są dwa patyki: jeden o długości co najmniej 70 cm, drugi o długości 10 do 20 cm. Gracze łamią metrowy patyk w losowo wybranym punkcie. Jakie jest prawdopodobieństwo, że mogą grać?

Wskazówka. \(\frac 15\).

Rachunek prawdopodobieństwa — Prawdopodobieństwo warunkowe i niezalezność

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 3 Prawdopodobieństwo warunkowe i niezależność

3.1 Prawdopodobieństwo warunkowe

Dana jest przestrzeń probabilistyczna \((\Omega ,\Sigma ,P)\) oraz zdarzenie \(W \in \Sigma ,\) przy czym \(P(W) > 0.\)

Dla dowolnego zdarzenia \(A \in \Sigma \) określamy jego prawdopodobieństwo warunkowe \(P(A|W)\) wzorem:

\[ P(A|W) = \frac {P(A\cap W)}{P(W)}. \]

Funkcja \(P(\cdot |W) \) jest miarą probabilistyczną na \(\Sigma \) posiadającą tę właściwość, że dwa zbiory mające jednakowe przecięcia ze zbiorem \(W\), mają także taką samą miarę (ćwiczenie).

Często znamy prawdopodobieństwo warunkowe \(P(A|W)\) oraz prawdopodobieństwo \(P(W)\) i na tej podstawie obliczamy prawdopodobieństw

\[P(A\cap W) = P(A|W)P(W)\]

oraz inne prawdopodobieństwa.

.

  • Twierdzenie – 3.1 (Wzór na prawdopodobieństwo całkowite.) Dana jest przestrzeń probabilistyczna \((\Omega ,\Sigma ,P)\) oraz
    zdarzenia \(W_1 ,\dots , W_n \in \Sigma \) spełniające warunki:

    (i)

    \(P(W_i) > 0\) dla każdego \(i = 1,\dots , n\),

    (ii)

    \(W_i\cap W_j = \O \), dla wszystkich \(i \neq j\),

    (iii)

    \(W_1 \cup \dots \cup W_n = \Omega .\)

    Wtedy dla każdego zdarzenia \(A \in \Sigma \) zachodzi wzór:

    \[ P(A) = \sum _{i=1}^n P(A|W_i) P(W_i). \]

Dowód. Ponieważ \(\di A = A\cap \Omega = A\cap (\bigcup _{i=1}^n W_i) = \bigcup _{i=1}^n(A\cap W_i), \) mamy \(\di P(A) = \sum _{i=1}^n P(A\cap W_i) = \sum _{i=1}^n P(A|W_i) P(W_i).\)   \(\Box \)

Powyższe zdarzenia \(W_1 ,\dots , W_n\) nazywamy warunkami.

  • Przykład – 3.2 Kaja i Leon umówili się w sprawie sprzątania, a ponieważ Kaja sprząta dokładniej niż Leon, ustalili następujące zasady. Jeżeli w pewnym dniu sprząta Leon, to rzuca kostką i jeżeli nie wyrzuci „6", to sprząta także w następnym dniu, gdy wypadnie „6śprząta Kaja. Jeżeli sprząta Kaja, to w następnym dniu nie sprząta nikt. Jeżeli w jakimś dniu nikt nie sprząta, to o sprzątaniu w następnym dniu decyduje rzut monetą. O sprzątaniu w pierwszym dniu umowy decyduje rzut monetą. Wyznaczyć prawdopodobieństwa sprzątania Kaji i Leona w drugim i trzecim dniu umowy.

    Niech \(K_i\), \(L_i\), \(N_i\), \(i = 1,2,3\) oznaczają zdarzenia, że w \(i\)-tym dniu umowy sprząta Kaja, Leon oraz nikt nie sprząta. Uważamy, że są to zdarzenia w pewnej przestrzeni probabilistycznej (Ω, Σ, P ) i chociaż jej formalnie nie konstruujemy (można to oczywiście zrobić), uważamy, że informacje podane w naszym zadaniu mogą być dzięki niej poprawnie zinterpretowane.

    Z umowy wynika, że \(P(K_1) = P(L_1) = \frac 12\), \(P(N_1) = 0\). Aby obliczyć \(P(K_2)\) oraz \(P(L_2)\) skorzystamy dwukrotnie z wzoru na prawdopodobieństwo całkowite. Warunkami są tutaj \(K_1\), \(L_1\), Widać, że spełniają one wymagane założenia.

    Z umowy wynika też, że: \(P(K_2|K_1) = 0\), \(P(K_2|L_1) = \frac 16\), więc
    \(\di P(K_2) = P(K_2|K_1)P(K_1) + P(K_2|L_1)P(L_1) = \frac {1}{12}\). Podobnie:
    \(\di P(L_2) = P(L_2|K_1)P(K_1) + P(L_2|L_1)P(L_1) = \frac {5}{12}\).
    Widzimy też, że \(\di P(N_2) = P(N_2|K_1)P(K_1) + P(N_2|L_1)P(L_1) = \frac 12\), gdyż \(P(N_2|K_1) = 1\), \(P(N_2|L_1) =0\).

    Teraz warunkami są \(K_2\), \(L_2\), \(N_2\). Mamy:
    \(P(K_3) = P(K_3|K_2)P(K_2) + P(K_3|L_2)P(L_2) + P(K_3|N_2)P(N_2) = 0+\frac 16\cdot \frac {5}{12}+\frac 12\cdot \frac 12 = \frac {23}{72}\).
    \(P(L_3) = P(L_3|K_2)P(K_2) + P(L_3|L_2)P(L_2) + P(L_3|N_2)P(N_2) = 0+\frac 56 \cdot \frac {5}{12} + \frac 12\cdot \frac 12 = \frac {43}{72}\).
    Ponieważ \(P(K_3)+P(L_3)+P(N_3) = 1\), to \(P(N_3) = \frac {6}{72}\), co można także sprawdzić stosując jeszcze raz wzór na prawdopodobieństwo całkowite.

    Jak wygląda sytuacja w kolejnych dniach zobaczymy, gdy poznamy teorię łańcuchów Markowa, przykład 17.12. Wcześniej warto zobaczyć M.3.1

  • Przykład – 3.3 Kontynuując przykład poprzedni załóżmy, że wiemy iż w trzecim dniu umowy sprzątał Leon. Jakie jest prawdopodobieństwo tego, że sprzątał:

    (a) w drugim dniu umowy?

    (b) w pierwszym dniu umowy?

    Ad (a) Chcemy obliczyć \(P(L_2|L_3)\).

    \(\di P(L_2|L_3) = \frac {P(L_2\cap L_3)}{P(L_3)} = \frac {P(L_3|L_2)P(L_2)}{P(L_3)} = \frac {\frac 56 \cdot \frac {5}{12}}{\frac {43}{72}} = \frac {25}{43}\).

    Ad (b) Chcemy obliczyć \(P(L_1|L_3)\). Zauważmy, że ponieważ \(L_1\) jest sumą rozłącznych zbiorów \(L_1\cap K_2\), \(L_1\cap L_2\), \(L_1\cap N_2\), to

    \[P(L_1|L_3) = P(L_1\cap K_2|L_3) + P(L_1 \cap L_2|L_3) + P(L_1 \cap N_2|L_3).\]

    Teraz wyliczamy kolejno:
    \(\di P(L_1\cap K_2|L_3) = \frac {P(L_1\cap K_2 \cap L_3)}{P(L_3)} = \frac {P(L_3| L_1 \cap K_2)P(L_1\cap K_2) }{P(L_3)} = \frac {P(L_3|K_2)P(L_1\cap K_2)}{P(L_3)} = 0\).
    \(\di P(L_1 \cap L_2|L_3) = \frac {P(L_1\cap L_2 \cap L_3)}{P(L_3)} = \frac {P(L_3| L_1 \cap L_2)P(L_1\cap L_2) }{P(L_3)} = \frac {P(L_3| L_2)P(L_2|L_1)P(L_1)}{P(L_3)} = \frac {\frac 56 \cdot \frac 56 \cdot \frac {1}{2}}{\frac {43}{72}} = \frac {25}{43}\)
    \(\di P(L_1 \cap N_2|L_3) = \frac {P(L_1\cap N_2 \cap L_3)}{P(L_3)} = \frac {P(L_3| L_1 \cap N_2)P(L_1\cap N_2) }{P(L_3)} = \frac {P(L_3|N_2)P(N_2|L_1)P(L_1)}{P(L_3)} = \frac {\frac 12 \cdot 0\cdot \frac {1}{2}}{\frac {43}{72}} = 0\).

    Tak więc \(\di P(L_1|L_3)= \frac {25}{43}\).

Poprzedni przykład stanowi ilustrację rozumowania wprowadzonego przez Bayesa. Formalizuje to następujące twierdzenie, a jego dowód jest oczywisty.

  • Twierdzenie – 3.4 (twierdzenie Bayesa) Przy założeniach Twierdzenia o Prawdopodobieństwie Całkowitym zachodzi następująca równość:

    \[ P(W_k|A) = \frac {P(A|W_k) P(W_k)}{ \sum _{i=1}^n P(A|W_i) P(W_i)} \]

    dla każdego \(k = 1,\dots ,n\).

Terminologia

\(P(W_i)\) – prawdopodobieństwa a priori,

\(P(W_i|A)\) – prawdopodobieństwa a posteriori.

Rachunek prawdopodobieństwa — Zdarzenia niezalezne

(image)

Rachunek prawdopodobieństwa 1, 2

3.2 Zdarzenia niezależne

Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną. Niech \(A,B \in \sigma \).

  • Definicja – 3.5 \(A\), \(B\) są niezależne \(\rwn \)

    \[ P(A\cap B) = P(A)\cdot P(B). \]

Zauważmy, że gdy \(P(A) > 0\) mamy natychmiastową równoważność:

\(A\), \(B\) są niezależne \(\rwn P(B|A) = P(B)\).

  • Przykład – 3.6

    Rzucając dwiema kostkami łatwo sprawdzić, że:

    Niezależnymi zdarzeniami są \(A\), \(B\) określone następująco: \(A\) – na pierwszej kostce wypadłą „6", \(B\) – na drugiej kostce wypadła liczba pierwsza.

    Zależnymi zdarzeniami są \(A\), \(B\) określone następująco: \(A\) – suma oczek na kostkach jest \(\ge 10\), \(B\) – na drugiej kostce wypadła „5".

    Zależnymi zdarzeniami są każde dwa zdarzenia rozłączne \(A\), \(B\), o ile \(P(A)P(B) >0\).

  • Definicja – 3.7 Zdarzenia \(A_1,\dots ,A_n \) są niezależne, \(\rwn \)
    dla każdego podciągu \(A_{k_1},\dots ,A_{k_r}\) zachodzi:

    \[ P(A_{k_1}\cap \dots \cap A_{k_r}) = P(A_{k_1})\cdot \dots \cdot P(A_{k_r}). \]

    Zdarzenia \(A_1,A_2,A_3,\dots \) są niezależne, \(\rwn \)
    dla każdego \(n\ge 2\) zdarzenia \(A_1,\dots ,A_n \) są niezależne.

Rachunek prawdopodobieństwa — Iloczyn kartezjański przestrzeni probabilistycznych

(image)

Rachunek prawdopodobieństwa 1, 2

3.3 Iloczyn kartezjański przestrzeni probabilistycznych

Niech będą dane dwie przestrzenie probabilistyczne \((\Omega _1,\Sigma _1,P_1)\) oraz \((\Omega _2,\Sigma _2,P_2)\). Niech

\[ \Omega = \Omega _1 \times \Omega _2 = \{(\omega _1,\omega _2): \omega _1 \in \Omega _1, \o _2 \in \Omega _2\}. \]

Można teraz zbudować \(\sigma \)-algebrę \(\Sigma \) na zbiorze \(\Omega \) oraz miarę probabilistyczną \(P\colon \Sigma \str \r \). Jako \(\Sigma \) bierze się najmniejszą \(\sigma \)-algebrę zawierającą wszystkie iloczyny kartezjańskie \(A_1 \times A_2\), gdzie \(A_1 \in \Sigma _1\) i \(A_2 \in \Sigma _2\):

\[ \Sigma = \sigma (\{A_1\times A_2: A_1 \in \Sigma _1, A_2 \in \Sigma _2\}). \]

Dowodzi się: Istnieje dokładnie jedna miara \(P\) spełniająca warunek: dla każdych dwóch zdarzeń \(A_1 \in \Sigma _1\) i \(A_2 \in \Sigma _2\)

\[ P(A_1 \times A_2) = P_1(A_1) P_2(A_2). \]

Stosujemy często następujące oznaczenia:
\(\Sigma = \Sigma _1\times \Sigma _2 = \Sigma _1\otimes \Sigma _2\) \(P = P_1 \times P_2 = P_1 \otimes P_2\).

Oznaczenie \(\times \) stanowi kolizję z podobnymi oznaczeniami stosowanymi w teorii mnogości, lecz jest często stosowane.

  • Definicja – 3.8 Trójkę (Ω, Σ, P ) skonstruowaną powyżej nazywamy iloczynem kartezjańskim przestrzeni \((\Omega _1,\Sigma _1,P_1)\) oraz \((\Omega _2,\Sigma _2,P_2)\).

  • Uwaga – 3.9 Niech (Ω, Σ, P ) będzie iloczynem kartezjańskim przestrzeni
    \((\Omega _1,\Sigma _1,P_1)\) oraz \((\Omega _2,\Sigma _2,P_2)\). Niech \(A_1 \in \Sigma _1\), \(A_2 \in \Sigma _2\). Zdefiniujmy:

    \(Z_1 = A_1 \times \Omega _2\), \(Z_2 = \Omega _1 \times A_2\).

    Wtedy \(Z_1\), \(Z_2\) są niezależne.

Dowód. \(P(Z_1 \cap Z_2) = P((A_1 \times \Omega _2)\cap (\Omega _1 \times A_2) ) = P(A_1 \times A_2) = P_1(A_1) P_2(A_2) = P_1(A_1) P_2(\Omega _2) P_1(\Omega _1) P_2(A_2) = P(A_1 \times \Omega _2) P(\Omega _1 \times A_2) = P(Z_1)P(Z_2)\).   \(\Box \).

Interpretacja. Przypuśćmy, że prowadzimy dwuetapowy eksperyment, przy czym etapy te są niezależne od siebie (np. wykonujemy dwa kolejne rzuty kostką). Załóżmy, że etapy te są opisywane dwiema przestrzeniami probabilistycznymi \((\Omega _1,\Sigma _1,P_1)\) oraz \((\Omega _2,\Sigma _2,P_2)\). Wtedy ich iloczyn kartezjański odpowiada łącznemu opisowi obydwu etapów, przy czym odpowiednikiem zdarzenia \(A_1\) jest w nowej przestrzeni zdarzenie \(Z_1\), a zdarzenia \(A_2\) zdarzenie \(Z_2\).

Można zdefiniować iloczyn kartezjański skończonej liczby przestrzeni probabilistycznych.

Sposób 1. Wykorzystać zwykłą procedurę indukcyjną (ćwiczenie).

Sposób 2. Powtórzyć poprzednią definicję dla ustalonej liczby przestrzeni \(n\) (ćwiczenie). Można udowodnić, że obydwie procedury dają faktycznie tę samą przestrzeń.

  • Uwaga – 3.10 Niech (Ω, Σ, P ) będzie iloczynem kartezjańskim przestrzeni \((\Omega _1,\Sigma _1,P_1)\), …, \((\Omega _n,\Sigma _n,P_n)\). Niech \(A_i \in \Sigma _i\), \(i = 1,\dots , n\). Zdefiniujmy zbiory:

    \(Z_i = \{(\o _1,\dots ,\o _n) \in \Omega : \o _i \in A_i\}\), dla \(i = 1,\dots , n\).

    Wtedy \(Z_1\), …\(Z_n\) są niezależne.

Dowód. (ćwiczenie).   

Gdy \((\Omega _1,\Sigma _1,P_1) = \dots = (\Omega _n,\Sigma _n,P_n) \) = (Ω, Σ, P ) , często oznaczmy iloczyn kartezjański tych przestrzeni symbolem: \((\Omega ^n, \Sigma ^n, P^n)\).

Rachunek prawdopodobieństwa — Schemat Bernoulliego

(image)

Rachunek prawdopodobieństwa 1, 2

3.4 Schemat Bernoulliego

Niech \(\Omega = \{0,1\}\), \(\Sigma = {\cal P}(\Omega )\), a miara \(P\) zadana jest przez warunki:

\[P(\{0\}) = 1 - p, \ \ P(\{1\}) = p,\]

gdzie \(0 <p < 1\) jest ustaloną liczbą. Taka przestrzeń, próba Bernoulliego, może być matematycznym modelem doświadczenia, które:

  • 1. kończy się dokładnie dwoma wynikami,

  • 2. znane są prawdopodobieństwa ich uzyskania,

  • 3. prawdopodobieństwa te są takie same w każdej próbie.

Używamy często nazw „sukces" oraz „porażka"i w modelu identyfikujemy je jako 1 oraz 0.

  • Definicja – 3.11 Przestrzeń \((\Omega ^n, \Sigma ^n, P^n)\) nazywa się schematem Bernoulligo.

Jest to model doświadczenia składającego się z \(n\) niezależnych prób Bernoulliego.

  • Przykład – 3.12 Typowym zagadnieniem związanym ze schematem Bernoulliego jest następujący problem. Ustalmy \(k\), \(0 \le k \le n\):

    Obliczyć \(P^n(A)\), gdzie \(A = \{\o = (\o _1, \dots , \o _n) \in \Omega ^n: \sum _{i=1}^n \o _i = k\}\).

    Zauważmy, że dla każdego \(\o = (\o _1, \dots , \o _n) \in \Omega \)

    \[\di P^n(\{\o \}) = P(\{\o _1\}) \cdot \dots \cdot P(\{\o _n\}) = p^{\sum _{i=1}^n\o _i} (1-p)^{n -\sum _{i=1}^n\o _i}.\]

    Gdy \(\o \in A\), to \(P^n(\{\o \}) = p^k(1-p)^{n-k}\). Ponieważ zdarzenie \(A\) składa się z \(\binom {n}{k}\) elemetów, to

    \[ P^n(A) = \binom {n}{k} p^k(1-p)^{n-k}. \]

    Warto ten wzór porównać z wzorem na prawdopodobieństwo wylosowania dokładnie \(k\) elementów w tracie losowania \(n\) elementów ze zwracaniem, wzór (2.1).

  • Przykład – 3.13 Salę oświetla 150 żarówek: po 15 żarówek w 10 rzędach. Wiadomo, że prawdopodobieństwo zepsucia się pojedynczej żarówki w ciągu nachodzącego tygodnia wynosi \(p= 0.06\). Wiemy też, że żarówki psują się niezależnie od siebie. Jakie jest prawdopodobieństwo tego, że po upływie tygodnia w co najmniej 9 rzędach będzie świecić co najmniej po 13 żarówek?

    \(A\) – w ustalonym rzędzie świeci co najmniej 13 żarówek.

    \(\di prz = P(A) = \sum _{i=0}^2\binom {15}{i}p^i(1-p)^{15 - i}\).

    Odpowiedź na pytanie: \(\di psali = \sum _{i=9}^{10}\binom {10}{i}prz^i(1-prz)^{10 - i}\).

    Odpowiedź numeryczna: \(prz = 0.9428666763\), \(psali = 0.8917349692\).

    Gdy \(p = 0.05\), to \(prz = .9637997614\), \(psali = 0.9513932113\).

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

3.5 Pytania

  • Pytanie 3.1 Sformułuj i wykaż twierdzenie mówiące o tym, że \(P(\cdot |W)\) określa przestrzeń probabilistyczną.

Wskazówka. Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną. Niech \(W \in \Sigma \), \(P(W) > 0\). Niech \(\Sigma _W = \{A \subset W: A \in \Sigma \}\), Niech \(P_W(A) = P(A|W)\). Wtedy \((W,\Sigma _W,P_W)\) jest przestrzenią probabilistyczną.

  • Pytanie 3.2 Czy jest prawdą, że \(P(A|W_1 \cup W_2) = P(A|W_1) + P(A|W_2)\)?

Wskazówka. Nie.

  • Pytanie 3.3 Jak można osłabić założenia w twierdzeniu o prawdopodobieństwie całkowitym?

Wskazówka.

(i’)

\(P(W_i) > 0\) dla każdego \(i = 1,\dots , N\), \(N \le \infty \)

(ii’)

\(P(W_i\cap W_j) = 0\), dla wszystkich \(i \neq j\),

(iii’)

\(P(W_1 \cup \dots \cup W_N) = 1.\)

  • Pytanie 3.4 W Przykładzie 3.2 oblicz \(P(K_1|K_3)\).

Wskazówka. \(\frac {23}{288}\).

  • Pytanie 3.5 Rzucamy kostką do gry. Wskaż dwa nietrywialne zdarzenia niezależne w przestrzeni probabilistycznej odpowiadającej temu eksperymentowi.

Wskazówka. Na przykład: \(A = \{1,2\}\), \(B = \{2,3,4\}\).

  • Pytanie 3.6 Uogólnij sytuację opisaną jako schemat Bernoulliego przy założeniu, że każde doświadczenie może mieć trzy różne wyniki

Wskazówka. Niech \(\Omega = \{1,2,3\}\), \(\Sigma = {\cal P}(\Omega )\), a miara \(P\) zadana jest przez warunki:

\[P(\{1\}) = p_1, \ \ P(\{2\}) = p_2, P(\{3\}) = p_3 \]

gdzie \(0 < p_i < 1 \) spełniają \(p_1+p_2+p_3 = 1\). Gdy mamy \(n\) doświadczeń rozważamy przestrzeń \((\Omega ^n, \Sigma ^n, P^n)\).

Ustalmy takie \(k_i\), \(0 \le k_i \le n\) dla \(i = 1,2,3\), że \(k_1+k_2+k_3 = n\). Interesuje nas zbiór \(A\) składający się z ciągów, które zawierają dokładnie \(k_1\) jedynek, \(k_2\) dwójek, a więc także \(k_3\) trójek. Chcemy obliczyć \(P^n(A)\), gdzie \(A = \{\o = (\o _1, \dots , \o _n) \in \Omega ^n: \sum _{s:\o _s=i} 1 = k_i\}\).

Dla każdego \(\o = (\o _1, \dots , \o _n) \in A\) mamy \(\di P^n(\{\o \}) = p_1^{k_1}p_2^{k_2}p_3^{k_3}\).

Ponieważ zdarzenie \(A\) składa się z \(\di \frac {n!}{k_1!k_2!k_3!} =\binom {n}{k_1} \binom {n-k_1}{k_2}\) elemetów, to

\[ P^n(A) = \frac {n!}{k_1!k_2!k_3!} p_1^{k_1}p_2^{k_2}p_3^{k_3}. \]

Rachunek prawdopodobieństwa — Rozklad prawdopodobieństwa w

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 4 Rozkład prawdopodobieństwa w \(R^n\)

  • Definicja – 4.1 (Rozkład prawdopodobieństwa) \(n\)-wymiarowym rozkładem prawdopodobieństwa nazywamy miarę probabilistyczną \(Q\) określoną na \(\sigma \)-algebrze zbirów borelowskich \({\cal B}(\rn )\).

    Mówiąc rozkład, najczęściej mamy na myśli rozkład jednowymiarowy.

Przykłady.

(1) \(\delta \)-Diraca, \(\delta _c\). Dla ustalonego \(c \in \rn \) definiujemy: \(\delta _c(A) = 1\), gdy \(c \in A\), \(\delta _c(A) = 0\), gdy \(c \notin A\), dla \(A \in {\cal B}(\rn )\).

(image)
\(\delta _3\)

(2) Jeżeli \(Q_1, \dots , Q_k\) są rozkładami prawdopodobieństwa, to funkcja \(Q : {\cal B}(\rn ) \to \r \): \(Q(A) = \sum _{i=1}^k \lambda _i Q_i(A)\), gdzie \(\sum _{i=1}^k \lambda _i = 1\) oraz \(\lambda _i > 0\), jest miarą probabilistyczną na \({\cal B}(\rn )\), czyli jest \(n\)-wymiarowym rozkładem.

(image)
\(0.6 \delta _0+0.4\delta _1\)

(3) Prawdopodobieństwo geometryczne (rozkład jednostajny): Niech \(W \in {\cal B}(\rn )\) będzie takim zbiorem, że \(0 < \mu _{L_n}(W) < \infty \). Definiujemy \(\di Q(A) = \frac {\mu _{L_n}(A \cap W)}{\mu _{L_n}(W)}\), dla \(W \in {\cal B}(\rn ) \).

(image)
\(W = [0,10]^2, Q(A)= \mbox {pole}(A\cap W )/100\)

4.1 Rozkład jednowymiarowy. Dystrybuanta

Rozkłady (jednowymiarowe) mają ścisły związek z dystrybuantami.

  • Definicja – 4.2 Dystrybuantą nazywamy funkcję \(F\colon {\r }\str \r \), spełniającą następujące cztery warunki:

    • 1. Dla każdego \(x \in \r \), \(0 \le F(x) \le 1\).

    • 2. \(F\) jest funkcją niemalejącą, to znaczy:

      \[x < y \Rightarrow F(x) \le F(y),\]

    • 3. \(F\) jest prawostronnie ciągła, to znaczy:

      \[\lim _{x\rightarrow a^+} F(x) = F(a)\]

      dla każdego \(a \in \r \),

    • 4. \(\lim _{x\rightarrow \infty } F(x) = 1\), \(\lim _{x\rightarrow -\infty } F(x) = 0\).

  • Twierdzenie – 4.3 Jeżeli \(Q\) jest rozkładem prawdopodobieństwa, to funkcja \(F\) zdefiniowana wzorem:

    \begin{equation} F(x) = Q(-\infty ,x]=Q((-\infty ,x]), \end{equation}

    jest dystrybuantą. Mówimy wtedy, że rozkład \(Q\) ma dystrybuantę \(F\), co często zaznaczamy pisząc \(F_Q\) zamiast \(F\).

Dowód. Ad 1. Wynika natychmiast z własności prawdopodobieństwa.

Ad 2. Jeżeli \(x < y\), to \((-\infty ,x ] \subset (-\infty , y]\), a więc \(F(x) = Q(-\infty ,x ] \le Q(-\infty ,y ] = F(y)\).

Ad 3. Niech \(a \in \r \) oraz \(x_n\searrow a\), to znaczy \(\forall n \ x_{n+1} < x_n\), \(\lim _{n\to \infty }x_n = a\).

\(\di ( -\infty ,a] = \bigcap _{n = 1}^\infty (-\infty ,x_n]\) oraz \((-\infty ,x_{n+1} ) \subset (-\infty ,x_n)\).

\(F(a) = Q( -\infty ,a] = \lim _{n\to \infty } Q(-\infty ,x_n] = \lim _{n\to \infty }F(x_n)\).

To oznacza, że \(\lim _{x\rightarrow a^+} F(x) = F(a)\).

Ad 4. Podobnie jak wyżej. Wynika z faktu, że \(\bigcup _{n=1}^\infty (-\infty ,n] = \r \) oraz \(\bigcap _{n=1}^\infty (- \infty ,-n] = \O \) (ćwiczenie).

Zachodzi także twierdzenie odwrotne (dowód pomijamy).

  • Twierdzenie – 4.4 Jeżeli \(F\) jest dystrybuantą, to istnieje dokładnie jeden rozkład \(Q\), dla którego zachodzi wzór

    \begin{equation} F(x) = Q(-\infty ,x]=Q((-\infty ,x]), \end{equation}

Tak więc istnieje wzajemnie jednoznaczna odpowiedniość (bijekcja) pomiędzy zbiorem rozkładów i zbiorem dystrybuant. Gdy rozkładowi \(Q\) odpowiada dystrybuanta \(F\), piszemy często \(F_Q\) oraz \(Q_F\). Zachodzą więc związki.

\begin{equation} F_Q(x) = Q(-\infty ,x], \ \ \ \ F(x) = Q_F(-\infty ,x] \ \mbox { dla kaÅijdego } x \in \r . \end{equation}

Ponieważ dla każdych \(a,b \in \r \), \(a < b\) zachodzi

\[Q(a,b] = Q((-\infty ,b] \setminus (-\infty ,a] ) = Q(-\infty ,b] - Q(-\infty ,a],\]

to otrzymujemy następujący związek:

\begin{equation} Q(a,b] = F_Q(b) - F_Q(a). \end{equation}

Przykłady dwóch rozkładów i ich dystrybuant:

(image)
rozkład

(image)
dystrybuanta

(image)
rozkład

(image)
dystrybuanta

Pytanie: W których punktach dystrybuanta jest ciągła?

  • Twierdzenie – 4.5 Niech \(Q\) będzie rozkładem prawdopodobieństwa, zaś \(F\) – jego dystrybuantą. Wówczas dla dowolnego \(a \in \r \):

    \[F \; \textrm {jest ciÄĚgÅĆa w punkcie}\; a\: \Longleftrightarrow \: Q(a) = 0.\]

    Bardziej ogólnie:

    \[ Q(a) = F(a) - F(a)^-, \]

    gdzie \(F(a)^-\) oznacza lewostronną granicę funkcji \(F\) w punkcie \(a\) (ponieważ \(F\) jest niemalejąca, więc granica ta istnieje).

Dowód. Weźmy ciąg \(x_n \nearrow a\) (to znaczy, że \(\{x_n\}\) jest ciągiem rosnącym, zbieżnym do \(a\)). Wtedy \((-\infty ,a) = \bigcup _n (-\infty ,x_n]\), a więc:

\[F(a)^- = \lim _{n\rightarrow \infty } F(x_n) = \lim _{n\rightarrow \infty } Q(-\infty ,x_n] = Q(-\infty ,a).\]

Stąd:

\[Q(a) = Q((-\infty ,a]\setminus (-\infty ,a)) = Q(-\infty ,a] - Q(-\infty ,a) = F(a) - F(a)^-.\]

\(\hfill { \Box }\)

Dla \(n >1 \) można też zdefiniować dystrybuantę i podać jej związek z rozkładem, jednak definicja nie jest automatycznym powtórzeniem sytuacji jednowymiarowej, gdyż w \(\rn \) nie ma naturalnego porządku.

Rachunek prawdopodobieństwa — Rozklady dyskretne i rozklady ciągle

(image)

Rachunek prawdopodobieństwa 1, 2

4.2 Rozkłady dyskretne i rozkłady ciągłe

Najczęściej rozważamy rozkłady dyskretne oraz rozkłady ciągłe (istnieją też inne rozkłady).

  • Definicja – 4.6 (Rozkład dyskretny) Rozkład n-wymiarowy \(Q\) nazywamy rozkładem dyskretnym, jeżeli istnieje zbiór borelowski \(K \subset \r ^n\) taki, że:

    \[ Q(K) = 1 \;\;\mbox { oraz } \;\; x \in K \Rightarrow Q(x) > 0. \]

  • Uwaga – 4.7 Występujący w powyższej definicji zbiór \(K\) jest skończony lub przeliczalny.

Dowód. Zauważmy, że \(K\) można przedstawić jako przeliczalną sumę zbiorów skończonych.

Dokładniej: \(K = \bigcup _{i=1}^{\infty } K_i\), gdzie \(K_i = \{x \in \r ^n : Q(x) \ge \frac {1}{i}\}\).

Widzimy, że \(1 \ge Q(K_i) \ge \#K_i\cdot \frac {1}{i}\), a więc \(\#K_i \le i.\)   

Z powyższej uwagi wynika, iż możemy zbiór \(K\) ustawić w ciąg, powiedzmy \(K = \{x_i: i= 1,\dots ,m\}\), gdzie \(m\) jest liczbą naturalną lub \(m = \infty \), i oznaczyć \(p_i = Q(x_i)\). Mamy wtedy:

\[ \sum _{i=1}^m p_i = 1 \;\;\mbox { oraz }\;\;p_i > 0 \mbox { dla wszystkich } i. \]

(image)
\(Q(0) = 0.6, \ \ Q(1)= 0.4\)

(image)
\(Q(1) = \frac {3}{12}, \ \ Q(2)= \frac {1}{6}, \ \ Q(3)= \frac {1}{6}\)

\(Q(4) = \frac {1}{6}, \ \ Q(5)= \frac {1}{6}, \ \ Q(6)= \frac {1}{12}\)

Zdefiniowane w ten sposób ciągi \(\{x_i\}\) i \(\{p_i\}\) wyznaczają jednoznacznie rozkład \(Q\). Mianowicie, dla każdego zbioru borelowskiego A mamy \(Q(A) = Q(A\cap K)\) (dlaczego?) i dalej:

\begin{equation} Q(A) = \sum _{i: x_i \in A} p_i. \label {eq:Q(A)} \end{equation}

W związku z powyższym, często używa się sformułowania: rozkład dyskretny zadany przez ciągi \(\{x_i\}\) i \(\{p_i\}\).

Dystrybuanta rozkładu dyskretnego Niech rozkład dyskretny \(Q\) będzie zadany przez ciągi \(\{x_i\}\) oraz \(\{p_i\}\). Wtedy otrzymujemy:

\[ F_Q(x) = \sum _{i:x_i \le x} p_i. \]

Trywialnym przykładem rozkładu dyskretnego jest rozkład jednopunktowy \(\delta _c\). Nietrywialnymi przykładami są kombinacje barycentryczne takich rozkładów.

Rozkład \((0,1,p)\) Jest to rozkład skupiony w dwóch punktach \(0\) oraz \(1\) mający parametr \(0<p<1\). Mianowicie:

\[ Q(0) = 1- p, \ \ \ \ \ Q(1) = p. \]

Jest często używany, jako model doświadczenia, które może dać dokładnie dwa wyniki nazywane często sukcesem – 1 i porażką – 0.

Rozkład dwumianowy, \(B(n,p)\) Jest to rozkład skupiony w punktach \(0,1,\dots , n\), przy czym:

\[Q(k) = \binom {n}{k} p^k(1 -p)^{n-k}\;\;\textrm {dla}\;\;k= 0,1,\dots , n.\]

Pamiętamy, że powyższy wzór określa prawdopodobieństwo dokładnie \(k\) sukcesów w \(n\) niezależnych próbach Bernoulliego.

  • Przykład – 4.8 Możemy zinterpretować graficznie wzór (4.5) dla rozkładu \(B(20,0.4)\).

    (image)

    (image)

    (image)

    (image)

  • Definicja – 4.9 (Rozkład ciągły) Rozkład n-wymiarowy \(Q\) nazywamy rozkładem ciągłym, jeżeli istnieje funkcja całkowalna \(f\colon \rn \str \r \) taka, że dla każdego zbioru borelowskiego \(A \subset \rn \):

    \begin{equation} Q(A) = \int _Af(x)\, dx = \mu _{L_{n+1}}(A_f) \label {eq:A(A)c} \end{equation}

    gdzie \(\int _Af(x)\, dx\) oznacza całkę względem miary Lebesgue’a po zbiorze \(A\) z funkcji \(f\).

    \[ A_f = \{(x,y) \in \r ^{n+1}: x \in A, 0 \le y \le f(x) \}. \]

    Funkcję \(f\) nazywamy wówczas gęstością rozkładu \(Q\).

  • Przykład – 4.10 Przykłady gęstości rozkładów ciągłych wraz z interpretacją wzoru (4.6):

    (image)
    \(A = (2,4)\), \(Q(A) = \frac {2}{10}\)

    (image)
    \(A = (180,185)\),

    \(Q(A)\) – zakreskowane pole

    (image)

    (image)

    (image)

    (image)

Widać, że (bierzemy \(A = \rn \)):

\[\int _{\rn } f(x)\,dx = 1.\]

oraz

\[f(x) \ge 0 \mbox { prawie wszÄŹdzie,}\]

co rozumiemy następująco:

\(\mu _{L_n}(\{x \in \rn : f(x) < 0 \}) = 0\), gdzie \(\mu _{L_n}\) oznacza miarę Lebesgue’a.

Gdyby \(\mu _{L_n}(\{x \in \rn : f(x) < 0 \}) > 0\), to \(Q(\{x \in \rn : f(x) < 0 \}) = \int _{\{x \in \rn : f(x) < 0 \}} f(x)\, dx < 0\).

  • Uwaga – 4.11 Jeżeli funkcja \(f: \rn \to \r \) spełnia dwa powyższe warunki, to jest ona gęstością pewnego rozkładu \(Q\).

Wystarczy wziąć: \(Q(A) = \int _A f(x)\,dx\), dla \(A \in {\bf B}(\rn )\).

Dystrybuanta rozkładu ciągłego Niech rozkład ciągły \(Q\) ma gęstość \(f\). Wtedy wprost z definicji otrzymujemy:

\[ F_Q(x) = Q(-\infty ,x] = \int _{-\infty }^x f(t)\,dt. \]

Zauważmy, że w rozkładzie ciągłym zbiory jednopunktowe mają miarę zero, a więc dystrybuanta jest ciągłą w każdym punkcie.

Można podać przykład dystrybuanty, która jest funkcją ciągłą w każdym punkcie, ale jej rozkład NIE JEST ciągły.

Jeżeli pewna funkcja \(f\) mierzalna spełnia powyższy wzór, to jest ona gęstością rozkładu, którego dystrybuantą jest \(F\). Jeżeli więc wiemy, że dystrybuanta jest funkcją ciągłą i różniczkowalną, ewentualnie poza skończoną liczbą punktów, to jej pochodna jest gęstością rozważanego rozkładu. Wiadomo ponadto, że w każdym punkcie \(x\), który jest punktem ciągłości \(f\), funkcja górnej granicy całkowania, a więc dystrybuanta, jest różniczkowalna oraz zachodzi wzór:

\[F'(x) = f(x).\]

Przykładem rozkładu ciągłego jest:

Rozkład jednostajny, \(U(G)\). Niech \(G \subset \rn \) będzie zbiorem borelowskim o dodatniej i skończonej mierze Lebesgue’a, to znaczy \(0 < \mu _{L_n}(G) < \infty \). Określmy funkcję:

\[ f(x) = \left \{\begin {array}{rll} 0, & \mbox { gdy } & x \notin G\\[0,3cm] \di \frac {1}{\mu _{L_n}(G)}, & \mbox { gdy } & x \in A. \end {array} \right . \]

Jest oczywiste, że \(f\) spełnia warunki wymagane od gęstości, jest więc gęstością pewnego rozkładu prawdopodobieństwa. Rozkład ten nazywamy rozkładem jednostajnym.

(image)
\(G = (-1,1) \subset \r \)

(image)
\(G = \{(x,y):x^2+y^2 < 1\} \subset \r ^2\)

  • Przykład – 4.12

    Niech \(F\) będzie dystrybuantą rozkładu jednostajnego na odcinku \((a,b)\), \(U(a,b)\). Otrzymujemy:

    \[ F(x) =\left \{ \begin {array}{rl} 0, & x < a\\[0.2cm] \di \frac {x-a}{b-a}, & a\le x < b\\[0.3cm] 1, & b \le x. \end {array} \right . \]

    ,

(image)
\(f(x) = \frac {1}{2}I_{[-1,1]}\)

(image)
\(F(x) = \frac {x+1}{2}\) dla \(-1<x<\)

Zauważmy, że \(F\) nie jest różniczkowalna w punktach \(a\), \(b\) i w tych samych punktach \(f\) nie jest ciągła.

Nie jest też istotne ile wynosi \(f(a)\) oraz \(f(b)\).

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

4.3 Pytania

  • Pytanie 4.1 Niech \(F_1, ..., F_k\) będą dystrybuantami, \(\lambda _1, ... , \lambda _k > 0\), \(\lambda _1 + ... + \lambda _k = 1\). Czy \(F = \lambda _1F_1 + ... + \lambda _kF_k\) jest dystrybuantą?

Wskazówka. Tak.

  • Pytanie 4.2 \(Q\) jest rozkładem dyskretnym zadanym przez ciągi \((1,2,3,...),\) \((\frac 16, \frac 56 \frac {1}{6}, (\frac {5}{6}) \frac 16 , ... )\). Oblicz \(Q(A)\), gdzie \(A\) jest zbiorem liczb parzystych. Wykaż, że zbiory liczb parzystych i liczb pierwszych są zdarzeniami zależnymi.

Wskazówka. \(Q(A) = \frac {5}{11}\). Niech \(B\) będzie zbiorem liczb pierwszych. Biorąc cztery kolejne liczby pierwsze możemy stwierdzić, że \(Q(B) > 0.3908214735 \), więc \(Q(A)Q(B) > 0.1776461243\). Tymczasem \(Q(A\cap B) = Q(\{2\}) = \frac {5}{36} = 0.1388888889\).

  • Pytanie 4.3 Wskaż rozkład ciągły, którego gęstość jest dodatnia we wszystkich punktach \(x \in \r \).

Wskazówka. Można wziąć taką funkcję dodatnią, np. ciągłą, \(g\) że \(\int _{-\infty }^\infty g(x)\,dx < \infty \). Gęstością jest wtedy \(f\):

\[ f(x) = \frac {g(x)}{\int _{-\infty }^\infty g(x)\,dx}. \]

  • Pytanie 4.4 Wykaż, że dla dowolnej dystrybuanty zbiór punktów nieciągłości jest co najwyżej przeliczalny.

Wskazówka. W istocie jest to uogólnienie Uwagi 4.7.

  • Pytanie 4.5 Niech \(F\) będzie dystrybuantą, a \(h :\r \str \r \) funkcją. Zaproponuj założeni o \(h\) gwarantujące, że \(F\circ h\) jest dystrybuantą.

Wskazówka. \(h\) rosnąca, \(\lim _{x\to - \infty }h(x) = - \infty \), \(\lim _{x\to \infty }h(x) = \infty \).

  • Pytanie 4.6 Wskaż dystrybuantę rozkładu jednostajnego na: (a) przedziale \((-2,2)\), (b) sumie przedziałów \((-4,-2)\), \((2,4)\).

Wskazówka. Ad (a).

\[ F(x) =\left \{ \begin {array}{cl} 0, & x < -2\\[0.2cm] \frac {x+2}{4}, & -2\le x < 2\\[0.3cm] 1, & 2 \le x. \end {array} \right . \]

,

Ad (b).

\[ F(x) =\left \{ \begin {array}{cl} 0, & x < -4\\[0.2cm] \frac {x+4}{4}, & -4 \le x < -2\\[0.3cm] \frac {1}{2}, & -2 \le x < 2 \\[0.3cm] \frac {x}{4}, & 2 \le x < 4 \\[0.3cm] 1, & 4 \le x. \end {array} \right . \]

Rachunek prawdopodobieństwa — Zmienne i wektory losowe

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 5 Zmienne i wektory losowe

Rozważając matematyczny model zjawiska o charakterze losowym nie zawsze potrafimy (lub chcemy) opisywać odpowiadającą mu przestrzeń probabilistyczną. Operujemy jednak wielkościami, które są interpretowane jako wartości odpowiednich funkcji określonych na tej przestrzeni. O ile spełniają odpowiednie warunki, funkcje te nazywane są zmiennymi lub wektorami losowymi.

5.1 Definicje i własności

Niech \((\Omega ,\Sigma ,P)\) będzie przestrzenią probabilistyczną.

  • Definicja – 5.1 (wektor losowy) Funkcję \(X\colon \Omega \str \rn \) nazywamy wektorem losowym, jeżeli jest ona funkcją mierzalną względem \(\sigma \)-algebry \(\Sigma \), to znaczy:

    \[ X^{-1}(B) = \{\omega \in \Omega : X(\o ) \in B \} \in \Sigma \]

    dla każdego zbioru borelowskiego \(B \in {\cal B}(\rn )\).

    Zmienna losowa jest to jednowymiarowy wektor losowy.

Wyróżnianie zmiennych losowych nie ma formalnego uzasadnienia, stosuje się je ze względów tradycyjnych. Dość często określenie „wektor losowy"i „zmienna losowaśą używane zamiennie.

Zbiory \(X^{-1}(B)\), gdzie \(B \in {\cal B}({\rn })\), będziemy nazywać zbiorami opisywanymi przez wektor losowy \(X\). Podkreślamy wyraźnie, że są to zbiory postaci \(\{\omega \in \Omega : X(\omega )\in B\}\), co skrótowo będziemy zapisywać \(\{X \in B\}\). Tak więc, na przykład, wyrażenie \(P(X < \varepsilon )\) oznacza: \(P(\{\omega \in \Omega : X(\omega ) < \varepsilon \}).\)

Warunek mierzalności oznacza, że wszystkie zdarzenia opisane przez \(X\) są elementami \(\Sigma \), czyli, że mamy dostępną informację na temat takich zdarzeń.

  • Przykład – 5.2

    Niech \(\Omega = \{(i,j): i,j = 1, \dots ,6\}\). Niech \(\Sigma = \sigma (F_1, \dots , F_6\}\), gdzie \(F_k = \{(i,j): \max (i,j) = 6\}\).

    Niech \(X: \Omega \str \r \) będzie funkcją określoną jako \(X(i,j) = i\). \(X\) nie jest zmienną losową, gdyż na przykład zbioru

    \[\{(i,j); X(i,j) = 1\}= \{(1,1), (1,2), (1,3), (1,4), (1,5), (1,6)\}\]

    nie można przedstawić jako sumy pewnych zbiorów \(F_i\). Inaczej mówiąc. Nie potrafimy za pomocą dostępnej informacji (znajomości \(\Sigma \)) zinterpretować wyniku zaobserwowanego na pierwszej kostce.

    Niech \(Y : \Omega \str \r \) będzie funkcją określoną jako; \(Y(i,j) =1\), gdy \(i = 6\) oraz \(j = 6\), oraz \(Y(i,j) = 0\) w przeciwnym przypadku. \(Y\) nie jest zmienną losową, gdyż \(Y^{-1}(1) = \{(6,6)\}\) nie można przedstawić jako sumy pewnych zbiorów \(F_i\).

    Niech \(Z : \Omega \str \r \) będzie funkcją określoną jako; \(Z(i,j) =1\), gdy \(i = 6\) lub \(j = 6\), oraz \(Z(i,j) = 0\) w przeciwnym przypadku. \(Z\) jest zmienną losową, gdyż \(Z^{-1}(1) = F_6\), \(Z^{-1}(0) = F_1 \cup \dots \cup F_5\). Dla każdego zbioru borelowskiego \(B\) mamy \(Z^{-1}(B) = Z^{-1}(B \cap \{0,1\}) = Z^{-1}(B \cap \{0\}) \cup Z^{-1}(B \cap \{1\}) \in \Sigma \).

  • Przykład – 5.3 Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(A\subset \Omega \). Określamy funkcję charakterystyczną zbioru \(A\)

    \[ I_A(x) = \left \{ \begin {array}{lll} 1, & \mbox { dla } & x \in A,\\ 0, & \mbox { dla } & x \notin A. \end {array} \right . \]

    Wtedy: \(A \in \Sigma \) \(\rwn \) \(I_A\) jest zmienną losową.

  • Uwaga – 5.4 Gdy \(\Sigma = {\cal P}(\Omega )\), to każda funkcja \(X : \Omega \to \rn \) jest zmienną losową.

Odwzorowania mierzalne, a więc także wektory losowe, mają szereg pożytecznych własności dotyczących działań algebraicznych, złożeń, kresów, zbieżności. Znane są one z innych kursów i będziemy z nich wielokrotnie korzystać w dalszej części wykładu. Poniżej podajemy ważniejsze z nich w języku wektorów i zmiennych losowych.

  • Twierdzenie – 5.5 Zachodzą następujące własności:

    • 1. Suma, różnica, iloczyn, iloraz (o ile jest wykonalny) wektorów losowych jest wektorem losowym.

    • 2. Zestawienie wektorów losowych jest wektorem losowym.

    • 3. Minimum i maksimum zmiennych losowych jest zmienną losową.

    • 4. Kres, dolny i górny, ciągu zmiennych losowych jest zmienną losową.

    • 5. Granica ciągu wektorów losowych jest wektorem losowym.

    • 6. Złożenie \(g \circ X\) wektora losowego \(X\) z funkcją borelowską \(g\) jest wektorem losowym. (Funkcja \(g\) jest borelowska \(\rwn g^{-1}(B)\) jest zbiorem borelowskim, gdy \(B\) jest zbiorem borelowskim).

      W szczególności zmiennymi losowymi są:

    • 7. Funkcje proste (funkcje schodkowe) zdefiniowane jako:

      \[ X(x) = c_i, \mbox { dla } x \in A_i, \]

      przy czym \(A_1, \dots , A_k \in \Sigma \) są zbiorami parami rozłącznymi i dającymi w sumie całą przestrzeń \(\Omega \), a liczby \(c_1, \dots , c_k\) są dowolne. Mianowicie \(X\) jest sumą:

      \[X(x) = \sum _{i=1}^kc_iI_{A_i}. \]

    • 8. Funkcje \(X^+\) oraz \(X^-\) zdefiniowane dla zmiennej losowej \(X\) jako:

      \[ X^+(x) = \max (X(x),0), \ \ \ \ \ \ X^-(x) = - \min (X(x),0). \]

    • 9. Niech \(X, Y : \Omega \to \r \). Wtedy:
      \(X\), \(Y\) są zmiennymi losowymi \(\rwn (X,Y)\) jest wektorem losowym.

  • Definicja – 5.6 Rozkład wektora losowego \(X\colon \Omega \str \rn \) jest to rozkład określony wzorem:

    \[ P_X(B) = P(X^{-1}(B)),\mbox { dla } B\in {\cal B}(\rn ). \]

Mierzalność \(X\) gwarantuje sensowność tej definicji – ponieważ \(P\) jest określone na zdarzeniach z \(\Sigma \), musimy mieć gwarancję, że \(X^{-1}(B) \in \Sigma \).

Łatwo sprawdzić, że powyższy wzór określa rzeczywiście rozkład.

Często piszemy \(X \sim Q\), gdy \(P_X = Q\).

Dystrybuantę rozkładu \(P_X\) będziemy nazywać dystrybuantą zmiennej losowej \(X\) i oznaczać często przez \(F_X\).

Zazwyczaj używając pojęcia zmienna losowa (wektor losowy) oraz operując jej (jego) rozkładem nie zwracamy zbytniej uwagi na przestrzeń probabilistyczną na której jest ten obiekt określony. W wielu przypadkach postępowanie takie jest usprawiedliwione dzięki następującemu twierdzeniu:

  • Twierdzenie – 5.7 Niech \(Q\) będzie \(n\)-wymiarowym rozkładem prawdopodobieństwa. Wtedy istnieje przestrzeń probabilistyczna (Ω, Σ, P ) oraz wektor losowy \(X: \Omega \str \rn \), taki, że \(Q = P_X\).

Dowód. Wystarczy wziąć: \(\Omega = \rn \), \(\Sigma = {\cal B}(\rn )\), \(P = Q\) oraz \(X = id_{\rn }\).   \(\Box \)

  • Przykład – 5.8 W urnie są dwie białe i trzy czarne kule. Losujemy pojedynczo kule do momentu wyciągnięcia białej kuli. Niech \(X\) oznacza liczbę losowań. Wyznaczymy rozkład \(X\).

    (a) losowanie ze zwracaniem. Widać, że \(X\) przyjmuje wartości \(1,2,3, \dots \). łatwo też sprawdzić, że \(p_k = P(X = k) = (\frac {3}{5})^{k-1} \frac {2}{5}\), \(k = 1,2,3, \dots \). Tak więc \(P_X\) ma rozkład dyskretny zadany jest ciągi \(\{k\}, \{ (\frac {3}{5})^{k-1} \frac {2}{5} \}\), \(k = 1, 2, 3, \dots \).

    (b) losowanie bez zwracania. Widać, że \(X\) przyjmuje wartości \(1,2,3, 4\). łatwo też sprawdzić, że:
    \(P(X=1) = P(B_1) = \frac {2}{5}\),
    \(P(X=2) = P(C_1\cap B_2) = P(B_2|C_1)P(C_1) = \frac {2}{4} \cdot \frac {3}{5} = \frac {3}{10}\),
    \(P(X=3) = P(C_1 \cap C_2 \cap B_3) = P(B_3|C_1 \cap C_2) P(C_1 \cap C_2) = \frac {2}{3} \cdot \frac {2}{4} \cdot \frac {3}{5} = \frac {2}{10} \),
    \(P(X=4) = 1 - ( P(X=1) + P(X=2) +P(X=3)) = \frac {1}{10} \).

  • Przykład – 5.9 Pan Adam jeździ rano do pracy i wraca z pracy wieczorem autobusami, które jeżdżą dokładnie co 10 minut. Niech \(X\) oznacza sumę czasów rano i wieczorem spędzonych przez pana Adama na przystankach.

    Znajdziemy rozkład \(X\).

    Wyznaczamy dystrybuantę \(F\). Czyli dla każdego \(x \in \r \) wyznaczmy \(F(x) = P(X\le x)\). Oczywiście \(F(x) = 0\) dla \(x \le 0\) oraz \(F(x) = 1\) dla \(x \ge 20\). Dla pozostałych \(x\) korzystamy z modelu prawdopodobieństwa geometrycznego. Dla \(0\le x \le 10\) mamy \(F(x) = \frac {x^2/2}{100}\). Dla \(10\le x \le 20\) mamy \(F(x) = \frac {100 -(20 -x)^2/2}{100}\).

    (image)

    Zauważmy, że jest to funkcja ciągła, łatwo też pokazać, że jest we wszystkich punktach różniczkowalna. Jej pochodna \(F'\) jest więc gęstością rozkładu \(P_X\), czyli krótko mówiąc jest gęstością zmiennej losowej \(X\).

    \[ f(x)= F'(x) = \left \{\begin {array}{lll} 0 & \mbox { dla } & x \le 0\\ \frac {x}{100} & \mbox { dla } & 0\le x \le 10\\[2mm] \frac {20-x}{100} & \mbox { dla } & 10\le x \le 20\\ 0 & \mbox { dla } & 20 \le x \end {array} \right . \]

    (image)

Znając gęstość lub dystrybuantę można wyznaczać prawdopodobieństwa zdarzeń opisanych przez \(X\).

\[P(a < X < b) = P(a \le X \le b) = F(b) - F(a) = \int _a^bf(x)\,dx.\]

Jakie jest prawdopodobieństwo tego, że pan Adam spędzi na przystankach co najmniej pięć, lecz nie więcej niż dziesięć minut?

(image)
\(P(5 \le X \le 10) = F(10) - F(5) \) = \(\frac {1}{2} - \frac 18 = \frac {3}{8}.\)

(image)
\(P(5 \le X \le 10) = \int _{5}^{10} f(x) \,dx = \frac {3}{8}.\)

Jakie jest prawdopodobieństwo tego, że pan Adam spędzi na przystankach więcej niż 15 minut?

(image)
\(P(X \ge 15) = 1 - F(15) \) = \(1 - \frac 78 = \frac {1}{8}.\)

(image)
\(P(X \ge 15) = \int _{15}^{\infty } f(x) \,dx = \frac {1}{8}.\)

Jakie jest prawdopodobieństwo tego, że pan Adam spędzi na przystankach dokładnie tyle samo czasu, powiedzmy po \(c\) minut na każdym?

Tego zdarzenia nie opisuje zmienna \(X\)! Jednak, szukane prawdopodobieństwo jest nie większe niż \(P(X=2c) = \int _{2c}^{2c} f(x)\,dx = 0\).

Ile wynosi prawdopodobieństwo tego, że pan Adam spędzi na przystankach rano i wieczorem mniej niż 5 minut na każdym?

Tego zdarzenia nie opisuje zmienna losowa \(X\), niemniej odpowiedź jest oczywista: \(\frac {1}{2} \cdot \frac {1}{2} = \frac {1}{4}\).

  • Przykład – 5.10 Pewnego dnia p. Adam zmienia strategię. Gdy wieczorem wychodzi z pracy czeka na przystanku maksymalnie 3 minuty i gdy jego autobus nie przyjedzie idzie do domu na piechotę. Jaki jest rozkład czasu \(X\) spędzonego na przystanku wieczorem?

    Zauważmy, że \(X = \min (Y,3)\), gdzie \(Y\) ma rozkład jednostajny na odcinku \((0,10)\) (\(P_Y = U(0,10)\)). Niech \(F =F_X\). Wtedy

    \[ F(x) = P(X \le x) = P(\min (Y,3) \le x) = \left \{\begin {array}{lll} 0 & \mbox { dla } & x \le 0\\ \frac {x}{10} & \mbox { dla } & 0\le x < 3\\ 1 & \mbox { dla } & 3 \le x. \end {array} \right . \]

    Ta dystrybuanta nie jest ciągła w punkcie \(x=3\), więc mamy do czynienia z rozkładem, który nie jest ani dyskretny ani ciągły.

    Przy okazji: \(P(X=3) = \frac {7}{10}\).

    (image)

Rachunek prawdopodobieństwa — Rozklady brzegowe i warunkowe

(image)

Rachunek prawdopodobieństwa 1, 2

5.2 Rozkłady brzegowe i warunkowe

  • Przykład – 5.11 Rozważmy rzut dwiema kostkami symetrycznymi. Niech \(X\) oznacza numer kostki na której wypadła większa liczba, lub 0, gdy na obydwu kostkach wypadła ta sama liczba, a \(Y\) oznacza maksimum uzyskanych oczek. Znajdziemy rozkład wektora losowego \((X,Y)\).

    Z dodatnimi prawdopodobieństwami \((X,Y)\) może potencjalnie przyjmować 18 wartości. W tym przypadku można zobrazować to tabelką zawierającą liczności zdarzeń \((X = i, Y=j)\), \(i = 0,1,2\), \(j = 1,2,3,4,5,6\).

    \[ \begin {array}{ccccccc} $X$\backslash $Y$ & 1 & 2 & 3 & 4 & 5 & 6 \\[1mm] 0 & 1 & 1 & 1 & 1 & 1 & 1 \\ 1 & 0 & 1 & 2 & 3 & 4 & 5 \\ 2 & 0 & 1 & 2 & 3 & 4 & 5 \end {array} \]

    W takim razie prawdopodobieństwa \(p_{i,j} = P(X = i, Y=j)\) też tworzą macierz:

    \[ \begin {array}{ccccccc} $X$\backslash $Y$ & 1 & 2 & 3 & 4 & 5 & 6 \\[1mm] 0 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 \\ 1 & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 \\ 2 & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 \end {array} \]

  • Przykład – 5.12 (kontynuacja Przykładu poprzedniego)

    Sumując wiersze i kolumny otrzymujemy rozkłady zmiennych \(X\) oraz \(Y\).

    \[ \begin {array}{cccccccc} $X$\backslash $Y$ & \color {blue}{1} & \color {blue}{2} & \color {blue}{3} & \color {blue}{4} & \color {blue}{5} & \color {blue}{6} & \ \color {red}{X} \\[1mm] \color {red}{0} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ \color {red}{1} & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12}\\ \color {red}{2} & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12} \\[1mm] \color {blue}{Y} & \color {blue}{1/36} & \color {blue}{3/36} & \color {blue}{5/36} & \color {blue}{7/36} & \color {blue}{9/36} & \color {blue}{11/36} \end {array} \]

Nazywamy je rozkładami brzegowymi. Ogólnie.

  • Definicja – 5.13 (Rozkład brzegowy) Dla danego rozkładu \(n+m\) wymiarowego \(Q : {\cal B}(\r ^n \times \r ^m) \to \r \) określamy rozkłady brzegowe \(Q_1 : {\cal B}(\r ^n) \to \r \), \(Q_2 : {\cal B}(\r ^m) \to \r \) za pomocą formuły:

    \[ Q_1(A) = Q(A \times \r ^m), \ \ Q_2(B) = Q(\rn \times B). \]

W dalszym ciągu rozważamy przypadek \(n = m = 1\). Uogólnienie na dowolne \(n, m\) jest oczywiste.

Niech \((X,Y)\) będzie dwuwymiarowym wektorem losowym określonym na przestrzeni probabilistycznej (Ω, Σ, P ) i niech \(Q\) będzie jego rozkładem, czyli \(Q = P_{(X,Y)}\). Wtedy: dla dowolnego \(A \in {\cal B}(\r )\) mamy:
\(P_X(A) = P(X \in A) = P(X \in A,Y\in \r ) = P((X,Y) \in A \times \r ) = P_{(X,Y)} (A \times \r ) = Q(A\times \r ) = Q_1(A)\). Tak więc \(P_X = Q_1\). Podobnie \(P_Y = Q_2\).

  • Uwaga – 5.14 Rozkłady brzegowe wektora losowego \((X,Y)\) pokrywają się z rozkładami zmiennych losowych \(X\) oraz \(Y\).

Niech \(Q\) będzie dyskretnym rozkładem 2-wymiarowym skupionym na zbiorze (co najwyżej przeliczalnym) \(K\). Możemy taki rozkład jednoznacznie scharakteryzować przez podanie dwóch macierzy; punktów oraz ich prawdopodobieństw. Mianowicie, weźmy najmniejsze zbiory co najwyżej przeliczalne \(K_1, K_2 \subset \r \) takie, że \(K \subset K_1 \times K_2\) i ustawmy je w ciągi, powiedzmy \(K_1 = \{x_i\}_{i=1}^M\), \(K_2 = \{y_j\}_{j=1}^N\), \(M, N \le \infty \) oraz niech \(p_{ij} = Q(x_i,y_j)\). Widać, że:

\(p_{ij} \ge 0\) dla wszystkich \(i,j\), oraz \(\di \sum _{i,j}p_{ij} = 1\).

Z doboru zbiorów \(K_1\), \(K_2\) wynika też, że \(\forall \, i \ \exists \, j \ p_{ij} > 0\) oraz \(\forall \, j \ \exists \, i \ p_{ij} > 0\). Gdyby tak nie było, można by zmniejszyć \(K_1\) lub \(K_2\).

Para \((\{(x_i,y_j)\},\{ p_{ij}\} )\) w pełni charakteryzuje rozkład \(Q\).

Wtedy rozkłady brzegowe \(Q_1\), \(Q_2\) są określone odpowiednio przez pary ciągów. \(Q_1\) przez \((\{x_i\}, \{p_{i.}\})\), \(Q_2\) przez \((\{y_j\}, \{p_{.j}\})\), przy czym:

\[ p_{i.} = Q_1(x_i) = Q(\{x_i\} \times \r ) = \sum _{j}p_{ij}, \ \ \‚p_{.j} = Q_2(y_j) = Q(\r \times \{y_j\}) = \sum _{i}p_{ij}. \]

Ponieważ występujące powyżej sumy mają wszystkie składniki nieujemne oraz przynajmniej jeden składnik dodatni, wszystkie liczby \(p_{i.}\) oraz \(p_{.j}\) są dodatnie. W dalszej części mówiąc o rozkładach dyskretnych wielowymiarowych będziemy zawsze zakładać, że mają powyższą własność.

Niech \((X,Y)\) będzie dwuwymiarowym wektorem losowym określonym na przestrzeni probabilistycznej (Ω, Σ, P ) i niech \(Q\) będzie jego rozkładem, czyli \(Q = P_{(X,Y)}\). Jeżeli jest to rozkład dyskretny scharakteryzowany przez parę \((\{(x_i,y_j)\},\{ p_{ij}\} )\), to oznacza, że:

\[P(X=x_i,Y=y_j) = p_{ij},\]

\[P(X= x_i) = P(X = x_i,Y \in \r ) = Q(\{x_i\} \times \r ) = Q_1(x_i) = p_{i.},\]

\[P(Y= y_j) = P(X \in \r ,Y =y_j) = Q(\r \times \{y_j\}) = Q_2(y_j) = p_{.j}.\]

Inaczej:

\[P(X= x_i) = \sum _{j}p_{ij}, \ \ \ P(Y= y_j) = \sum _{i}p_{ij}\]

Niech \(Q\) będzie 2-wymiarowym rozkładem ciągłym o gęstości \(f : \r ^2 \to \r \). Wtedy rozkłady brzegowe też są ciągłe i mają gęstości \(f_1\), \(f_2\) dane wzorami:

\[f_1(x) = \int _\r f(x,y)\,dy, \ \ \ f_2(y) = \int _\r f(x,y)\,dx. \]

Dowód. \(\di Q_1(A) = Q(A\times \r ) = \int _{A\times \r } f(x,y)\,d(x,y) = \)

stosujemy twierdzenie Fubiniego

\(\di = \int _A\left (\int _\r f(x,y)\,dy\right )\,dx\),

Więc \(\di f_1(x) = \int _\r f(x,y)\,dy\).   

W języku zmiennych losowych. Jeżeli \(f\) jest gęstością wektora losowego \((X,Y)\), to \(X\) oraz \(Y\) mają gęstości:

\[f_X(x) = \int _\r f(x,y)\,dy, \ \ \ f_Y(y) = \int _\r f(x,y)\,dx. \]

  • Przykład – 5.15 Wektor losowy \((X,Y)\) ma rozkład jednostajny na zbiorze \(G : x^2 + y^2 \le 1, y \ge 0\). Znaleźć rozkłady \(X\) oraz \(Y\).

    \(\di f_{X,Y)} = \frac {2}{\pi }I_G\).
    \(\di f_X(x) = \int _{-\infty }^\infty \frac {2}{\pi }I_G(x,y)\,dy = \int _{0}^{\sqrt {1-x^2}}\frac {2}{\pi }\,dy = \frac {2}{\pi } \sqrt {1-x^2}\) dla \(-1 \le x \le 1\).
    \(\di f_Y(y) = \int _{-\infty }^\infty \frac {2}{\pi }I_G(x,y)\,dx = \int _{- \sqrt {1-y^2}}^{\sqrt {1-y^2}}\frac {2}{\pi }\,dx = \frac {4}{\pi } \sqrt {1-y^2} \) dla \(0 \le y \le 1\).

(image)
\(f_X\)

(image)
\(f_Y\)

Pytanie. Czy rozkłady brzegowe wyznaczają jednoznacznie rozkład 2-wymiarowy?

N I E !!!

  • Przykład – 5.16 Niech \(X = Y\) oznaczają liczbę oczek która wypadnie w rzucie jedną kostką.

    \[ \begin {array}{cccccccc} $X$\backslash $Y$ & \color {blue}{1} & \color {blue}{2} & \color {blue}{3} & \color {blue}{4} & \color {blue}{5} & \color {blue}{6} & \ \color {red}{X} \\[1mm] \color {red}{1} & 1/6 & 0 & 0 & 0 & 0 & 0 & \color {red}{1/6}\\ \color {red}{2} & 0 & 1/6 & 0 & 0 & 0 & 0 & \color {red}{1/6}\\ \color {red}{3} & 0 & 0 & 1/6 & 0 & 0 & 0 & \color {red}{1/6}\\ \color {red}{4} & 0 & 0 & 0 & 1/6 & 0 & 0 & \color {red}{1/6}\\ \color {red}{5} & 0 & 0 & 0 & 0 & 1/6 & 0 & \color {red}{1/6}\\ \color {red}{6} & 0 & 0 & 0 & 0 & 0 & 1/6 & \color {red}{1/6}\\[1mm] \color {blue}{Y} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} \end {array} \]

    Niech \(X, Y\) oznaczają liczbę oczek które wypadną w dwóch rzutach kostką.

    \[ \begin {array}{cccccccc} $X$\backslash $Y$ & \color {blue}{1} & \color {blue}{2} & \color {blue}{3} & \color {blue}{4} & \color {blue}{5} & \color {blue}{6} & \ \color {red}{X} \\[1mm] \color {red}{1} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ \color {red}{2} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ \color {red}{3} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ \color {red}{4} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ \color {red}{5} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ \color {red}{6} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\[1mm] \color {blue}{Y} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} & \color {blue}{1/6} \end {array} \]

Określimy pojęcie rozkładu warunkowego tylko w kontekście zmiennych losowych. Niech \((X,Y)\) będzie będzie wektorem o dyskretnym rozkładzie 2-wymiarowym danym przez \((\{(x_i,y_j)\},\{ p_{ij}\} )\). Czyli \(P(X = x_i,Y = y_j) = p_{ij}\). Niech:

\[p_{i|j} = P(X=x_i|Y=y_j) = \frac {P(X=x_i,Y=y_j)}{P(Y=y_j)} = \frac {p_{ij}}{P_{.j}}.\]

\[p_{j|i} = P(Y=y_j|X=x_j) = \frac {P(X=x_i,Y=y_j)}{P(X=x_i)} = \frac {p_{ij}}{p_{i.}}.\]

Uwaga. Oznaczenia są formalnie niepoprawne. Ale są zwyczajowo stosowane.

  • Definicja – 5.17 Rozkład dany przez ciągi \(\{x_i\}, \{p_{i|j}\}\) nazywamy rozkładem warunkowym \(X\) pod warunkiem \(Y= y_j\). Oznaczamy go \(P_{X|Y=y_j}\).

    Rozkład dany przez ciągi \(\{y_j\}, \{p_{j|i}\}\) nazywamy rozkładem warunkowym \(Y\) pod warunkiem \(X= x_i\). Oznaczamy go \(P_{Y|X=x_i}\).

  • Przykład – 5.18 Wróćmy do rozkładu:

    \[ \begin {array}{cccccccc} $X$\backslash $Y$ & \color {blue}{1} & \color {blue}{2} & \color {blue}{3} & \color {blue}{4} & \color {blue}{5} & \color {blue}{6} & \ \color {red}{X} \\[1mm] \color {red}{0} & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ \color {red}{1} & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12}\\ \color {red}{2} & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12} \\[1mm] \color {blue}{Y} & \color {blue}{1/36} & \color {blue}{3/36} & \color {blue}{5/36} & \color {blue}{7/36} & \color {blue}{9/36} & \color {blue}{11/36} \end {array} \]

    \(P_{X|Y=1}\) jest rozkładem jednopunktowym \(\delta _0\).

    \(P_{X|Y=6}\) jest rozkładem skupionym w punktach \(0,1,2\) z prawdopodobieństwami \(\frac {1}{11}\), \(\frac {5}{11}\), \(\frac {5}{11}\).

    \(P_{Y|X = 0}\) jest skupiony w punktach \(1,2,3,4,5,6\) z równymi prawdopodobieństwami.

\[ p_{ij} = p_{i|j}p_{.j} = p_{j|i}p_{i.}. \]

Znając rozkłady brzegowe i warunkowe można wyznaczyć rozkład wektora losowego.

  • Przykład – 5.19 Rzucamy kostką symetryczną uzyskując \(X\) oczek, a następnie rzucamy \(X\) razy monetą symetryczną uzyskując \(Y\) orłów. Interesuje nas rozkład wektora losowego \((X,Y)\). Oczywiście wektor ten może przyjmować wartości w punktach \((x_i,y_j), i = 1, \dots , 6\), \(j = 0,1, \dots , 6\) z prawdopodobieństwami \(p_{ij} = p_{j|i}p_{i.}\), gdzie \(p_{j|i}\), \(p_{i.}\) są dane. Na przykład: \(p_{53} = \binom {5}{3}\frac {1}{2^5} \frac {1}{6} = \frac {5}{96}\), \(p_{35} = 0 \frac {1}{6} = 0\).

Niech \((X,Y)\) będzie będzie wektorem o ciągłym rozkładzie 2-wymiarowym danym przez gęstość \(f\).

Formalnie nie możemy (jeszcze) mówić o rozkładzie warunkowym pod warunkiem, którego prawdopodobieństwo jest równe zeru. Możemy jednak formalnie zdefiniować funkcje:

\[ f_{X|Y=y}(x) = f(x|y) = \left \{\begin {array}{lll} \frac {f(x,y)}{\int _\r f(x,y)\,dx} = \frac {f(x,y)}{f_Y(y)}, & \mbox { gdy } & f_Y(y) >0\\ 0, & \mbox { gdy } & f_Y(y) = 0 \end {array} \right . \]

\[ f_{Y|X=x}(y) = f(y|x) = \left \{\begin {array}{lll} \frac {f(x,y)}{\int _\r f(x,y)\,dy} = \frac {f(x,y)}{f_X(x)}, & \mbox { gdy } & f_X(x) >0\\ 0, & \mbox { gdy } & f_X(x) = 0 \end {array} \right . \]

Są to gęstości (ćwiczenie).

  • Definicja – 5.20 Rozkład o gęstości \(f(\cdot |y)\) nazywamy rozkładem warunkowym \(X\) pod warunkiem \((Y= y)\) i oznaczamy \(P_{X|Y=y}\).

    Rozkład o gęstości \(f(\cdot |x)\) nazywamy rozkładem warunkowym \(Y\) pod warunkiem \((X= x)\) i oznaczamy \(P_{Y|X=x}\).

Podobnie jak w przypadku dyskretnym:

\[ f(x,y) = f(y|x)f_X(x) = f(x|y)f_Y(y).\]

  • Przykład – 5.21

    Losujemy według rozkładu jednostajnego liczbę \(X\) z odcinka \([0,1]\) a następnie według rozkładu jednostajnego liczbę \(Y\) z odcinka \([0,X]\). Według jakiego rozkładu została wylosowana liczba \(Y\)?

    Mamy kolejno:

    \(f_X = I_{[0,1]}\) – funkcja charakterystyczna odcinka \([0,1]\).

    Gęstość warunkową \(f(\cdot |x) = \frac {1}{x}I_{[0,x]}\), dla \(0 < x \le 1\).

    \[f(x,y) = f(y|x)f_X(x) = \left \{\begin {array}{ll} \frac {1}{x} &\mbox { dla } 0 < y \le x \le 1\\ 0 & \mbox { dla pozostaÅĆych } (x,y) \in \r ^2. \end {array} \right .\]

    \(f_Y(y)= \int _\r f(x,y)\,dx = \int _y^1\frac {1}{x}\,dx = \ln x |_y^1 = - \ln y\), dla \(0 < y \le 1\),

    \(f_Y(y) = 0 \) dla pozostałych \(y\).

    Można też wyznaczyć gęstość rozkładu warunkowego \(P_{X|Y = y}\) dla \(0 < y < 1\):

    \(f(x|y) = \frac {1/x}{- \ln y} = - \frac {1}{ x\ln y}\) dla \(y <x < 1\).

    \(f_X(x) = 1\) dla \(0 \le x \le 1\),

    \(f(y|x) = f_{Y|X=x}(y) = \frac {1}{x}\), dla \(0 \le y \le x \le 1\).

(image)
\(f_X\)

(image)
\(f_{Y|X=0.2}\), \(f_{Y|X=0.6}\)

(image)
\(f_{(X,Y)}\)

(image)
\(f_Y\)

(image)
\(f_{X|Y=0.2}\), \(f_{X|Y=0.6}\)

Rachunek prawdopodobieństwa — Niezalezność zmiennych/wektorów losowych

(image)

Rachunek prawdopodobieństwa 1, 2

5.3 Niezależność zmiennych/wektorów losowych

Dany jest ciąg \(X_1, \dots , X_n\) zmiennych losowych określonych na przestrzeni probabilistycznej (Ω, Σ, P ) .

  • Definicja – 5.22 Mówmy, że \(X_1, \dots , X_n\) są niezależne \(\rwn \) dla każdych zbiorów borelowskich, \(B_i \in {\cal B}(\r )\), \(i =1, \dots , n\)

    \[ P(X_1 \in B_1, \dots , X_n \in B_n) = P(X_1 \in B_1)\cdot \, \dots \, \cdot P(X_n \in B_n). \]

  • Przykład – 5.23

    Rozważmy schemat klasyczny, gdzie \(\Omega = \{1,\dots ,8\}^2\).

    Zmienne losowe \(X_1\), \(X_2\) zdefiniowane jako \(X_1(i,j) = i\), \(X_2(i,j) = j\) są niezależne.

    Zmienne losowe \(Y_1\), \(Y_2\) zdefiniowane jako \(Y_1(i,j) = i\), \(Y_2(i,j) = i+j\) są zależne: \(P(Y_1 = 2, Y_2 = 10) = 0\), \(P(Y_1 = 2)\cdot P(Y_2 = 10) = 1/6 \cdot 3/36\).

Załóżmy bez straty ogólności, że \(n= 2\).

  • Twierdzenie – 5.24 Zmienne losowe \(X_1\), \(X_2\) są niezależne \(\rwn P_{(X_1,X_2)} = P_{X_1} \times P_{X_2}\),

Dowód. „\(\imp \)” Pamiętamy, że iloczyn kartezjański dwóch miar probabilistycznych, powiedzmy \(Q_1\), \(Q_2\), jest jednoznacznie określony przez warunek \((Q_1\times Q_2)(A_1 \times A_2) = Q_1(A_1) \cdot Q_2(A_2)\), dla dowolnych mierzalnych \(A_1\), \(A_2\).

Tutaj dla dowolnych \(B_1, B_2 \in {\cal B}(\r )\) mamy: \(P_{(X_1,X_2)}(B_1 \times B_2) = P(X_1 \in B_1,X_2 \in B_2) = P(X_1 \in B_1)\cdot P(X_2 \in B_2) = P_{X_1}(B_1) \cdot P_{X_2}(B_2)\). Czyli \(P_{(X_1,X_2)}\) jest iloczynem kartezjańskim \(P_{X_1}\), \(P_{X_2}\).

„\(\Longleftarrow \)" Oczywiste.   \(\Box \)

  • Twierdzenie – 5.25 Niech \((X,Y)\) będzie będzie wektorem o dyskretnym rozkładzie 2-wymiarowym danym przez \((\{(x_i,y_j)\},\{ p_{ij}\} )\). Czyli \(P(X = x_i,Y = y_j) = p_{ij}\). Wtedy:

    \[ X, Y \mbox { sÄĚ niezleÅijne } \rwn \ \forall i, j \ p_{ij} = p_{i.} p_{.j}. \]

Dowód. „\(\imp \)” \(p_{ij} = P(X = x_i,Y = y_j) = P(X=x_i) P(Y=y_j) = p_{i.} p_{.j}\).

„\(\Longleftarrow \)” Niech \(A\) oraz \(B\) będą zbiorami borelowskimi.
\(\di P(X\in A,Y \in B) = \sum _{(i,j): (x_i,y_j) \in A\times B} p_{ij} = \sum _{i,j: x_i\in A,y_j \in B} p_{i.}p_{.j} = \sum _{i: x_i \in A}p_{i.} \sum _{j: y_j \in B}p_{.j} =\) \(P(X \in A)P(Y \in B)\).   \(\Box \)

  • Twierdzenie – 5.26 Niech \((X,Y)\) będzie będzie wektorem o ciągłym rozkładzie 2-wymiarowym o gęstości \(f\) Wtedy:

    \[ X, Y \mbox { sÄĚ niezleÅijne } \rwn \ \forall x, y \in \r \ f(x,y) = f_X(x) f_Y(y). \]

Dowód. Twierdzenie Fubiniego   \(\Box \)

  • Uwaga – 5.27 Jeżeli wektor losowy \((X,Y)\) ma rozkład dyskretny, lub rozkład ciągły, a zmienne losowe \(X\), \(Y\) są niezależne, to wszystkie rozkłady warunkowe są równe rozkładom brzegowym.

Prostą ilustację powyższego twierdzenia i uwagi stanowi następujący:

  • Przykład – 5.28 Załóżmy, że wektor losowy \((X,Y)\) ma rozkład jednostajny na prostokącie \([a,b]\times [c,d]\). W takim razie \((X,Y)\) ma gęstość:

    \[ f_{(X,Y)} = \frac {1}{(b-a)(d-c)}I_{[a,b]\times [c,d]}, \]

    gdzie \(I_{[a,b]\times [c,d]}\) oznacza funkcję charakterystyczną prostokąta \([a,b]\times [c,d]\). Jest ona iloczynem funkcji charakterystycznych przedziałów \([a,b]\) oraz \([c,d]\), mamy więc:

    \[ f_{(X,Y)}(x,y) = f_X(x)\cdot f_Y(y). \]

    Wtedy też \(f_{Y|X=x} = f_Y\) oraz \(f_{X|Y=y} = f_X\).

Rachunek prawdopodobieństwa — Funkcje zmiennych/wektorów losowych

(image)

Rachunek prawdopodobieństwa 1, 2

5.4 Funkcje zmiennych/wektorów losowych

Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(X : \Omega \to \r ^n\) wektorem losowym, \(g : \rn \to \r ^m\) funkcją borelowską (\(\forall \ C \in {\cal B}(\r ^m) \ g^{-1}(C) \in {\cal B}(\rn )\)).

Zgodnie ze zwyczajem oznaczamy złożenie \(g \circ X\) symbolem \(g(X)\),

\[ g(X) = g \circ X : \Omega \ni \o \to g(X(\o )) \in \r ^m. \]

Ważny problem praktyczny: znając rozkład \(X\) wyznaczyć rozkład \(Y = g(X)\).

Rozwiązanie formalne. \(P_Y(C) = P(g(X)^{-1}(C)) = P((g\circ X)^{-1}(C)) = P(X^{-1}(g^{-1}(C))) = P_X(g^{-1}(C))\).

\[ P_Y(C) = P_X(g^{-1}(C)). \]

Z praktycznego punktu widzenia jest to wzór mało przydatny. W poszczególnych przypadkach możemy stosować różne sposoby.

  • Przykład – 5.29

    Zmienna losowa \(X\) ma rozkład dany przez ciągi \(- 1, 0, 1, 2\) oraz \(1/2, 1/8, 1/4, 1/8\). Wtedy zmienna \(X^2\) ma rozkład dany przez ciągi \(0, 1, 4\), oraz \(1/8, 3/4, 1/8\).

Zauważmy, że funkcja \(g(X)\) wektora losowego \(X\) o rozkładzie dyskretnym skupionym na zbiorze \(K\) (o którym wiemy, że jest skończony lub przeliczalny) ma rozkład dyskretny skupiony na zbiorze \(g(K)\). Dla rozkładó ciągłych to nie jest prawdą: na przykład, gdy \(g\) jest funkcją stałą \(g(X)\) ma rozkład jednopunktowy.

  • Przykład – 5.30 Znajdziemy rozkład \(\cos X\), gdy \(X\) ma rozkład jednostajny na odcinku \((-\pi ,\pi )\). Policzymy dystrybuantę tej funkcji w punktach \(y \in (-1,1)\). Niech \(y =\cos x\), gdzie \(x \in (0,\pi )\), inaczej \(x = \arccos y\). Wtedy mamy:

    \[ F_{\cos X}(y) = P(\cos X \le y) = P(-\pi ,-x] + P[x,\pi ) = \frac {-x + \pi }{2\pi } + \frac {\pi - x}{2\pi } = \frac {\pi - \arccos x}{\pi }. \]

    Różniczkując otrzymamy gęstość:

    \[ f_{\cos X}(y) = \frac {1}{\pi \sqrt {1-y^2}} \mbox { dla } y \in (-1,1) \]

    oraz \(0\) dla pozostałych \(y\).

  • Przykład – 5.31 Niech \(X\), \(Y\) będą niezależnymi zmiennymi losowymi o rozkładzie \(U(0,1)\) każda. Znajdziemy rozkład zmiennej losowej \(Z = \frac XY\).

    Znajdziemy najpierw dystrybuantę \(F_Z\). Niech \(z > 0\). \(F_Z(z) = P(F_Z \le z) = P(\frac XY \le z)\). Ponieważ \((X,Y)\) ma rozkład geometryczny na kwadracie \([0,1]^2\) możemy to prawdopodobieństwo interpretować jako prawdopodobieństwo geometryczne. Łatwo widać, że:

    \[ F_Z(z) = \left \{\begin {array}{ll} 0 & \mbox { dla } z \le 0 \\ \frac z2, & \mbox { dla } 0 < z < 1\\ 1 -\frac {1}{2z}, & \mbox { dla } 1 \le z. \end {array} \right . \]

    Różniczkując otrzymujemy gęstość:

    \[ f_Z(z) = \left \{\begin {array}{ll} 0 & \mbox { dla } z \le 0] \\ \frac 12, & \mbox { dla } 0 < z < 1\\ \frac {1}{2z^2}, & \mbox { dla } 1 \le z. \end {array} \right . \]

  • Przykład – 5.32

    Niech \(X\) będzie dowolnie ustaloną zmienną losową, \(F = F_X \) jej dystrybuantą, \(a,\, b \in \r \) ustalonymi liczbami, \(a \neq 0\). Policzymy dystrybuantę zmiennej losowej \(Y = aX + b\).

    Dla \(a > 0\) mamy

    \[ F_Y(x) = P(Y \le x) = P(aX +b \le x) = P(X \le \frac {x-b}{a}) = F_X\left (\frac {x-b}{a}\right ). \]

    Podobnie, dla \(a < 0\)

    \[ F_Y(x) = P(Y \le x) = P(aX +b \le x) = P(X \ge \frac {x-b}{a}) = \]

    \[ 1 - P(X < \frac {x-b}{a}) = 1 - F_X\left (\frac {x-b}{a}\right )^-. \]

Załóżmy teraz dodatkowo, że zmienna \(X\) ma gęstość \(f\) (dla uproszczenia zakładamy, że \(f\) jest ciągła, co w świetle następnego przykładu nie jest konieczne). Wtedy wiemy, że dystrybuanta \(F_X\) jest różniczkowalna; z powyższych wzorów także \(F_Y\) jest różniczkowalna, a więc \(Y\) ma rozkład ciągły o gęstości

\[ g(x) = \frac {1}{|a|} f\left (\frac {x-b}{a}\right ) \]

Powyższy wzór jest szczególnym przypadkiem następującego twierdzenia.

  • Twierdzenie – 5.33

    Niech \(X\) będzie wektorem losowym o n-wymiarowym rozkładzie ciągłym i niech \(f: \rn \longrightarrow \r \) będzie jego gęstością. Zakładamy ponadto, że \(\f : \rn \longrightarrow \rn \) jest dyfeomorfizmem. Wtedy wektor losowy \(\f (X)\) ma również rozkład ciągły o gęstości \(g\) danej wzorem

    \[ g(x) = |Jac_x\phi ^{-1}|\,f(\f ^{-1}(x)). \]

Dowód. Korzystamy z definicji rozkładu ciągłego. Z twierdzenia o zmianie zmiennych mamy dla każdego zbioru borelowskiego \(A\)

\[ P(\f (X) \in A) = P(X \in \f ^{-1}(A)) = \]

\[ \int _{\f ^{-1}(A)}f(x)\,dx = \int _Af(\f ^{-1}(x))\,|Jac_x\f ^{-1}|\,dx. \]

  

Funkcje niezależnych wektorów losowych są niezależne.

Formalnie:

  • Twierdzenie – 5.34 Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(X : \Omega \to \r ^n\), \(Y : \Omega \to \r ^m\) wektorami losowymi. Niech \(g : \rn \to \r ^k\), \(h : \r ^m \to \r ^l\) będą funkcjami borelowskimi.

    \[ X, Y \mbox { sÄĚ niezaleÅijne } \imp \ g(X), h(Y) \mbox { sÄĚ niezaleÅijne }. \]

Dowód. Dla dowolnych zbiorów borelowskich \(C\), \(D\) mamy:

\(P(g(X) \in C, h(Y) \in D) = P((g\circ X)^{-1}(C) \cap (h\circ Y)^{-1}(D)) = P(X^{-1}(g^{-1}(C)) \cap Y^{-1}(h^{-1}(D))) = P(X^{-1}(g^{-1}(C))) \cdot P(Y^{-1}(h^{-1}(D)) = P((g\circ X)^{-1}(C)) \cdot P((h\circ Y)^{-1}(D)) = P(g(X) \in C) \cdot P(h(Y) \in D)\).   \(\Box \)

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

5.5 Pytania

  • Pytanie 5.1 Rzucono trzema kostkami i podano informację, czy, i na których kostkach wypadła „6". Na odpowiedniej przestrzeni probabilistycznej podaj przykłady funkcji, które są oraz które nie są zmiennymi losowymi.

Wskazówka. \(\Omega = \{1,...,6\}^3\), \(\Sigma = \s (A_0,A_1,A_2,A_3)\), gdzie \(A_i = \{\o : \o _i = 6\}\) dla \(i = 1,2,3\), \(A_0 = \Omega \setminus (A_1\cup A_2\cup A_3)\). Zmienną losową na przykład jest: \(S\) – suma „6", które wypadły na kostkach, \(X\) określona jako: \(X=1\), gdy na trzeciej kostce wypadłą „6", \(X= 0\) w przeciwnym przypadku. Zmienną losową nie jest, na przykład: \(S\) – suma uzyskanych oczek, \(X\) – liczba uzyskanych jedynek.

  • Pytanie 5.2 Salę oświetla 150 żarówek: po 15 żarówek w 10 rzędach. Wiadomo, że prawdopodobieństwo zepsucia się pojedynczej żarówki w ciągu nachodzącego tygodnia wynosi \(p= 0.06\). Wiemy też, że żarówki psują się niezależnie od siebie. Niech \(X\) oznacza liczbę rzędów, w których po tygodniu świeci co najmniej 14 żarówek. Wskaż rozkład \(X\).

Wskazówka. \(B(10,s)\), gdzie \(s = (1-p)^{15} + 15p(1-p)^{14} = 0.7510544178\).

  • Pytanie 5.3 W Przykładzie 3.2 \(X\), odpowiednio \(Y\), oznaczają liczbę kolejnych dni, w których nieprzerwanie sprząta Kaja, odpowiednio Leon, licząc od dnia zawarcia umowy. Znajdź rozkład \(X\) oraz rozkład \(Y\). Czy zmienne te są niezależne?

Wskazówka. \(X\) ma rozkład \(B(1, \frac 12)\). \(Y\) ma rozkład dany przez ciągi \(0,1,2,3, ...\), \(\frac {1}{2}, \frac {1}{2}\frac {1}{6}, \frac {1}{2}\frac {5}{6}\frac {1}{6}, \frac {1}{2}(\frac {5}{6})^2\frac {1}{6}, ...\). Zmienne są zależne, bo na przykład: \(P(X=0,Y=0) = 0\), \(P(X=0) = P(Y=0) = \frac 12\).

  • Pytanie 5.4 Niech \(G \subset \r ^2\) będzie zbiorem otwartym o mierze skończonej, \((X,Y)\) wektorem losowym o rozkładzie \(U(G)\). Podaj przykład takiego zbioru \(G\), ze \(X\), \(Y\) są: (a) niezależne, (b) zależne.

Wskazówka. Ad (a). \(G\) jest iloczynem kartezjańskim. Ad (b). \(G\) jest trójkątem.

  • Pytanie 5.5 Dane są dwie zmienne losowe niezależne \(X\), \(Y\) o rozkładzie \(U(0,1)\) każda. Znajdź dystrybuantę i gęstość zmiennych losowych \(\min (X,Y)\), \(\max (X,Y)\). Czy te zmienne są niezależne? Wskaż dystrybuantę rozkładu \(P_{\min (X,Y)|X = a}\) dla \(a \in (0,1)\).

Wskazówka.

\(F_{\min (X,Y)}(x) = 1 -(1-x)^2\), \(f_{\min (X,Y)}(x) = 2 - 2x\),

\(F_{\max (X,Y)}(x) = x^2\), \(f_{\max (X,Y)}(x) = 2x\),

\(P_{\min (X,Y)|X = a}\) ma dystrybuantę \(F\): \(F(x) = 0\) dla \(x < 0\), \(F(x) = x\) dla \(0\le x < a\), \(F(x) = 1\) dla \(a \le x\).

  • Pytanie 5.6 W schemacie klasycznym, gdy zbiór \(\Omega = \{1,...,6\}\), definiujemy zmienne losowe \(m, M\) jako \(m(i,j) = \min (i,j)\), \(M(i,j) =\max (i,j)\). Znaleźć: rozkład wektora losowego \((m,M)\) oraz rozkład \(P_{M|m =1}\).

Wskazówka.

\[ \begin {array}{ccccccc} m\backslash M & 1 & 2 & 3 & 4 & 5 & 6 \\[1mm] 1 & 1 & 2 & 2 & 2 & 2 & 2 \\ 2 & 0 & 1 & 2 & 2 & 2 & 2 \\ 3 & 0 & 0 & 1 & 2 & 2 & 2 \\ 4 & 0 & 0 & 0 & 1 & 2 & 2 \\ 5 & 0 & 0 & 0 & 0 & 1 & 2 \\ 6 & 0 & 0 & 0 & 0 & 0 & 1 \end {array} \]

\[ P_{(m,M)}(\{i,j\}) = \left \{\begin {array}{cc} \frac {1}{36} & \mbox { dla } i = j \\[1mm] \frac {1}{18} & \mbox { dla } i < j \\[1mm] 0 & \mbox { dla } i > j \end {array} \right . , \]

\(P_{M|m=1}\) jest dany przez ciągi \(1,2,3,4,5,6\) oraz \(\frac {1}{11},\frac {2}{11}, ..., \frac {2}{11}\).

Rachunek prawdopodobieństwa — Nadzieja matematyczna i wariancja

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 6 Nadzieja matematyczna i wariancja

W pewnych zagadnieniach nie jest potrzebna (lub nie jest możliwa) znajomość rozkładu zmiennej losowej lub wektora losowego. Natomiast warto znać pewne parametry tego rozkładu. Najczęściej używanymi parametrami są liczby charakteryzujące tendencję centralną oraz wielkość rozrzutu. Kluczową rolę odgrywa tak zwana nadzieja matematyczna. zwana też wartością oczekiwaną, służąca do opisu tendencji centralnej oraz do budowy wielu innych parametrów, w tym parametrów charakteryzujących rozrzut; wariancji i odchylenia standardowego.

6.1 Nadzieja matematyczna – definicja i własności

Zanim podamy ogólną definicję \(E(X)\), nadziei matematycznej zmiennej losowej \(X\), opartą na pojęciu całki, rozpatrzymy dwa najbardziej typowe sytuacje szczególne.

  • Definicja – 6.1 (Rozkład dyskretny skończony) \(X\) ma rozkład zadany przez ciągi: \(x_1,x_2, \dots , x_n\), \(p_1,p_2, \dots , p_n\). Czyli \(P(X = x_i) = p_i\)

    \[E(X) = \sum _{i=1}^nx_ip_i.\]

  • Definicja – 6.2 (Rozkład ciągły) \(X\) ma rozkład zadany przez gęstość \(f\). Czyli \(P(X \in (a,b)) = \int _a^b f(x)\,dx\)

    \[E(X) = \int _{-\infty }^\infty x\cdot f(x)\,dx.\]

Motywacja: Dla uproszczenia załóżmy, że \(f :[a,b] \str \r \) jest funkcją ciągłą. Niech \(a = x_0 < x_1 < \dots < x_n = b\) będzie podziałem odcinka \([a,b]\), \(\xi _i \in [x_{i-1},x_i] \) będą takie, że

\[(x_i - x_{i-1}) f(\xi _i) = \int _{x_{i-1}}^{x_i} f(x)\,dx.\]

Określmy zmienną losową \(\hat {X}\) przyjmującą wartości \(\xi _i\) z prawdopodobieństwami \(p_i = P(\hat {X} = \xi _i) = \int _{x_{i-1}}^{x_i} f(x)\,dx\). Intuicja: \(\hat {X}\) przybliża \(X\), więc \(E(\hat {X})\) powinna przybliżać \(E(X)\). Mamy:

\(E(\hat {X}) = \sum _{i=1}^n\xi _i p_i = \sum _{i=1}^n\xi _i (x_i - x_{i-1}) f(\xi _i) = \sum _{i=1}^n\xi _i f(\xi _i) (x_i - x_{i-1})\).

A więc

\[E(\hat {X}) \str \int _a^b x f(x)\,dx.\]

  • Przykład – 6.3 Załóżmy, że zmienna losowa \(X\) ma rozkład jednostajny na przedziale \([a,b]\). Oznacza to, że gęstość \(f_X = \frac {1}{b-a}I_{[a,b]}\). Mamy więc:

    \(\di E(X) = \int _{\r } x \frac {1}{b-a}I_{[a,b]}\,dx = \frac {1}{b-a} \int _a^b x\,dx = \frac {1}{b-a}(\frac {b^2}{2} - \frac {a^2}{2} ) = \frac {a+b}{2}\).

  • Przykład – 6.4 Zmienna losowa \(X\) ma gęstość:

    \[ f(x) = \frac {x^2(20 - x)^6}{c}, \hbox { dla } 0 \le x \le 20, \]

    gdzie \(c = \frac {128000000000}{63}\), \(f(x) = 0 \) dla pozostałych \(x\). Tego typu rozkłady mają na przykład okresy używania samochodu przez jednego właściciela.

    \[ E(X) = \int _{-\infty }^\infty x \cdot f(x)\,dx = \int _{0}^{20} x \cdot \frac {x^2(20 - x)^6}{c} \,dx = 6.\]

(image)

Powyższe dwie definicje stanowią szczególne przypadki definicji opartej na pojęciu całki. Zaczniemy od przypomnienia definicji całki.

  • Definicja – 6.5 (całka względem miary) Niech \(\Omega \) będzie niepustym zbiorem, \(\Sigma \) \(\sigma \)-algebrą na zbiorze \(\Omega \), \(\mu : \Sigma \str \r \cup \infty \) miarą, a \(f: \Omega \str \r \) funkcją.

    1. Niech \(f = I_A\) będzie funkcją charakterystyczną zbioru \(A \in \Sigma \), \(f = I_A\). Definiujemy:

    \[ \int _\Omega f\,d\mu = \mu (A). \]

    2. Niech \(f\) będzie mierzalną funkcją prostą nieujemną, to znaczy:

    \[ f(x) = c_i, \mbox { dla } x \in A_i, \]

    gdzie \(A_1, \dots , A_k\) są zbiorami mierzalnymi parami rozłącznymi i dającymi w sumie całą przestrzeń \(\Omega \), a liczby \(c_1, \dots , c_k\) są nieujemne. Definiujemy:

    \[ \int _\Omega f\,d\mu = \sum _{i=1}^kc_i\int _\Omega I_{A_i}\,d\mu = \sum _{i=1}^kc_i \mu (A_i). \]

    3. Niech \(f\) będzie funkcją mierzalną nieujemną. Dowodzi się, że istnieją funkcje proste nieujemne mierzalne \(f_n\), \(n = 1,2,3, \dots \) o następujących własnościach:

    \[ f_n(x) \le f_{n+1}(x), \]

    dla wszystkich \(n\) oraz \(x\), i

    \[ \lim _{n \to \infty } f_n(x) = f(x). \]

    Definiujemy:

    \[ \int _\Omega f\,d\mu = \lim _{n \to \infty } \int _\Omega f_n\,d\mu . \]

    4. Niech \(f\) będzie dowolną funkcją mierzalną. Jak łatwo widać, zachodzi związek:

    \[ f = f^+ - f^-, \]

    gdzie \(f^+(x) = \max (f(x),0)\), \(f^-(x) = -\min (f(x),0)\). Są one nieujemnymi funkcjami mierzalnymi. Definiujemy:

    \[ \int _\Omega f\,d\mu = \int _\Omega f^+\,d\mu - \int _\Omega f^-\,d\mu , \]

    o ile ma sens.

Komentarze.

1. Definicja jest poprawna, gdyż dowodzi się, że wielkość zdefiniowana w punkcie 3 nie zależy od wyboru ciągu funkcji \(f_n\).

2. Może się zdarzyć, że definiowane przez nas wielkości są nieskończone. Tak będzie w punkcie 1 oraz 2, gdy miara choćby jednego zbioru \(A_i\) będzie nieskończona, a odpowiadająca mu liczba \(c_i\) (wysokość słupka o podstawie \(A_i\)) będzie dodatnia. W teorii miary przyjmujemy konwencję: \(0\, \infty = 0\), co oznacza, że gdy \(c_i = 0\), to składnik \(c_i \mu (A_i) = 0\).

3. Całka z funkcji nieujemnej \(f\) zdefiniowana w punkcie 3 może być nieskończona, mimo że wszystkie całki \(\di \int _\Omega f_n\,d\mu \) są skończone.

4. Natomiast całka z pewnych funkcji mierzalnych przyjmujących wartości o różnych znakach może nie istnieć. Jest tak wtedy, gdy obie całki \(\di \int _\Omega f^+\,d\mu \) oraz \(\di \int _\Omega f^-\,d\mu \) są nieskończone. W każdym innym przypadku całka istnieje, chociaż może być nieskończona.   

5. Stosuje się różne oznaczenia całki \(\int _\Omega f\,d\mu \). Na przykład: \(\int _\Omega f(x)\,d\mu (x)\), \(\int _\Omega f(s)\,\mu (ds)\).

6. Dla zbioru mierzalnego \(A \in \Sigma \) definiuje się: \(\int _A f \,d\mu = \int _\Omega I_A\cdot f \,d\mu \).

Definicja ogólna nadziei matematycznej.

  • Definicja – 6.6 (Nadzieja matematycznej, wartość oczekiwana) Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(X : \Omega \to \r \) zmienną losową.

    \[ E(X) = \int _\Omega X \,dP. \]

Uwagi:

  • 1. Nadzieja matematyczna może nie istnieć.

  • 2. Nadzieja matematyczna może istnieć, ale być nieskończona.

  • 3. \(E(X) \in \r \rwn E(|X|) \in \r \). Bo \(X = X^+ - X^-\), \(|X| = X^+ + X^-\).

  • 4. Własności nadziei matematycznej wynikają z własności całek: liniowość, nierówności, zbieżność (ćwiczenie: wypisać znane własności).

  • 5. Nadzieja matematyczna uogólnia pojęcie prawdopodobieństwa. Mianowicie

    \[ E(I_A) = P(A), \mbox { dla kaÅijdego } A \in \Sigma .\]

  • 6. Niech \(X\) ma rozkład dyskretny. Wtedy definicja ogólna pokrywa się z definicją poprzednią.

Powyższa definicja uogólnia poprzednie definicje.

  • Przykład – 6.7 \(X\) ma rozkład zadany przez ciągi: \(x_1,x_2, \dots , x_n\), \(p_1,p_2, \dots , p_n\).

    Czyli \(P(X = x_i) = p_i\).

    Więc \(X\) jest kombinacją liniową funkcji charakterystycznych zbiorów \(A_i = \{\o \in \Omega : X(\o ) = x_i\}\). Oczywiście \(P(A_i) = p_i\). Mamy kolejno:

    \[ X = \sum _{i=1}^nx_iI_{A_i}. \]

    \[ E(X) = E\left (\sum _{i=1}^nx_iI_{A_i}\right ) = \sum _{i=1}^nx_i E(I_{A_i}) = \sum _{i=1}^nx_i p_i . \]

Poniższe twierdzenie pozwala wyznaczać nadzieję matematyczną zmiennej losowej lub funkcji zmiennej losowej poprzez całkowanie odpowiedniej funkcji względem rozkładu zmiennej.

  • Twierdzenie – 6.8 (całkowanie względem transportu miary) Niech \(X: \Omega \to \rn \) będzie wektorem losowym, \(g: \rn \to \r \) funkcją borelowską. Wtedy:

    \[ E(g(X)) = \int _{\rn } g\,dP_X, \]

    przy czym obydwie strony istnieją jednocześnie.

Dowód. I. \(g = I_B\), gdzie \(B \in \b {\rn }\). Wtedy: \(\di E(g(X)) = \int _\Omega I_B \circ X \,dP\) \(\di = \int _{X^{-1}(B)} 1\, dP = P(X^{-1}(B) ) = P_{X}(B) = \int _{\rn } I_B \,dP_X\).

II. \(g\) – funkcja schodkowa, czyli \(g = \sum _{i=1}^kc_i I_{A_i}\), gdzie \(A_I\) są rozkładem \(\rn \) na sumę zbiorów rozłącznych. Wtedy z liniowości: \(\di E(g(X)) = E(\sum _{i=1}^kc_i I_{A_i}) = \sum _{i=1}^kc_i E(I_{A_i}) = \sum _{i=1}^kc_i \int _{\rn }I_{A_i}\,dP_X = \int _{\rn } g \,dP_X\). III. \(g\) dowolna funkcja borelowska nieujemna. Wtedy \(g\) jest granicą punktową ciągu rosnącego funkcji schodkowych \(g_t\). Oczywiście \(g_t(X)\) zmierza punktowo do \(g(X)\).

Z własności całek: \(\di E(g(X)) = \lim E(g_t(X)) = \lim \int _{\rn } g_t\, dP = \int _{\rn } g\,dP\).

IV. \(g\) – dowolna funkcja borelowska. Wtedy \(g = g^+ - g^-\). Więc \(g(X)= g(X)^+ - g(X)^-\). A więc, gdy jedna ze stron istnieje (nie jest symbolem nieoznaczonym), to istnieje druga strona i zachodzi równość.   \(\Box \)

  • Wniosek – 6.9 Kładąc \(g(x) = x\) z powyższego twierdzenia otrzymujemy dla zmiennej loswej \(X\) wzór:

    \[ E(X) = =\int _\r Id\,dP_X = \int _\r x\,dP_X(x). \]

    A więc nadzieja matematyczna zmiennej losowej jest jednoznacznie wyznaczona przez rozkład tej zmiennej.

  • Uwaga – 6.10 Można spotkać definicję wartości oczekiwanej dowolnego jednowymiarowego rozkładu \(Q\). Mianowicie określa się \(E(Q) = \int _\r x\,dQ(x)\). Wtedy oczywiście \(E(X) = E(P_X)\).

  • Twierdzenie – 6.11 1. \(X\) ma rozkład dyskretny zadany przez ciągi: \(x_1,x_2, \dots , \in \rn \), \(p_1,p_2, \dots , \).

    \(g :\rn \to \r \) jest funkcją borelowską. \(\imp \)

    \[E(g(X)) = \sum g(x_i)p_i,\]

    przy czym obydwie strony istnieją jednocześnie1.

    2. \(X\) ma rozkład ciągły zadany przez gęstość \(f :\rn \to \r \).
    \(g :\rn \to \r \) jest funkcją borelowską. \(\imp \)

    \[E(g(X)) = \int _{\rn } g(x) f(x) \,dx,\]

    przy czym obydwie strony istnieją jednocześnie. Całkowanie odbywa się według miary Lebesgue’a.

Dowód. Ad 1 – jak poprzednio (ćwiczenie). Ad 2 – jak poprzednio (ćwiczenie).   

  • Wniosek – 6.12 \(X\) jest zmienną losową o rozkładzie dyskretnym \((\{x_i\},\{p_i\})\), lub ma gęstość \(f :\r \to \r \). \(\imp \)

    \[ E(X) = \sum _ix_ip_i , \mbox { \ lub \ } E(X) = \int _\r xf(x)\,dx. \]

  • Przykład – 6.13 Znaleźć \(E(X^2)\) dla zmiennej losowej \(X\) mającej rozkład jednostajny na odcinku \([-1,1]\). Gęstość \(X\) wyraża się więc wzorem \(f(x) = \frac {1}{2}I_{[-1,1]}\).

    Sposób 1. Szukam rozkładu \(X^2\) i korzystam z definicji nadziei dla zmiennej \(X^2\). Najpierw wyznaczam dystrybuantę \(F_{X^2}\). Nietrywialna sytuacja jest, gdy \(0 < x < 1\).

    \(\di F_{X^2}(x) = P(X^2 \le x) = P(-\sqrt {x} \le X \le \sqrt {x}) = \int _{-\sqrt {x}}^{\sqrt {x}} f(x)\,dx = \sqrt {x}\). \(\di f_{X^2}(x) = (F_{X^2})'(x) = \frac {1}{2 \sqrt {x}}\).

    \(\di E(X^2) = \int _{\r } x f_{X^2}(x)\,dx = \int _0^1 x f_{X^2}(x)\,dx = \int _0^1 \frac {1}{2} x^{\frac {1}{2}} = \frac {1}{3}. \)

    Sposób 2. Korzystam z poprzedniego twierdzenia. Tutaj \(g(x) = x^2\).

    \(\di E(X^2) = \int _\r g(x)f(x)\,dx = \int _{-1}^1 \frac {1}{2}x^2 = \frac {1}{3}\).

  • Przykład – 6.14 Pośrednik w handlu świeżą żywnością kupuje u producenta maliny w cenie 5 zł/kg i sprzedaje na lokalnym rynku po 8 zł/kg. Pośrednik zna dość dobrze popyt na tym rynku — przyjmijmy dla uproszczenia, że wszyscy klienci detaliczni łącznie każdego dnia mogą zażądać dowolnej ilości malin z przedziału \([100, 200]\) kg (zgodnie z rozkładem jednostajnym). Ile kilogramów malin dziennie powinien kupować pośrednik, aby zmaksymalizować swoje zyski? Zakładamy, że maliny niesprzedane danego dnia psują się i trzeba je wyrzucić.

    Załóżmy, że pośrednik kupuje \(a\) kilogramów malin, \(100 \le a \le 200\). Niech \(X\) oznacza dzienne zapotrzebowanie na maliny. \(X\) jest więc zmienną losową o rozkładzie jednostajnym na przedziale \([100, 200]\), czyli gęstość \(X\), \(f_X\) jest równa \(1/100\) w tym przedziale i zero w pozostałych przypadkach. W takim razie pośrednik sprzeda \(Y = \min (a,X)\) malin, a jego dzienny zysk wyniesie \(Z = 8Y - 5 a\) złotych.

    Chcemy więc wskazać taką wartość \(a\), przy której średni zysk będzie największy. W pierwszym momencie wydaje się, że wystarczy naleźć rozkład \(Y\) i skorzystać z odpowiedniego wzoru. Jednak trudnością jest to, że rozkład zmiennej losowej \(Y\) nie jest ani dyskretny ani ciągły (dlaczego?). Niemniej skorzystamy z poprzedniego twierdzenia dla zmiennej \(X\) oraz funkcji \(g(x) = \min (a,x)\) i obliczymy wartość oczekiwaną \(E(Y)\).

    \[ E(Y) = \int _\r \min (a,x)\frac {1}{100}I_{[100,200]}(x)\,dx = \frac {1}{100}\left (\int _{100}^a x\,dx + \int _a^{200} a\,dx\right ). \]

    Jak widać jest to funkcja kwadratowa zmiennej \(a\), a więc \(E(Z)\) też jest funkcją kwadratową \(a\) i można łatwo wyznaczyć punkt, w którym przyjmuje ona wartość największą. Mianowicie:

    \(E(Z) = 8E(Y) - 5a = - \frac {1}{25}a^2 + 11a - 400\) i najmniejszą wartość przyjmuje, gdy \(a = \frac {275}{2} = 137.5\). Wtedy \(E(Z) = 356.25\) jest oczekiwanym zarobkiem pośrednika.

  • Przykład – 6.15 W celu zbadania dużej populacji osób, podzielono ją na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi \(N\), liczność grup wynosi \(n\), zaś \(k\) niech będzie liczbą grup (oczywiście \(N = nk\)).

    Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi \(p\) oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób.

    Na przykład. \(N = 1000\), \(k = 20\), \(n = 50\), \(p = 0.01\).

    1. Ile analiz będzie trzeba przeprowadzić?

    2. Dobrać wielkość grupy \(n\), tak aby liczba wszystkich (bardzo kosztownych) analiz była, w pewnym sensie, minimalna.

    Określamy \(X\):

    \[ X \hbox { -- liczba wszystkich potrzebnych analiz. } \]

    Bezpośrednie wyznaczenie rozkładu \(X\) jest trudne.

    \[ X = X_1 + X_2 + \dots + X_k. \]

    \(X_1, X_2, \dots , X_k\) są niezależne i mają taki sam rozkład. Wystarczy znaleźć rozkład, na przykład, \(X_1\).

    \(X_1\) przyjmuje dwie wartości:

    • 1. \(X_1 = 1\) – wszystkie osoby w grupie pierwszej są zdrowe.

    • 2. \(X_1 = n+1\) – w przeciwnym przypadku.

    \[ P(X_1 = 1) = (1-p)^n, \ \ \ \ \ P(X_1 = n+1) = 1 - (1-p)^n. \]

    \[E(X_1) = 1\cdot (1-p)^n + (n+1)\cdot (1 - (1-p)^n) = n+1 - n (1-p)^n. \]

    \[ E(X) = E(X_1) + E(X_2) + \dots + E(X_k) = k \cdot E(X_1). \]

    \[ E(X) = k\cdot ( n+1 - n (1-p)^n ) = \frac {N}{n}(n+1 - n (1-p)^n). \]

    Na przykład. \(N = 1000\), \(k = 20\), \(n = 50\), \(p = 0.01\). Wtedy, \(E(X) = 414.99\).

    Optymalizacja. Nadzieja matematyczna \(E(X)\) jako funkcja wielkości grupy. \(n\)

    (image) (image)

    \(n = 10\) – wartość optymalna. Wtedy \(E(X) = 195.68\).

    Pytanie: Czy liczba analiz może przekroczyć 200? 250? 300?

Wspomnieliśmy już poprzednio, że nadzieja matematyczna może nie istnieć.

  • Przykład – 6.16 Niech \(X\) będzie zmienną losową o rozkładzie \(U(0,1)\). Niech \(W = 1/X\). Łatwo wyznaczyć \(f_W\), gęstość \(W\) (ćwiczenie). Mianowicie:

    \[ f_W(w) = \left \{\begin {array}{ll} 0, & \mbox { dla } w < 1\\ \frac {1}{w^2}, & \mbox { dla } 1 < w. \end {array} \right . \]

    \[ E(W) = \int _{\r } w f_W(w)\,dw = \int _0^\infty \frac {1}{w}\,dw = \infty . \]

  • Twierdzenie – 6.17 (Nadzieja iloczynu) Niech \(X\), \(Y\) będą NIEZALEŻNYMI zmiennymi losowymi określonymi na tej samej przestrzeni probabilistycznej (Ω, Σ, P ) .

    Jeżeli \(X \ge 0\), \(Y\ge 0\), lub \(E(X), E(Y) \in \r \), to

    \[ E(XY) = E(X)E(Y). \]

Dowód. W dowodzie skorzystamy z twierdzenia Fubiniego, oraz z twierdzeń 5.24 i 6.8. W pierwszym przypadku mamy

\begin{eqnarray*} E(X Y) & = & \int _{[0,\infty )^2}xy\,dP_{(X,Y)}(x,y) = \int _{[0,\infty )^2}xy\;d(P_X \times P_Y)(x,y) = \\ & = & \int _{[0,\infty )}x\,dP_X(x)\;\int _{[0,\infty )}y\,dP_Y(y) = E(X) E(Y). \end{eqnarray*}

Można było stosować twierdzenie Fubiniego, ponieważ – jak wiemy – zachodzi ono dla wszystkich funkcji mierzalnych nieujemnych.

Załóżmy teraz, że \(E(|X|) < \infty ,\; E(|Y|) < \infty \). Stosujemy udowodniony powyżej wzór dla funkcji nieujemnych \(|X|\) oraz \(|Y|\) i mamy

\[ \int _{{\bf R}^2}|xy|\,dP_{(X,Y)}(x,y)= E(|XY|)= E(|X|)E(|Y|) < \infty . \]

Ale to oznacza, że znowu możemy zastosować twierdzenie Fubiniego i podobnie jak poprzednio

\begin{eqnarray*} E(X Y) & = & \int _{{\bf R}\times {\bf R}}xy\,dP_{(X,Y)}(x,y) = \int _{{\bf R}\times {\bf R}}xy\;d(P_X \times P_Y)(x,y) = \\ & = & \int _{{\r }}x\,dP_X(x)\;\int _{{\r }}y\,dP_Y(y) = E(X) E(Y). \end{eqnarray*}

  

1 Zbieżność szeregu rozumiana jest w sposób opisany w Definicji 6.5.

Rachunek prawdopodobieństwa — Wariancja i odchylenie standardowe

(image)

Rachunek prawdopodobieństwa 1, 2

6.2 Wariancja i odchylenie standardowe

Nadzieja matematyczna przynosi informację o tendencji centralnej rozkładu zmiennej losowej. Interesuje nas także informacja jak daleko od nadziei mogą znajdować się wartości tej zmiennej (jak duży jest rozrzut). Najważniejszą miarą rozrzutu jest wariancja oraz jej pierwiastek – odchylenie standardowe. Zaczniemy jednak od definicji momentów.

Niech \(X\) będzie zmienną losową określoną na przestrzeni probabilistycznej (Ω, Σ, P ) . Zakładamy, że \(m = E(X) \in \r \). Niech \(k \ge 1\)

  • Definicja – 6.18 \(E(X^k)\) – moment rzędu \(k\).

    \(E((X - m)^k)\) – centralny moment rzędu \(k\).

    \(E(|X|^k)\) – moment bezwzględny rzędu \(k\).

    \(E(|X - m|^k)\) – centralny bezwzględny moment rzędu \(k\).

  • Twierdzenie – 6.19 Niech \(l \ge k\). \(E(X^l) \in \r \imp E(X^k) \in \r \).

Dowód. \(\di E(|X^k|) = \int _\Omega |X^k| \,dP = \int _{|X| < 1} |X^k|\,dP + \int _{|X| \ge 1} |X^k|\,dP \le \int _{|X| < 1} 1\,dP + \int _{|X| \ge 1} |X^l|\,dP \le 1 + \int _\Omega |X^l|\,dP = 1 + E(|X^l|)\).   

Zakładamy, że zmienna losowa \(X\) ma skończoną nadzieję matematyczną \(m = E(X)\). Wtedy interpretujemy:

\(X - m \) – odchylenie od średniej.

\(E(|X-m|)\) – oczekiwana wartość odchylenia (średni błąd)

  • Definicja – 6.20

    \(\sigma ^2(X) = D^2(X) = Var(X) = E((X - m)^2)\) – wariancja.

    \(\sigma (X) = \sqrt {D^2(X)}\) – odchylenie standardowe.

Wariancja jest centralnym momentem rzędu 2.

  • Uwaga – 6.21

    \[D^2(X) = 0 \ \rwn \ X = m.\]

Obliczanie momentów

\begin{equation} \label {eq:m3} D^2(X) = E((X-m)^2) = E(X^2) - 2mE(X) + E(m^2) = E(X^2) - m^2. \end{equation}

\begin{equation} \label {eq:m4} D^2(cX) = c^2D^2(x) , \mbox { gdy } c \in \r . \end{equation}

\begin{equation} \label {eq:m1} E(X^k) = \int _\r x^k \,dP_X(x) = \left \{\begin{array}{ll} \di \sum _i x_i^kp_i , & \mbox { w przypadku dyskretnym},\\ \di \int _\r x^k f(x)\,dx , & \mbox { w przypadku ciÄĚgÅĆym.} \end {array} \right . \end{equation}

\begin{equation} \label {eq:m2} E((X-m)^k) = \int _\r (x-m)^k \,dP_X(x) = \left \{\begin{array}{ll} \di \sum _i (x_i - m)^kp_i , & \mbox { w przypadku dyskretnym,}\\ \di \int _\r (x - m)^k f(x)\,dx , & \mbox { w przypadku ciÄĚgÅĆym.} \end {array} \right . \end{equation}

\begin{equation} \label {eq:m2} D^2(X) = \int _\r (x-m)^2 \,dP_X(x) = \left \{\begin{array}{ll} \di \sum _i (x_i - m)^2p_i , & \mbox { w przypadku dyskretnym,}\\ \di \int _\r (x - m)^2 f(x)\,dx , & \mbox { w przypadku ciÄĚgÅĆym.} \end {array} \right . \end{equation}

\begin{equation} \label {eq:m2} D^2(X) = \int _\r x^2 \,dP_X(x) - m^2 = \left \{\begin{array}{l} \di \sum _i x_i^2p_i - (\sum _i x_ip_i)^2, \mbox {w przypadku dyskretnym,}\\ \di \int _\r x^2 f(x)\,dx - (\int _\r x f(x)\,dx)^2, \mbox {w przypadku ciÄĚgÅĆym.} \end {array} \right . \end{equation}

Rachunek prawdopodobieństwa — Kowariancja i korelacja

(image)

Rachunek prawdopodobieństwa 1, 2

6.3 Kowariancja i korelacja

Iloczyn skalarny - przypomnienie \(X\) – przestrzeń wektorowa, \(\f :X\times X: \str \r \) – iloczyn skalarny, to znaczy \(\f (x,x) \ge 0\), \(\f (x,x) = 0 \rwn x = 0\), \(\f \) – dwuliniowe, \(\f \) – symetryczne.

  • Twierdzenie – 6.22 (Nierówność Cauchy’ego-Schwartza) Dla każdych \(x,y \in X\)

    \[ \f (x,y)^2 \le \f (x,x)\f (y,y). \]

    \(\f (x,y)^2 = \f (x,x)\f (y,y) \rwn x, y\) liniowo zależne.

Jeżeli \(x \neq 0\) oraz \(y \neq 0\), to są one liniowo zależne \(\rwn \) istnieje takie \(t \neq 0\), że \(y = tx\). Wtedy \(\f (x,y) = t\f (x,x)\). Zatem znak \(\f (x,y)\) = znak \(t\).

Wiadomo też, że \(\sqrt {\f (x,x)}\) jest normą \(x\).

Dane są dwie zmienne losowe \(X\), \(Y\). Oznaczmy \(m_X = E(X)\), \(m_Y = E(Y)\).

  • Definicja – 6.23 (Kowariancja)

    \[\mbox {cov}(X,Y) = E((X-m_x)(Y-m_Y)) = E(XY) - m_Xm_Y.\]

Zauważmy, że odwzorowanie

\[\f : (X,Y) \to E(XY)\]

jest iloczynem skalarnym na przestrzeni \(L^2(\Omega ) = \{X : \Omega \to \r : E(X^2) \in \r \}\) (ćwiczenie).

W takim razie \(cov(X,Y)\) jest iloczynem skalarnym odchyleń \(X - m_X\), \(Y-m_Y\): \(cov(X,Y) = \f (X-m_X,Y-m_Y)\), a wariancje są ich kwadratami norm. Z Nierówności Cauchye’go-Schwartza:

  • Wniosek – 6.24

    \[\mbox {cov}(X,Y)^2 \le D^2(X)D^2(Y),\]

    przy czym:

    \(\mbox {cov}(X,Y)^2 = D^2(X)D^2(Y) \rwn X- m_X\), \(Y- m_Y\) są liniowo zależne.

    Wtedy, jeżeli \(X\) oraz \(Y\) nie są stałymi, to istnieje liczba \(t\) taka, że \(Y-m_Y = t (X-m_X)\), a znak \(t\) = znak \(\mbox {cov}(X,Y)\).

    Ogólnie: \(\mbox {cov}(X,Y)^2 = D^2(X)D^2(Y) \rwn \) Wartości \((X,Y)\) zawarte są w pewnej prostej.

  • Definicja – 6.25 (Korelacja)

    Mówimy, że zmienne losowe są nieskorelowane \(\rwn \mbox {cov}(X,Y) = 0\).

    Współczynnik korelacji:

    \[ \varrho (X,Y) = \frac {\mbox {cov}(X,Y)}{\sqrt {D^2(X)} \sqrt {D^2(Y)}}; \]

  • Wniosek – 6.26

    \[ - 1 \le \varrho (X,Y) \le 1. \]

    \[ |\varrho (X,Y)| = 1 \ \rwn \ \mbox { wartoÅŻci } (X,Y) \mbox { zawierajÄĚ siÄŹ w pewnej prostej.} \]

    Jeżeli \(X\), \(Y\) są niezależne, to \(\mbox {cov}(X,Y) = 0\).

Związek między wariancją sumy i kowariancją

  • Uwaga – 6.27

    \[D^2(X+Y) = E\left ( (X+Y -(m_X+m_Y))^2 \right ) = \]

    \[ E\left ( ( (X-m_X) + (Y - m_Y) )^2 \right ) = D^2(X) +D^2(Y) + 2\mbox {cov}(X,Y).\]

  • Twierdzenie – 6.28 (Wariancja sumy zmiennych niezależnych) Jeżeli \(X\), \(Y\) są niezależne, to

    \[ D^2(X+Y) = D^2(X) + D^2(Y). \]

  • Twierdzenie – 6.29 Twierdzenie Jeżeli \(X_1, X_2, \dots , X_n\), są niezależne, to

    \[ D^2(X_1+ \dots + X_n) = D^2(X_1) + \dots + D^2(X_n). \]

  • Wniosek – 6.30 (Nadzieja i wariancja sumy oraz średniej) Niech \(X_1, X_2, \dots , X_n\), będą niezależne i mają wspólną nadzieję matematyczną \(m\) oraz wariancję \(\sigma ^2\). Niech

    \[S_n = X_1 + \dots + X_n, \ \ \ \ \bar {X}_n = \frac {X_1 + \dots + X_n}{n}.\]

    Wtedy:

    \[ E(S_n) = nm, \ \ \ D^2(S_n) = n \sigma ^2, \ \ \ \sigma (S_n) = \sqrt {n}\sigma . \]

    \[ E(\bar {X}_n) = m, \ \ \ D^2(\bar {X}_n) = \frac {\sigma ^2}{n}, \ \ \ \sigma (\bar {X}_n) = \frac {\sigma }{\sqrt {n}}. \]

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

6.4 Pytania

  • Pytanie 6.1 Podaj przykłady zmiennych losowych o rozkładzie dyskretnym oraz o rozkładzie ciągłym dla których nadzieja matematyczna nie jest skończona.

Wskazówka. \(P(X=n) = \frac {\pi ^2}{6n^2}\), \(n = 1,2,3, ...\).

Gęstość \(f\): \(f(x) = 0 \) dla \(x < 1\), \(f(x) = \frac {1}{x^2}\) dla \(x \ge 1\).

  • Pytanie 6.2 Podaj przykłady zmiennych losowych o rozkładzie dyskretnym oraz o rozkładzie ciągłym dla których nadzieja matematyczna jest skończona, ale wariancja jest nieskończona

Wskazówka. \(P(X=n) = \frac {1}{\zeta (3)}\frac {1}{n^3}\), \(n = 1,2,3, ...\), gdzie \(\zeta (3) = \sum _{n=1}^\infty \frac {1}{n^3}\).

Gęstość \(f\): \(f(x) = 0 \) dla \(x < 1\), \(f(x) = \frac {2}{x^3}\) dla \(x \ge 1\).

  • Pytanie 6.3 Dane są niezależne zmienne losowe o rozkładzie \(U(0,1)\) każda. Oblicz dwoma sposobami \(E(\min (X,Y))\).

Wskazówka. Niech \(Z = \min (X,Y)\).

Sposób 1. \(F_Z(z) = 1 - (1-z)^2\), \(f_Z(z) = 2 - 2z\), \(E(Z) = \int _0^1 zf_Z(z)\,dz = \frac 13\).

Sposób 2. \(E(Z) = \int _{[0,1]^2}xy\min (x,y)\,d(x,y) = \frac 13\).

  • Pytanie 6.4 Przeprowadź dowód Twierdzenia 6.17 w przypadku, gdy \((X,Y)\) ma rozkład dyskretny na zbiorze skończonym.

Wskazówka. \(X\) ma rozkład zadany przez ciągi:

\(x_1,x_2, \dots , x_n\), \(p_1,p_2, \dots , p_n\). Czyli \(P(X = x_i) = p_i\).

\(Y\) ma rozkład zadany przez ciągi:

\(y_1,y_2, \dots , y_m\), \(q_1,q_2, \dots , q_m\). Czyli \(P(Y= y_j) = q_j\).

Wtedy rozkład łączny wektora losowego \((X,Y)\) ma rozkład skupiony w punktach \((x_i,y_i)\), a z niezależności wynika, że \(P((X,Y) = (x_i,y_j)) = P(X = x_i,Y = y_j) = P(X = x_i)P(Y=y_j) = p_i q_j \).

Sposób 1. \(XY\) przyjmuje wartości \(z_k\). przy czym \(P(XY = z_k) = \sum _{i,j: z_k = x_iy_j}p_iq_j\). Mamy więc

\[ E(XY) = \sum _k z_kP(XY = z_k) = \sum _{i,j}x_i y_j p_i q_j = \sum _i x_i p_i \sum _j y_j q_j = E(X)E(Y). \]

Sposób 2. Biorąc \(g\) jako \(g(x,y) = xy\) mamy: \(\di E(XY) = \sum _{i,j}x_i y_j p_i q_j = E(X)\cdot E(Y)\).

  • Pytanie 6.5 Dana jest taka funkcja \(f : [a,b] \str \r \), że \(J = \int _a^b f(x)\,dx < \infty \). Wskaż taką zmienną losową \(X\), że \(J = E(X)\).

Wskazówka. \(J = E(X)\), gdzie \(X = (b-a)f(U)\), \(U\) – zmienna losowa o rozkładzie \(U(a,b)\).

  • Pytanie 6.6 Zmienna losowa \(X\) ma rozkład \(P(X=i) = 2^{-i}\) dla \(i = 1,2,3,...\), a funkcja \(g\) jest dana wzorem; \(g(i) = (-1)^{i+1}\frac {2^i}{i}\). Czy istnieje \(E(g(X))\)? Czy jest zbieżny szereg \(\sum _{i=1}^\infty g(i) P(X =i)\)?

Wskazówka. \(\sum _{i=1}^\infty g(i)^+P(X=i) = \infty \), \(\sum _{i=1}^\infty g(i)^-P(X=i) = \infty \), więc \(E(g(X))\) nie istnieje.

\(\sum _{i=1}^\infty g(i) P(X =i) = \sum _{i=1}^\infty \frac {(-1)^{i+1}}{i} = \ln 2 \)

Rachunek prawdopodobieństwa — Nierówność Czebyszewa i prawa wielkich liczb

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 7 Nierówność Czebyszewa i prawa wielkich liczb

Znajomość momentów pozwala oszacować prawdopodobieństwo tego, że zmienna losowa przyjmuje wartość w określonym zbiorze. W szczególności znajomość wariancji pozwala oszacować z góry prawdopodobieństwo tak zwanych ogonów, to znaczy zbiorów postaci \(\{|X - E(X)| \ge \ve \}\).

7.1 Nierówność Czebyszewa

  • Twierdzenie – 7.1 Niech \(X : \Omega \to \r \) będzie zmienną losową, \(\ve > 0\). Wtedy:

    • 1. Niech \(k \ge 1\), \(X \ge 0\). Wtedy \(\di P(X \ge \ve ) \le \frac {E(X^k)}{\ve ^k}\).

    • 2. Niech \(m = E(X) \in \r \). Wtedy \(\di P(|X - m| \ge \ve ) \le \frac {D^2(X)}{\ve ^2}\).

    • 3. Niech \(m = E(X) \in \r \), \(\sigma = \sqrt {D^2(X)} > 0\), \(c >0\). Wtedy

      \[\di P(|X - m| \ge c \sigma ) \le \frac {1}{c^2}.\]

Dowód. Dowód pierwszej nierówności:

\begin{equation} E(X^k) = \int _\Omega X^k \,dP \ge \int _{X\ge \ve } X^k\,dP \ge \int _{X\ge \ve } \ve ^k\,dP = \ve ^k P(X \ge \ve ). \label {dnCz} \end{equation}

Drugą nierówność otrzymujemy stosując nierówność pierwszą dla zmiennej losowej \(|X - m|\) oraz \(k = 2\).

Trzecia nierówność wynika z drugiej, gdy \(\ve = c \sigma \).   

Zauważmy, że w dowodzie, wzór (7.1), wykonaliśmy dwa razy szacowanie, które w wielu przypadkach jest bardzo niedokładne. Dlatego też

  • Wniosek – 7.2 (Reguła \(3\sigma \))

    \[\di P(|X - m| \ge 3 \sigma ) \le \frac {1}{9}.\]

Zauważmy, że w dowodzie nierówności Czebyszewa, wzór (7.1), wykonaliśmy dwa szacowanie, które w wielu przypadkach mogą być bardzo niedokładne (gdy \(\ve \) jest duże – pierwsze, gdy \(\ve \) jest małe – drugie). Dlatego też nierówność tę oraz płynące z niej wnioski warto traktować jako niezbyt precyzyjne. W przypadku, gdy znane są rozkłady interesujących nas zmiennych rezultaty otrzymane za pomocą nierówności Czebyszewa mogą być istotnie poprawione. Jednak, gdy nie znamy rozkładów, nierówność Czebyszewa może być bardzo pomocna.

Nierówność Czebyszewa służy do szacowania prawdopodobieństw na podstawie znajomości samych momentów, najczęściej nadziei oraz wariancji:

  • Przykład – 7.3 Załóżmy, że zmienna losowa o rozkładzie ciągłym ma parametry \(m = E(X) = 100\), \(\sigma = \sqrt {D^2(X)} = 2\). Szacujemy prawdopodobieństwo tego, że:

    (a) \(X \ge 110\).
    \(P(X \ge 110) = P(X - m \ge 10) \le P(|X - m| \ge 10) \le \frac {\sigma ^2}{10^2} = 0.04\).

    (b) \(X \le 105\).
    \(P(X \le 105) = 1 - P(X \ge 105) \ge 1 - \frac {\sigma ^2}{5^2} = 1 - 4/25 = 0.84\).

    (c) Szukamy takiej liczby \(M\), aby \(P(X < M) \ge 0.99\).
    Wiemy, że: \(P(X < M) = 1 - P(X \ge M) = 1 - P(X - m \ge M-m ) \ge 1 - P(|X - m | \ge M-m) \ge 1 - \frac {\sigma ^2}{(M-m)^2}\). Wystarczy więc znaleźć takie \(M\), że \(1 - \frac {\sigma ^2}{(M-m)^2} \ge 0.99\). Czyli, że \(\frac {\sigma ^2}{(M-m)^2} \le 0.01\). Stąd \(M \ge m + \frac {\sigma }{\sqrt {0.01}} = 120.\)

  • Przykład – 7.4 (Kontynuacja zadanie o malinach, Przykład 6.14) Można obliczyć, że przy optymalnej wartości \(a\) (137.5) odchylenie standardowe zmiennej \(Z\), \(\sigma = 89.92184106\). A więc zgodnie z regułą \(3\sigma \) zysk pośrednika zawiera się w przedziale \((86.4844768, 626.0155232)\) z prawdopodobieństwem większym niż \(\frac {8}{9}\) (ćwiczenie). W istocie wynik ten jest wysoce niedokładny, gdyż jak łatwo zauważyć. dla tej wartości \(a\) zysk zawiera sie w przedziale \((112.5,412.5)\).

  • Przykład – 7.5 (Kontynuacja, Przykładu 6.15) W celu zbadania dużej populacji osób, podzielono ją na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi \(N\), liczność grup wynosi \(n\), zaś \(k\) niech będzie liczbą grup (oczywiście \(N = nk\)). Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi \(p\) oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób.

    Wiemy, że. Dla \(N = 1000\), oraz \(p = 0.01\) optymalnymi ze względu na średnią liczbę analiz parametrami są: \(n = 10\), \(k = 100\). Wtedy oczekiwana liczba analiz wynosi \(m = E(X) = 195.68\).

    Pytanie: Czy liczba analiz może przekroczyć 200? 250? 300?

    Policzmy na przykład \(P(X \ge 300)\). Aby skorzystać z Nierówności Czebyszewa musimy policzyć wariancję \(X\).

    Pamiętamy, że \(X = X_1 + \dots + X_k\), gdzie \(X_i\) są niezależne o takim samym rozkładzie dwupunktowym \(P(X_1 = 1) = (1 - p)^n\), \(P(X_1 = n + 1) = 1 - (1 - p)^n\).

    Z niezależności:

    \[ D^2(X) = D^2(X_1)+ \dots + D^2(X_k). \]

    Można policzyć (w przybliżeniu): \(D^2(X_i) = 8.65\) oraz \(D^2(X) = 865.\) Podobnie jak w przykładzie poprzednim: \(P(X \ge 300) \le \frac {D^2(X)}{(300 - m)^2} = 0.0795\).

    Wynik ten można znacznie polepszyć. W istocie, \(P(X \ge 300)\) jest dużo mniejsze. Odpowiednie oszacowanie będzie możliwe, gdy poznamy szczególny charakter rozkładu zmiennej \(X\).

Rachunek prawdopodobieństwa — Slabe prawo wielkich liczb

(image)

Rachunek prawdopodobieństwa 1, 2

7.2 Słabe prawo wielkich liczb

Założenia Zakładamy, że: zmienne losowe \(X_1,X_2, X_3, \dots \) są określone na tej samej przestrzenie probabilistycznej (Ω, Σ, P ) , są niezależne, mają skończone nadzieje matematyczne oraz skończone i niezerowe wariancje. Oznaczmy:

\[S_n = X_1 + \dots + X_n, \ \ \ \ \bar {X}_n = \frac {X_1 + \dots + X_n}{n}.\]

  • Twierdzenie – 7.6 (Słabe prawo wielkich liczb) Przy powyższych założeniach:

    • 1. Jeżeli istnieje takie \(M\in \r \), że \(D^2(X_i) \le M\) dla wszystkich \(i\), to dla każdego \(\ve >0 \)

      \[ \lim _{n\rightarrow \infty }P\left (\left |\frac {S_n-E(S_n)}{n}\right |\ge \ve \right ) = 0. \]

    • 2. Zakładamy dodatkowo, że wszystkie nadzieje matematyczne są sobie równe i równe \(m\). Wtedy dla każdego \(\ve >0 \)

      \[ \lim _{n\rightarrow \infty }P\left (\left |\frac {S_n}{n} -m \right |\ge \ve \right ) = 0. \]

    • 3. Każda zmienna losowa ma taki sam rozkład dwupunktowy, \(P(X_i=0) = 1 - p\), \(P(X_i = 1) = p\). Wtedy dla każdego \(\ve >0 \)

      \[ \lim _{n\rightarrow \infty }P\left (\left |\frac {S_n}{n} -p \right |\ge \ve \right ) = 0. \]

Dowód. Ad 1. Z niezależności zmiennych losowych mamy

\[ D^2(S_n) = D^2(X_1) + \dots +D^2(X_n) \le nM. \]

Stosując Nierówność Czebyszewa do dla zmiennej losowej \(S_n\), dostajemy

\[ P(\frac {|S_n - E(S_n)|}{n} \ge \varepsilon ) = P(|S_n - E(S_n)| \ge n \varepsilon ) \le \frac {D^2(S_n)}{(n\varepsilon )^2} \le \frac {M}{n\varepsilon ^2}, \]

co daje tezę (twierdzenie o trzech ciągach). \(\hfill { \Box }\)

Ad 2. Wynika natychmiast z punktu 1, gdyż \(E(S_n) = nm\).

Ad 3. Wynika natychmiast z punktu 2, gdyż \(m = E(X_i) = p\), \(D^2(X_i) = p(1-p)\).

Interpretacja

Punkt 2. Średnia po przestrzeni = średniej po czasie.

Punkt 3. Aksjomatyczna definicja prawdopodobieństwa jest zgodna z dawniej używaną definicją częstościową.

Mocne prawo wielkich liczb

Udowodnimy później tak zwane mocne prawo wielkich liczb (w dwóch wersjach), które – jak sama nazwa wskazuje – jest wynikiem mocniejszym niż udowodnione przed chwilą słabe prawo wielkich liczb. Jego dowód będzie oparty na nierówności Kołnogorowa, która w pewnym szczególnym przypadku wzmacnia nierówność Czebyszewa. Przytoczmy już teraz jedną z wersji mocnego prawa wielkich liczb wzmacniającą istotnie punkt 2 w poprzednim twierdzeniu.

Twierdzenie – 10.16 (Mocne Prawo Wielkich Liczb)
Niech \(X_1,X_2,X_3, \ldots \) będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie i skończonej wartości oczekiwanej \(m\). Niech \(S_n = X_1+X_2 + \ldots + X_n\).

Wtedy

\[ P(\{\o : \lim _{n\to \infty }\frac {S_n(\o )}{n} \longrightarrow m \}) = 1. \]

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

7.3 Pytania

  • Pytanie 7.1 Wykaż, że dla zmiennej losowej \(X\) mającej skończoną nadzieję matematyczną \(m\) i dla każdego dodatniego \(\ve > 0\)

    \[ P(|X| \ge \ve ) \le \frac {E(|X|)}{\ve } \]

Wskazówka. Pierwsza część Nierówności Czebyszewa zastosowana do \(|X|\).

  • Pytanie 7.2 Niech \(m = E(X)\), \(\s ^2 = D^2(X)\), \(a < m < b\). Oszacuj z góry \(P(X \le a)\) i z dołu \(P(X < b)\).

Wskazówka. \(\frac {\s ^2}{(m-a)^2}\). \(1 -\frac {\s ^2}{(b-m)^2}\).

  • Pytanie 7.3 Niech \(X\) ma rozkład o gęstości \(f\): \(f(x) = 0\) dla \(x < 0\) oraz \(f(x) = e^{-x}\) dla \(x \ge 0\). Dla \(\ve > 0\) oblicz \(P(X \ge \ve )\) i porównaj otrzymany wynik z oszacowaniem wynikającym z Nierówności Czebyszewa.

Wskazówka. \(E(X) = 1\), \(P(X \ge \ve ) = e^{-\ve } < \frac {1}{\ve }\).

  • Pytanie 7.4 Sprawdź, że w przypadku rozkładu jednostajnego Reguła \(3\sigma \) się trywializuje.

Wskazówka. Gdy \(P_X = U(a,b)\), to \(3\s = \sqrt {3}\frac {b-a}{2}\) i przedział \((a,b) \subset (m - 3\s ,m+3\s )\).

  • Pytanie 7.5 Niech \(f :[0,1] \to \r \) będzie funkcją ciągłą, \(X_1,X_2,X_3, ...\) będzie ciągiem niezależnych zmiennych losowych o rozkładzie \(B(1,p)\) każda, \(S_n = X_1 + ... +X_n\). Wykaż, że

    \[ \lim _{n \to \infty }E\left (f\left (\frac {S_n}{n}\right ) - f(p)\right ) = 0, \]

    przy czym zbieżność ta jest jednostajna względem \(p\).

Wskazówka. Niech \(K = \sup |f|\). Ustalmy \(\eta >0\), \(\ve > 0\).

Niech \(\Omega _1 = \{|\frac {S_n}{n} - p| < \ve \}\), \(\Omega _2 = \{|\frac {S_n}{n} - p| \ge \ve \}\) będzie rozkładem \(\Omega \).

\[ \left |E\left (f\left (\frac {S_n}{n}\right ) - f(p)\right )\right | = \left |\int _\Omega f\left (\frac {S_n}{n}\right ) - f(p)\,dP\right | \le \int _\Omega \left |f\left (\frac {S_n}{n}\right ) - f(p)\right |\,dP \le \]

\[ \int _{\Omega _1}\left |f\left (\frac {S_n}{n}\right ) - f(p)\right |\,dP + \int _{\Omega _2}\left |f\left (\frac {S_n}{n}\right ) - f(p)\right |\,dP \le \]

\[ \sup _{|x| \le \ve }\{|f(p+x) - f(p)|\} + 2KP\left (| \frac {S_n}{n} - p| \ge \ve \right ). \]

Ponieważ \(f\) jest jednostajnie ciągła, to pierwszy składnik jest mniejszy od \(\eta /2\) dla dostatecznie małego \(\ve \), natomiast drugi składnik na podstawie Nierówności Czebyszewa zmierza do do 0.

  • Pytanie 7.6 Wskaż ciąg wielomianów, które jednostajnie aproksymują daną funkcję ciągłą \(f\) na przedziale \([0,1]\).

Wskazówka. \(\di W_n(x) = \sum _{k=0}^nf\left (\frac {k}{n}\right )\binom {n}{k}x^k(1-x)^{n-k}\).

Rachunek prawdopodobieństwa — Wybrane rozklady prawdopodobieństwa

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 8 Wybrane rozkłady prawdopodobieństwa

Ważniejsze rozkłady dyskretne i ciągłe

  • 1. Rozkład jednopunktowy, \(\delta \)-Diraca, \(\delta _c\).

  • 2. Rozkład jednostajny dyskretny.

  • 3. Rozkład jednostajny ciągły.

  • 4. Rozkład Bernoulliego (dwupunktowy), \((0,1,p)\) (\(B(1,p)\)).

  • 5. Rozkład dwumianowy, \(B(n,p)\).

  • 6. Rozkład Poissona, \(P_\lambda \).

  • 7. Rozkład geometryczny \(G_p\).

  • 8. Rozkład hipergeometryczny.

  • 9. Rozkład Pascala.

  • 10. Rozkład wykładniczy, \(E_\lambda \).

  • 11. Rozkład Erlanga.

  • 12. Rozkład normalny, \(N(m,\sigma )\).

List of probability distributions

Rozkład jednopunktowy, \(\delta _c\) Jest to rozkład taki, że \(P(c) =1\), \(c \in \r \).

Zmienna losowa o rozkładzie \(\delta _a \rwn \) stała \(= c\).

Formalnie: jeżeli \(X: \Omega \to \r \) jest zamienną losową, to
\(P_X = \delta _c \rwn P(X=c) = 1\).

\(E(X) = c\), \(D^2(X) = 0\).

Rozkład jednostajny dyskretny na zbiorze skończonym \(K\) Jet to rozkład zadany na zbiorze skończonym \(K = \{x_1,\dots , x_n\}\). jako \(Q(x_i) =\frac {1}{n}\) dla \(i = 1,\dots , n\).

\(X\) – liczba oczek na kostce symetrycznej ma rozkład jednostajny dyskretny.

\(\di E(X) = \bar {x_n} = \frac {1}{n}\sum _{i=1}^nx_i\), \(\di D^2(X) = \frac {1}{n}\sum _{i=1}^n\left (x_i - \bar {x_n}\right )^2 \).

Rozkład jednostajny, \(U(a,b)\). Niech \(a , b \in \r \), \(a < b\). Jest to rozkład o gęstości \(\frac {1}{b-a}I_{[a,b]}\).

Niewiele zjawisk podlega rozkładowi jednostajnemu.

Komputer „potrafi” generować liczby według rozkładu jednostajnego, co z kolei służy do generowania liczb z zadanego z góry innego rozkładu (dyskretnego lub ciągłego), patrz punkt .

\(\di E(X) =\frac {a+b}{2}\) \(\di D^2(X) = \frac {(b-a)^2}{12}\).

Dowód.

\[E(X) = \int _a^b x \frac {1}{b-a}\,dx = \frac {b-a}{2}.\]

\[ D^2(X) = E(X^2) - E(X)^2 = \int _a^b x^2 \frac {1}{b-a}\,dx - \left (\frac {a+b}{2}\right )^2 = ... = \frac {(b-a)^2}{12}. \]

  

Rozkład Bernoulliego, dwupunktowy – \((0,1,p)\) (\(B(1,p)\)). Niech \(0 < p < 1\). Jest to rozkład \(Q\), taki, że \(Q(0) = 1- p\), \(Q(1) = p\).

Gdy \(X\) jest wynikiem doświadczenia, które ma dokładnie dwa możliwe zakończenie (porażka - 0, lub sukces - 1), to \(X\) ma rozkład dwupunktowy.

\(\di E(X) = p\), \(\di D^2(X) = (1-p)p\).

8.1 Rozkład dwumianowy – \(B(n,p)\)

Rozkład \(Q\) nazywamy rozkładem dwumianowym, jeżeli istnieją liczby \(n > 0\) oraz \(p\) i \(q\) takie, że \(0 <p,q <1\), \(p + q = 1\) oraz zachodzi równość:

\[ Q(k) = \binom {n}{k}p^kq^{n-k}\;\; \mbox { dla } k = 0,1,\dots ,n. \]

  • Twierdzenie – 8.1 Niech \(X_1,\dots , X_n\) będą niezależnymi zmiennymi losowymi o takim samym rozkładzie dwupunktowym \((0,1,p)\). Wtedy suma:

    \[S_n = X_1 + \dots + X_n\]

    ma rozkład dwumianowy \(B(n,p)\)

Dowód. Ustalmy \(k\), \(0 \le k \le n\). Zdarzenie \(\{S_n = k\}\) jest sumą rozłącznych zdarzeń polegających na tym, że dokładnie \(k\) spośród zmiennych losowych \(X_1, \dots , X_n\) przyjmuje wartość \(1\), a więc pozostałe \(n-k\) zmiennych przyjmuje wartość \(0\). Niech \(A_{i_1, \dots , i_k}\) będzie jednym z takich zdarzeń, gdzie \(i_1, \dots , i_k\) oznaczają numery tych zmiennych, które przyjmują wartość \(1\). Z kolei każde zdarzenie \(A_{i_1, \dots , i_k}\) jest iloczynem \(n\) zdarzeń postaci \(\{X_j = \ve _j\}\), gdzie \(\ve _j = 1\) lub \(\ve _j = 0\), a prawdopodobieństwa tych zdarzeń są równe odpowiednio \(p\) i \(q\). Z niezależności zmiennych \(X_1, \dots , X_n\) wynika, że:

\[P(A_{i_1, \dots , i_k} ) = p^kq^{n-k}.\]

Ponieważ wskaźniki \(i_1, \dots , i_k\) można wybrać na \(\binom {n}{k}\) sposobów, więc:

\[ P(S_n = k) = P\left (\bigcup _{i_1, \dots , i_k}A_{i_1, \dots , i_k}\right ) = \sum _{i_1, \dots , i_k}P(A_{i_1, \dots , i_k}) \]

\[ = \sum _{i_1, \dots , i_k}p^kq^{n-k} = \binom {n}{k}p^kq^{n-k}. \]

  

\[ E(X) = np, \hspace {1.5cm} D^2(X) = npq. \]

Dowód. Jest to wniosek z powyższego twierdzenia.   

Losowanie ze zwracaniem Przypuśćmy, że pewna populacja składa się z \(N\) elementów. Niech \(N_0\) elementów tej populacji ma pewną własność, powiedzmy własność \(W\). Niech \(p = \frac {N_0}{N}\) Losujemy ze zwracaniem \(n\) elementów i oznaczamy przez \(X\) liczbę tych spośród nich, które mają własność \(W\). Widać, że zmienna losowa \(X\) ma rozkład dwumianowy \(B(n,p)\).

Rachunek prawdopodobieństwa — Rozklad Poissona -

(image)

Rachunek prawdopodobieństwa 1, 2

8.2 Rozkład Poissona – \(P_{\lambda }\)

Rozkład \(Q\) jest rozkładem Poissona, jeżeli istnieje taka liczba \(\lambda > 0\), że:

\[ Q(k) = e^{-\lambda }\,\frac {\lambda ^k}{k!}\;\; \mbox { dla } k = 0,1,2,\dots \]

\(E(X) = \lambda \), \(D^2(X) = \lambda \).

Dowód.

\begin{eqnarray*} E(X) = \sum _{k=0}^\infty k e^{-\lambda }\,\frac {\lambda ^k}{k!} = \lambda \sum _{k=1}^\infty k e^{-\lambda }\,\frac {\lambda ^{k-1}}{k!} = \lambda e^{-\lambda }\sum _{k=1}^\infty \,\frac {\lambda ^{k-1}}{(k-1)!} = \\ \lambda e^{-\lambda }\sum _{k=0}^\infty \,\frac {\lambda ^{k}}{k!} = \lambda e^{-\lambda } e^{\lambda } = \lambda . \end{eqnarray*}

Podobnie dla wariancji (ćwiczenie).   \(\Box \)

Wiele zjawisk podlega rozkładowi Poissona. Zgodność taka została zaobserwowana w wielu konkretnych sytuacjach praktycznych.

Dane o liczbie śmiertelnych wypadków spowodowanych przez konia w 10 korpusach armii pruskiej w ciągu 20 lat (Bortkiewicz).

k 0 1 2 3 4 SUMA
liczba przypadków 109 65 22 3 1 200
częstość f 0,545 0,325 0,11 0,015 0,005 1
k*f = \(\lambda \) 0 0,325 0,22 0,045 0,02 0,61
\(P(X = k) =P_\lambda (k)\) 0,543 0,331 0,101 0,021 0,003 0,99957

Wniosek. \(X\) – liczba śmiertelnych wypadków w ciągu jednego roku w korpusie armii pruskiej ma rozkład Poissona \(P_\lambda \), \(\lambda = 0.61\).

Następujące twierdzenie mówi o tym, że rozkład Poissona jest w pewnym sensie granicą rozkładów dwumianowych. W szczególności, gdy mamy do czynienia z dużą \((n >100)\) liczbą niezależnych prób Bernoulliego, z jednakowym, małym \((p <0.1)\) prawdopodobieństwem sukcesu każda, to liczba wszystkich sukcesów ma niemal dokładnie rozkład Poissona z parametrem \(\lambda = np\). Istnieją dość dokładne oszacowania błędu, jaki popełniamy przybliżając rozkład dwumianowy rozkładem Poissona.

  • Twierdzenie – 8.2 Niech liczby \(p_n >0\) tworzą taki ciąg, że: \(\lim _{n\rightarrow \infty }n p_n = \lambda >0\) oraz niech \(k \) będzie nieujemną liczbą naturalną. Wtedy:

    \[ \lim _{n\rightarrow \infty } \binom {n}{k}p_n^k(1 - p_n)^{n-k} = e^{-\lambda }\,\frac {\lambda ^k}{k!}. \]

Dowód. Oznaczając \(\lambda _n = np_n\), mamy równość

\[ \binom {n}{k}p_n^k(1-p_n)^{n-k} = \frac {\lambda _n^k}{k!}\cdot \frac {n(n-1)\cdot \dots \cdot (n-k+1)}{n^k}\cdot \left (1- \frac {\lambda _n}{n}\right )^n\cdot \left (1-\frac {\lambda _n}{n}\right )^{-k}\!\!. \]

Ponieważ \(k\) jest ustalone, to ostatni czynnik zmierza do 1. Drugi czynnik jest równy \(1\cdot (1 - \frac {1}{n}) \cdot \dots \cdot (1- \frac {k-1}{n})\), więc też zmierza do 1. Istotne są czynniki pierwszy oraz trzeci i zmierzają one odpowiednio do \(\frac {\lambda ^k}{k!}\) oraz \(e^{-\lambda }\).   

Warto porównać obydwa rozkłady dla wybranych parametrów.

\(n = 100\), \(p = 0,01\) \(n = 50\), \(p = 0,1\) \(n = 100\), \(p = 0,1\)
rozkład rozkład rozkład rozkład rozkład rozkład
\(k\) dwum. Poissona dwum. Poissona dwum. Poissona
0 0,3660 0,3679 0,0052 0,0067 0,0000 0,0000
1 0,3697 0,3679 0,0286 0,0337 0,0003 0,0005
2 0,1849 0,1839 0,0779 0,0842 0,0016 0,0023
3 0,0610 0,0613 0,1386 0,1404 0,0059 0,0076
4 0,0149 0,0153 0,1809 0,1755 0,0159 0,0189
5 0,0029 0,0031 0,1849 0,1755 0,0339 0,0378
6 0,0005 0,0005 0,1541 0,1462 0,0596 0,0631
7 0,0001 0,0001 0,1076 0,1044 0,0889 0,0901
8 0,0000 0,0000 0,0643 0,0653 0,1148 0,1126
9 0,0000 0,0000 0,0333 0,0363 0,1304 0,1251
10 0,0000 0,0000 0,0152 0,0181 0,1319 0,1251
11 0,0000 0,0000 0,0061 0,0082 0,1199 0,1137
12 0,0000 0,0000 0,0022 0,0034 0,0988 0,0948
13 0,0000 0,0000 0,0007 0,0013 0,0743 0,0729
14 0,0000 0,0000 0,0002 0,0005 0,0513 0,0521
15 0,0000 0,0000 0,0001 0,0002 0,0327 0,0347

(image)
\(n = 200\), \(p = 0.03\); Zmień

(image)
\(\lambda =6\)

  • Twierdzenie – 8.3 Suma niezależnych zmiennych losowych o rozkładach Poissona ma rozkład Poissona.

Dowód. Niech \(X\) ma rozkład \(P_\lambda \), a \(Y\) rozkład \(P_\mu \). Niech \(k \ge 0\) będzie ustalone. \(\di P(X+Y = k) = P(\bigcup _{i+j = k} (X=i, Y=j)) = \sum _{i+j = k}P(X=i)P(Y=j) = \) \(\sum _{i = 0}^k P(X=i)P(Y=k-i) = \sum _{i = 0}^k e^{-\lambda } \frac {\lambda ^i}{i!} e^{-\mu } \frac {\mu ^{k-i}}{(k-i)!} = \)

\(\di e^{-(\lambda + \mu )} \sum _{i = 0}^k \frac {\lambda ^i \mu ^{k-i}}{i!(k-i)!} = e^{-(\lambda + \mu )}\frac {(\lambda +\mu )^k}{k!} \).   \(\Box \)

  • Przykład – 8.4 W ostatnich pięciu latach zanotowano 7, 6, 5, 5, 6 przypadków utonięć w Wiśle (dane fikcyjne). Oblicz prawdopodobieństwo tego, że w nadchodzącym roku liczba \(X\) utonięć w Wiśle będzie: (a) równa 0, (b) większa od 6, (c) co najmniej dziesięć.

    Z charakteru zjawiska wynika, że zmienna losowa \(X\) ma rozkład Poissona \(P_\lambda \). Średnia liczba utonięć w roku wynosi \(7+6+5+5+6\over 5 \) = \(5.8\) Jeżeli założymy, że w poprzednich latach rozkład utonięć podlegał temu samemu rozkładowi, czyli rozkładowi o wartości oczekiwanej \(\lambda \), to można przyjąć (wyjaśni to dokładniej statystyka), że \(\lambda = 5.8\). Z komputera (Excel, Maple, Mathematica i dużo więcej), lub z tablic (nie polecam) otrzymujemy wartości prawdopodobieństw \(P_\lambda ( k)\) oraz wartości dystrybuanty \(F_\lambda (k)\) dla \(k = 0,1,2, \dots \). Mamy więc dla \(\lambda = 5.8\):

    (a) \(P(X= 0) = P_\lambda (0) = 0.0030\) – niestety bardzo małe.

    (b) \(P(X > 6) = 1 - P(X \le 6) = 1 - F_\lambda (6) = 1 - 0.6384 = 0.3616\). – dość duże.

    (c) \(P(X \ge 10) = P(X >9) = 1 - P(X \le 9) = 1 - F_\lambda (9) = 1 - 0,9292 = 0.0708\) – już niezbyt duże.

Rachunek prawdopodobieństwa — Rozklad hipergeometryczny

(image)

Rachunek prawdopodobieństwa 1, 2

8.3 Rozkład hipergeometryczny

Rozkład \(Q\) nazywamy hipergeometrycznym, jeżeli istnieją liczby naturalne \(N\), \(N_0 \le N\), \(n \le N\) takie, że dla każdego \(k =0,1,2, \dots n\) zachodzi:

\[ Q(k) =\frac {\binom {N_0}{k} \binom {N-N_0}{n-k}} {\binom {N}{n}}, \]

Oznaczając \(p = \frac {N_0}{N}\) oraz \(q = 1 - p\) otrzymujemy:

\[ Q(k) =\frac {\binom {Np}{k} \binom {Nq}{n-k}} {\binom {N}{n}}, \]

(image)
\(N= 50\), \(p = 0.4\), Zmień \(n = 5\)

Przypuśćmy, że pewna populacja składa się z \(N\) elementów, przy czym \(N_0\) elementów ma własność \(W\). Losujemy bez zwracania \(n\) elementów i oznaczamy przez \(X\) liczbę wylosowanych elementów mających własność \(W\). Łatwo zauważyć, nawiązując do rozważań dotyczących losowania ze zwracaniem, że zmienna losowa \(X\) ma rozkład hipergeometryczny.

\(E(X) = np\), \(\di D^2(X) = npq\frac {N-n}{N-1}\).

Dowód. Maple, Ćwiczenie 8.5.   

Przy losowaniu \(n\) elementów ze zwracaniem i przy losowaniu \(n\) elementów bez zwracania z populacji o liczebności \(N\) z wyróżnioną frakcją losujemy średnio tyle samo elementów z tych frakcji. Jednak przy losowaniu bez zwracania wariancja jest mniejsza.

Porównajmy odpowiednie rozkłady

Rachunek prawdopodobieństwa — Rozklad geometryczny, .

(image)

Rachunek prawdopodobieństwa 1, 2

8.4 Rozkład geometryczny, \(G_p\).

Rozkład \(Q\) jest rozkładem geometrycznym, jeżeli istnieją liczby \(p,\,q\), \(0<p\), \(q <1\), \(p + q = 1\) takie, że

\[ Q(k) = q^{k-1}p, \mbox { dla } k = 1,2,3,\dots \]

  • Twierdzenie – 8.5 Niech \(X_1,X_2,X_3,\dots \) będą niezależnymi zmiennymi losowymi o takim samym rozkładzie dwupunktowym \((0,1,p)\). Wtedy funkcja

    \[T =\min \{n \ge 1: X_n = 1\},\]

    nazywana czasem oczekiwania na pierwszy sukces w nieskończonym ciągu prób Bernoulliego jest zmienną losową o rozkładzie geometrycznym \(G_p\).

Dowód. Zauważmy, że zdarzenie \(\{T = n\}\) jest takie samo jak zdarzenie \(\{X_1 = 0,\dots ,X_{n-1} = 0, X_n = 1\}\). Z niezależności zmiennych losowych \(X_i\) otrzymujemy

\[ P(T=n) = P(X_1 = 0,\dots ,X_{n-1} = 0, X_n = 1) = \]

\[ P(X_1 = 0)\cdot \dots \cdot P(X_{n-1} = 0)\cdot P(X_n = 1) = q^{n-1}p. \]

\(\hfill { \Box }\)

\(\di E(X) = \frac {1}{p}, \) \(\di D^2(X) = \frac {1-p}{p^2 }\)

Dowód. Wiadomo, że

\[ \sum _{i=0}^\infty x^i = \frac {1}{1-x}, \ \mbox { dla } |x| < 1. \]

Po zróżniczkowaniu otrzymujemy:

\[ \sum _{i=1}^\infty ix^{i-1} = \frac {1}{(1-x)^2}, \ \mbox { dla } |x| < 1. \]

Teraz, biorąc \(x = 1-p\) otrzymujemy:

\[E(X) = \sum _{i=1}^\infty i(1-p)^{i-1}p = p\frac {1}{p^2} = \frac {1}{p}. \]

Wariancję oblicza się podobnie (ćwiczenie).   \(\Box \)

Rachunek prawdopodobieństwa — Rozklad Pascala, ujemny rozklad dwumianowy

(image)

Rachunek prawdopodobieństwa 1, 2

8.5 Rozkład Pascala, ujemny rozkład dwumianowy

Rozkład \(Q\) nazywamy ujemnym rozkładem dwumianowym (lub rozkładem Pascala), jeżeli istnieją: liczba naturalna \(r \ge 1\) oraz rzeczywista \(p >0\) takie, że

\[ Q(r+k) = \binom {r+k-1}{\ r-1}p^r(1-p)^k, \mbox { dla } k = 0,1,2,\dots \]

Zauważmy, że rozkład geometryczny jest szczególnym przypadkiem ujemnego rozkładu dwumianowego. \(r=1\).

  • Twierdzenie – 8.6 Niech \(X_1,X_2,X_3,\dots \) będzie ciągiem niezależnych prób Bernoulliego o takim samym prawdopodobieństwie sukcesu \(p\) w każdej próbie. Określamy:

    \begin{eqnarray*} T_r := min \{n: \exists 1\le k_1 < \dots < k_r = n \mbox { takie, Åije } X_{k_i} =1, \mbox { dla } i =1,\dots ,r\}. \end{eqnarray*}

    Wtedy, \(T_r\) jest zmienną losową o ujemnym rozkładzie dwumianowym. Inaczej: Czas oczekiwania na pierwszych \(r\) sukcesów w nieskończonym schemacie Bernoulliego ma ujemny rozkład dwumianowy.

Dowód. Dowód jest bardzo podobny do analogicznego twierdzenia o rozkładzie geometrycznym.

\[\{T_r = r+k\} = \bigcup \{X_1 = \ve _1, \dots , X_{r+k -1} = \ve _{r+k-1}, X_{r+k} = 1\},\]

gdzie sumowanie odbywa się po wszystkich \(\{\ve _1, \dots , \ve _{r+k-1}\}\) takich, że spośród nich \(r-1 \) ma wartość 1 oraz \(k\). ma wartość 0. Wtedy \(P(\{X_1 = \ve _1, \dots , X_{r+k -1} = \ve _{r+k-1}, X_{r+k} = 1\} ) =p^r(1-p)^k\). \(\hfill { \Box }\)

Można także udowodnić twierdzenie, które jeszcze inaczej pozwala spojrzeć na problem czasów oczekiwania:

  • Twierdzenie – 8.7 Niech \(T_1,\dots ,T_r\) będzie ciągiem niezależnych zmiennych losowych o takim samym rozkładzie geometrycznym każda.

    Wtedy suma \(T_1 + \dots + T_r\) ma ujemny rozkład dwumianowy.

Dowód. Indukcja ze względu na \(r\) (ćwiczenie).   \(\Box \)

\(E(X) = \frac {r}{p}\), \(D^2(X) = \frac {r(1-p)}{p^2}.\)

Dowód. Wynika z poprzedniego twierdzenia (ćwiczenie).   \(\Box \)

Rachunek prawdopodobieństwa — Rozklad wykladniczy,

(image)

Rachunek prawdopodobieństwa 1, 2

8.6 Rozkład wykładniczy, \(E_\lambda \)

Rozkład \(Q\) nazywamy rozkładem wykładniczym, jeżeli istnieje taka liczba \(\lambda > 0\), że funkcja \(f\) określona wzorem

\[ f(x) = \left \{ \begin {array}{ll} 0, & \mbox { dla } x<0\\ \lambda e^{-\lambda x}, & \mbox { dla } x \ge 0. \end {array} \right . \]

jest gęstością tego rozkładu.

Dystrybuanta

\[ F(x) = \int _{-\infty }^xf(t)\,dt = \left \{ \begin {array}{ll} 0, & \mbox { dla } x<0\\ 1 - e^{-\lambda x}, & \mbox { dla } x \ge 0. \end {array} \right . \]

\begin{equation} E(X) = \frac {1}{\lambda }, \hspace {2cm} D^2(X) = \frac {1}{\lambda ^2}. \end{equation}

Dowód. Proste przeliczenie (ćwiczenie).   \(\Box \)

Rozkład wykładniczy jest ciągłym odpowiednikiem rozkładu geometrycznego. Mówiąc nieściśle, czas oczekiwania na pierwszy sukces w nieskończonym ciągu niezależnych prób Bernoulliego ma w przybliżeniu rozkład wykładniczy o parametrze \(\lambda \), o ile czas pomiędzy kolejnymi próbami jest bardzo mały, a prawdopodobieństwo sukcesu w pojedynczej próbie jest małe i proporcjonalne do tego czasu, przy czym parametr \(\lambda \) jest współczynnikiem tej proporcjonalności. Inaczej, gdy jednostką czasu jest \(\delta \) oraz \(p\) jest bliskie zeru, to rozkład geometryczny o parametrze \(p\) i wykładniczy \(\lambda = p\) są podobne. Zobacz sam.

Poniżej formułujemy odpowiednie twierdzenie.

Niech \(\lambda > 0\) będzie ustalone.

Dla \(\delta >0 \) oznaczamy \(p = p_\delta = \lambda \cdot \delta \).

Niech \(X_1,X_2,X_3,\dots \) będzie ciągiem niezależnych zmiennych losowych, z których każda ma rozkład dwupunktowy o parametrze \(p\).

Niech

\[T = \delta \,min\{n \ge 1: X_n = 1\}.\]

Niech \(F\) oznacza dystrybuantę rozkładu wykładniczego o parametrze \(\lambda \).

  • Twierdzenie – 8.8 Dla każdego \(t \in \r \)

    \[ F_T(t) \longrightarrow F(t) \;\; \mbox { gdy }\;\; \delta \longrightarrow 0. \]

Dowód. Dla \(t\le 0\) – trywialne. \(\hfill { \Box }\)

Niech \(t > 0\). Zmienna losowa \(\di T\over \delta \) ma rozkład geometryczny. Niech \(n = [\frac {t}{\delta } ]\).

\[ F_T(t) = P(T \le t) = 1 - P(T>t) = 1 - P(\frac {T}{\delta } > \frac {t}{\delta }) = 1 - \sum _{k = n+1}^\infty (1-p)^{k-1}p = \]

\[ 1 - (1 - p)^n = 1 - \left (1 - \frac {\lambda }{\delta ^{-1}}\right )^{\delta ^{-1}t -r_\delta } \longrightarrow 1 - e^{-\lambda t} = F(t), \]

dla \(\delta \rightarrow 0\), gdyż \(0 \le r_\delta = \frac {t}{\delta } - n < 1\), więc \(\di \left (1 - \frac {\lambda }{\delta ^{-1}}\right )^{-r_\delta }\) zmierza do \(1\). \(\hfill { \Box }\)

Ilustracja twierdzenia

  • Twierdzenie – 8.9 Niech \(T_1,\dots , T_r\) będą zmiennymi losowymi niezależnymi o takim samym rozkładzie wykładniczym o parametrze \(\lambda \). Niech \(S_r =T_1+\dots +T_r\).

    Wtedy \(S_r\) ma rozkład o gęstości \(f_r\):

    \[ f_r(x) = \frac {\lambda (\lambda x)^{r-1}}{(r-1)!} e^{-\lambda x} \mbox { dla } x >0 \]

    oraz \(f_r(x) = 0 \) dla \(x\le 0\).

Powyższy rozkład nosi nazwę rozkładu Erlanga.

Dowód. Rachunkowy dowód polega na zastosowaniu indukcji oraz następującego wzoru na gęstość sumy niezależnych zmiennych losowych o rozkładach ciągłych (ćwiczenie). \(\hfill { \Box }\)

  • Twierdzenie – 8.10 Niech \(X\) oraz \(Y\) będą niezależnymi zmiennymi losowymi o gęstościach \(f_X\) oraz \(f_Y\). Wtedy zmienna losowa \(X+Y\) ma rozkład ciągły o gęstości:

    \[ f_{X+Y}(z) = \int _{-\infty }^\infty f_X(t)f_Y(z-t)\,dt. \]

Dowód wykorzystuje twierdzenie o zmianie zmiennych w całce podwójnej oraz twierdzenie Fubiniego. \(\hfill { \Box }\)

Indukcyjnie można pokazać, że dystrybuanta wyraża się wzorem (ćwiczenie):

\[ F_r(t) = \int _0^t \frac {\lambda (\lambda x)^{r-1}}{(r-1)!} e^{-\lambda x}\, dx = 1 - e^{-\lambda t} \left (1 + \frac {\lambda t}{1!} + \dots + \frac {(\lambda t)^{r-1}}{(r-1)!} \right ). \]

(image) (image) (image) (image)

Rachunek prawdopodobieństwa — Proces Poissona

(image)

Rachunek prawdopodobieństwa 1, 2

8.7 Proces Poissona

  • Twierdzenie – 8.11 Niech \(T_1,T_2, T_3,\dots \) będą zmiennymi losowymi niezależnymi o takim samym rozkładzie wykładniczym o parametrze \(\lambda \). Niech \(S_n =T_1+\dots +T_n\). Kładziemy dodatkowo \(S_0 = 0\). Definiujemy:

    \[ N_t := max\,\{n: S_n \le t\}, \]

    gdzie \(t> 0\) jest ustaloną liczbą.

    Wtedy zmienna losowa \(N_t\) ma rozkład Poissona o parametrze \(\lambda t.\)

Komentarz. Zmienna \(N_t\) oznacza liczbę sukcesów, które mają miejsce na odcinku czasu \((0,t)\) w ciągu niezależnych prób Bernoulliego, o ile próby te mogą być powtarzane nieskończenie często, a prawdopodobieństwo pojawienia się sukcesu w bardzo małym odcinku czasu \(\Delta t\) wynosi w przybliżeniu \(\lambda \Delta t\).

Dowód. Zauważmy, że zdarzenie \(\{N_t = k\}\) jest równe zdarzeniu \(\{S_k \le t\} \setminus \{S_{k+1} \le t \}\). Tak więc:

\[ P(N_t = k) = F_k(t) - F_{k+1}(t), \]

gdzie \(F_k\) oznacza dystrybuantę zmiennej losowej \(S_k\), która ma rozkład Erlanga. Poprzednio określiliśmy już dystrybuantę \(F_k\).

Stąd łatwo widać, że: \(\di P(N_t = k) = \frac {(\lambda t)^k}{k!}e^{-\lambda t}\). \(\hfill { \Box }\)

Proces stochastyczny Rodzina zmiennych losowych określonych na tej samej przestrzeni probabilistycznej indeksowana przez czas nazywa się procesem stochastycznym. Powyższa rodzina \(\{N_t\}_{t \ge 0}\) jest właśnie takim przypadkiem i nazywa się procesem Poissona.

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

8.8 Pytania

  • Pytanie 8.1 Dwóch graczy wykonuje \(10\) rzutów kostką. Jakie jest prawdopodobieństwo tego, że obydwaj otrzymają tyle samo „6"?

Wskazówka. \(\di \sum _{k=0}^n\left (\binom {n}{k} \left (\frac {1}{6}\right )^k\left (\frac {5}{6}\right )^{n-k}\right )^2 \cong 0.24209\) dla \(n = 10\).

  • Pytanie 8.2 Czy/kiedy suma dwóch niezależnych zmiennych losowych o rozkładach dwumianowych ma rozkład dwumianowy?

Wskazówka. Jeżeli \(P_X = B(n,p)\), \(P_Y = B(m,q)\), \(p = q\), to \(P_{X+Y} = B(n+m,p)\).

  • Pytanie 8.3 Ile rodzynek podczas wyrabiania ciasta trzeba średnio przeznaczyć na bułeczkę, aby losowo wybrana bułeczka z prawdopodobieństwem \(0,95\) lub większym zawierała co najmniej jedną rodzynkę? Jakle wtedy będzie prawdopodobieństwo tego, że losowo wybranej bułeczce będzie co najmniej 5 rodzynek?

Wskazówka. \(X\) – liczba rodzynek w bułeczce ma rozkład Poissona \(P_\lambda \), gdyż jest dużo rodzynek (doświadczeń) i małe prawdopodobieństwo, że jedna z nich trafi do danej bułeczki (sukces). Trzeba tak dobrać \(\lambda \), żeby \(P(X \ge 1) \ge 0.95\).

Mamy kolejno \(1 - e^{-\lambda } \ge 0.95\), \(\lambda \ge 2.995732274\). \(P(X \ge 5) \ge 0.1840201545\).

  • Pytanie 8.4 Przeprowadź dowód Twierdzenia 8.10.

Wskazówka. \(\di F_{X+Y}(z) = P(X+Y \le z) = \int \int _A f_{(X,Y)}(x,y)\,d(x,y) = \int \int _A f_{X}(x)f_Y(y) \,d(x,y) \), gdzie \(A = \{(x,y): x+y \le z \}\). Stosujemy zmianę zmiennych: \(s = x+y\), \(t = x\). Mamy więc:

\[ F_{X+Y}(z) = \int \int _{\r \times (-\infty ,z)}f_X(t)f_Y(s-t)\,d(s,t) = \int _{-\infty }^z\left (\int _{\r }f_X(t)f_Y(s-t)\,dt\right )\,ds. \]

\[ f_{X+Y}(z) = \frac {d}{dz}F_{X+Y}(z) = \int _{\r }f_X(t)f_Y(z-t)\,dt. \]

  • Pytanie 8.5 Znajdź rozkład sumy niezależnych zmiennych losowych o rozkładzie \(U(0,a)\) każda.

Wskazówka.

\[ f_{X+Y}(z) = I_{(0.2a)}\left (\frac {1}{a}-\left |\frac {1}{a} - \frac {z}{a^2}\right |\right ). \]

  • Pytanie 8.6 Wykaż, że minimum dwóch niezależnych zmiennych losowych o rozkładach wykładniczych ma rozkład wykładniczy.

Wskazówka. \(F_{\min (X,Y)}(z) = P(\min (X,Y) \le z) = 1 - P(X >z,Y>z) = 1 - (1 - F_X(z))(1 - F_Y(z)) = 1 - e^{-\lambda z} e^{-\mu z} = 1 - e^{(\lambda +\mu )z}\).

Rachunek prawdopodobieństwa — Rozklad normalny

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 9 Rozkład normalny

Najważniejszym rozkładem jest tak zwany rozkład normalny zwany także rozkładem Gaussa.

Rozkład normalny, \(N(m,\sigma )\). Rozkład \(Q\) nazywamy rozkładem normalnym, jeżeli istnieją takie liczby rzeczywiste \(m\) oraz \(\sigma >0\), że funkcja \(f\colon \r \str \r \), określona wzorem:

\[ f(x) = \frac {1}{\sqrt {2\pi }\sigma }\,e^{-\frac {1}{2}(\frac {x - m}{\sigma })^2}\;\;\mbox { dla } x\in \r , \]

jest gęstością tego rozkładu.

\(f\) jest rzeczywiście gęstością. Wiadomo (ćwiczenie z analizy matem.), że

\[ \int _{-\infty }^\infty e^{-\frac {1}{2}t^2}\,dt = \sqrt {2\pi }. \]

Stosując podstawienie \(t = \frac {x-m}{\sigma }\) otrzymujemy: \(\di \int _{-\infty }^\infty f(x)\,dx = \int _{-\infty }^\infty \frac {1}{\sqrt {2\pi }\sigma }\,e^{-\frac {1}{2}(\frac {x - m}{\sigma })^2}\,dx = \frac {1}{\sqrt {2\pi }} \int _{-\infty }^\infty e^{-\frac {1}{2}t^2}\,dt = 1 \),

Interpretacja parametrów \(m\) – punkt maksimum globalnego gęstości (ćwiczenie).

\(m - \sigma \), \(m +\sigma \) – punkty przegięcia gęstości (ćwiczenie).

\(E(X) = m\), \(D^2(X) = \sigma ^2\).

Dowód. Proste całkowanie przez podstawienie .   \(\Box \)

Oznaczenie. \(\Phi _{m,\sigma }\) – dystrybuanta rozkładu normalnego \(N(m, \sigma )\), czyli

\[ \Phi _{m,\sigma }(x) = \frac {1}{\sqrt {2\pi }\sigma } \int _{-\infty }^x e^{-\frac {1}{2}(\frac {t- m}{\sigma })^2}\,dt \]

9.1 Standardowy rozkład normalny, \(N(0,1)\)

Rozkład \(N(0,1)\) – standardowy rozkład normalny.

\(E(X) = 0\), \(D^2(X) = 1\).

Oznaczenie. \(\Phi \) = \(\Phi _{0,1}\) – dystrybuanta rozkładu normalnego standardowego, czyli

\[ \Phi (x) = \frac {1}{\sqrt {2\pi }} \int _{-\infty }^x e^{-\frac {1}{2}t^2}\,dt. \]

(image)
\(\Phi (1) = 0.8413447461 \)

(image)
\(\Phi (2) = 0.9772498681 \)

Pożyteczne wzory (ćwiczenie):

\[\Phi (0) = 0.5,\]

\[\Phi (-x) = 1 - \Phi (x),\]

\[P(|X| < \ve ) = \Phi (\ve ) - \Phi (-\ve ) = 2 \Phi (\ve ) - 1, \mbox { gdy } X \sim N(0,1),\]

\[ \Phi _{m,\sigma }(x) = \Phi \left (\frac {x-m}{\sigma }\right ).\]

Przed erą komputerową w powszechnym użyciu były tablice roznkładu \(N(0,1)\).

\(x\) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
Rachunek prawdopodobieństwa — Centralne twierdzenie graniczne

(image)

Rachunek prawdopodobieństwa 1, 2

9.2 Centralne twierdzenie graniczne

W tym punkcie zakładamy, że:

Założenie.
\((\Omega , \Sigma ,P)\) jest przestrzenią probabilistyczną, zaś \(X_1,\,X_2,\, X_3,\dots \) – ciągiem niezależnych zmiennych losowych określonych na \(\Omega .\) Wszystkie zmienne losowe \(X_i\) mają taki sam rozkład, a ich wspólna nadzieja matematyczna \(m\) oraz wariancja \(\sigma ^2\) istnieją i są skończone, przy czym \(\sigma > 0\) (ten ostatni warunek oznacza, że zmienne losowe nie są stałymi).

\[S_n = X_1 + \dots +X_n.\]

Zmienną losową:

\[ Z_n := \frac {S_n -E(S_n)}{\sqrt {D^2(S_n)}} = \frac {S_n -nm}{\sigma \sqrt {n}} \]

nazywamy standaryzacją sumy \(S_n.\)

Jak łatwo zauważyć:

\[E(Z_n) = 0\;\; \textrm {oraz}\;\; D^2(Z_n) = 1.\]

  • Twierdzenie – 9.1 (Twierdzenie Lindeberga-Leévy’ego, CTG) Dla każdego \(x \in \r \) zachodzi równość:

    \[ \lim _{n\rightarrow \infty }P(Z_n \le x) = \Phi (x), \]

  • Twierdzenie – 9.2 (CTG dla sum) Rozkład zmiennej losowej \(S_n\) jest asymptotycznie równy rozkładowi \(N(nm,\sigma \sqrt {n})\). Inaczej:

    \[ \lim _{n\rightarrow \infty }(F_{S_n}(x) - \Phi _{nm,\sigma \sqrt {n}}(x)) = 0, \]

    dla \(x \in \r .\)

  • Twierdzenie – 9.3 (CTG dla średnich) Rozkład zmiennej losowej \(\frac {S_n}{n}\) jest asymptotycznie równy rozkładowi \(N(m,{\sigma \over \sqrt {n}})\). Inaczej:

    \[ \lim _{n\rightarrow \infty }(F_{\frac {S_n}{n}}(x) - \Phi _{m,{\sigma \over \sqrt {n}}}(x)) = 0, \]

    dla \(x \in \r .\)

Dowód oparty na teorii funkcji charakterystycznych będzie później.

Centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:

Suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.

Z twierdzenia 9.1 otrzymujemy natychmiast klasyczne twierdzenie:

  • Twierdzenie – 9.4 (de Moivre’a-Laplace’a) Niech \(X_1, \,X_2, \, X_3,\dots \) będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu \(p\) i porażki \(q = 1 - p\) w każdej próbie (\(0<p<1\)). Wtedy:

    \[ P\left (\frac {S_n - np}{\sqrt {npq}} \le x\right ) \longrightarrow \Phi (x), \]

    dla każdego \(x \in \r \).

Ilustracja twierdzenia

  • Przykład – 9.5 (Eksperyment, rzuty kostką) Wyobraźmy sobie eksperyment polegający na wielokrotnym rzucie kostką do gry. Suma uzyskanych oczek \(S\) jest zmienną losową mającą, zgodnie z CTG, w przybliżeniu rozkład \(N(nm, \sigma \sqrt {n})\), gdzie \(m\) oraz \(\sigma \) są odpowiednio nadzieją matematyczną oraz odchyleniem standardowym zmiennej losowej \(X\), reprezentującej wynik pojedynczego rzutu, a \(n\) jest liczbą wykonanych prób. Ponieważ \(X\) ma rozkład dyskretny, skupiony w punktach \(1,2,3,4,5,6\) przyjmowanych z jednakowym prawdopodobieństwem \(\frac {1}{6}\), więc bez trudu można stwierdzić, że:

    \[m = 3.5 \;\;\textrm {oraz}\;\; \sigma = \frac {\sqrt {105}}{6} \approx 1.7078251.\]

    Przypuśćmy, że wykonano 1000 rzutów (\(n = 1000\)). Wówczas na podstawie CTG suma \(S_{1000}\) ma w przybliżeniu rozkład \(N(3500,54,00617)\).

    Zweryfikujmy doświadczalnie uzyskany wynik. W tym celu można przeprowadzić symulację tysiąca rzutów kostką za pomocą komputera, uzyskując odpowiednią wartość sumy wszystkich uzyskanych oczek.

    Doświadczenie to powtórzymy 400 razy, uzyskując \(400\) wartości sumy oczek.

    Wyniki:

    \[3567, 3423, 3424, \dots , 3671, 3558, 3582.\]

    są przedstawione graficznie w postaci histogramu. W tym celu przedział \([3300, 3700]\) został podzielony na 20 równych przedziałów i została policzona liczba danych znajdujących się w każdym z tych przedziałów, \(n_i\), \(i = 1, \dots , 20\), a na rysunku zostały zaznaczone prostokąty o wysokościach \(\frac {n_i}{20 N}\) nad kolejnymi przedziałami. Tutaj \(N = \sum _{i=1}^{20}n_i\). Widać, że suma pól = 1. Histogram porównano na wspólnym rysunku z gęstością rozkładu \(N(3500,54,00617)\).

    (image) (image)

W istocie nie trzeba rzucać kostką aż 1000 razy aby suma oczek miała rozkład normalny. Faktycznie wystarczy ograniczyć liczbę rzutów do kilkunastu. Może o tym świadczyć porównanie rozkładu sumy z odpowiednim rozkładem normalnym z naturalnie dobranymi parametrami.

(image) (image)

(image) (image)

Nawet, gdy kostka jest wyraźnie sfałszowana suma oczek dość szybko „normalnieje".

(image) (image)

(image) (image)

  • Przykład – 9.6 Rzucono \(1000\) razy symetryczną kostką do gry. Obliczyć prawdopodobieństwo tego, że „6"wypadła więcej niż 150 razy.

    Zauważmy najpierw, że interesująca nas ilość „6"jest sumą \(S_n, \;\;n =1000\), niezależnych prób Bernoulliego o prawdopodobieństwie sukcesu \(p = {1\over 6}\) w każdej próbie. Zgodnie z centralnym twierdzeniem granicznym, suma ta ma w przybliżeniu rozkład normalny \(N(np,\sqrt {npq})\). Wstawiając wartości liczbowe otrzymujemy: \(\di P(S_{1000} > 150) = 1 - P(S_{1000} \le 150) \cong 1 - \Phi _{np, \sqrt {npq}}(150) = 1 - \Phi \left (\frac {150 - \frac {1000}{6}}{\sqrt {1000\frac {5}{6}\frac {1}{6}}}\right ) \cong 1 - \Phi (-1,41) = \Phi (1,41) \cong 0,9207, \) gdzie ostatnia liczba pochodzi z tablic rozkładu normalnego.

  • Przykład – 9.7 Jakie jest prawdopodobieństwo, że przy \(1000\) rzutach monetą symetryczną różnica między ilością reszek i orłów będzie wynosić co najmniej \(100\)? Podobnie jak poprzednio, ilość uzyskanych orłów jest sumą \(S_n,\; n =1000\), niezależnych prób Bernoulliego o prawdopodobieństwie sukcesu \(p = \frac {1}{2}\) w pojedynczej próbie.

    Chcemy obliczyć \(P(|S_n -(n - S_n)| \ge 100)\), czyli \(P(|S_n -500| \ge 50).\) Prawdopodobieństwo zdarzenia przeciwnego jest w bardzo dużym przybliżeniu równe:

    \(\di F_{S_n}(550) - F_{S_n}(450) \cong \Phi _{500,\,5 \sqrt {10}}(550) - \Phi _{500,\,5 \sqrt {10}}(450) = \Phi (\sqrt {10}) - \Phi (-\sqrt {10}) = 2\Phi (\sqrt {10}) - 1 \cong 2 \Phi (3,1622) - 1 \cong 0,9984. \)

    Interesujące więc nas prawdopodobieństwo wynosi w przybliżeniu \(0,0016.\)

  • Przykład – 9.8 (Kontynuacja Przykładu 6.15 o liczbie analiz) W celu zbadania dużej populacji osób, podzielono ją na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi \(N\), liczność grup wynosi \(n\), zaś \(k\) niech będzie liczbą grup (oczywiście \(N = nk\)).

    Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi \(p\) oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób.

    Pamiętamy, że dla \(N = 1000\), oraz \(p = 0.01\) optymalnymi ze względu na średnią liczbę analiz parametrami są: \(n = 10\), \(k = 100\). Wtedy oczekiwana liczba analiz wynosi \(m = E(X) = 195.68\). Pytanie: Czy liczba analiz może przekroczyć 300?

    Stosując Nierówność Czebyszewa stwierdziliśmy, że: \(P(X \ge 300) \le 0.0795\).

    Stosując CTG możemy założyć, że zmienna losowa \(X\) oznaczająca liczbę analiz ma rozkład normalny, \(N(m,\sigma )\). Obliczyliśmy już poprzednio: \(m = 195.68\), \(\sigma ^2 = 865\).

    Mamy więc: \(P(X \ge 300) = 1 - P(X < 300) = 1 - \Phi \left (\frac {300 -m}{\sigma }\right ) = 1- 0.999607712 = 0,000392288\).

  • Uwaga – 9.9 (Reguła 1.96) Jeżeli zmienna losowa \(X\) ma rozkład normalny \(N(m,\sigma )\), to

    \[ P(X \in (m - 1.96\sigma ,m + 1.96\sigma )) \cong 0.95.\]

Dowód.

\[ P(X \in (m - 1.96\sigma ,m + 1.96\sigma )) = \Phi _{m,\sigma }(m+1.96\sigma ) - \Phi _{m,\sigma }(m-1.96\sigma )\]

\[ = 2\Phi (1.96) - 1 \cong 2\cdot 0.975002104851780 - 1 = 0.950004209703559 .\]

  

Dla dowolnej zmiennej losowej \(X\) o parametrach \(m = E(X)\), \(\sigma ^2 = D^2(X)\) z reguły \(3\sigma \) otrzymujemy:

\[ P(X( \in (m - 3\sigma ,m+3\sigma )) \ge \frac 89. \]

Gdy założymy normalność \(X\), to

\[ P(X( \in (m - 3\sigma ,m+3\sigma )) = 2\Phi (3) - 1 \cong 2\cdot 0.999 - 1 \cong 0.997. \]

  • Przykład – 9.10

    Aby stwierdzić, jak wielu wyborców popiera obecnie partię \(AB\)C, losujemy spośród nich reprezentatywną próbkę i na niej przeprowadzamy badanie. Jak duża powinna być ta próbka, aby uzyskany wynik różnił się od rzeczywistego poparcia dla partii \(ABC\) nie więcej niż o \(b =3\%\) z prawdopodobieństwem co najmniej \(1 - \alpha = 0,95\)?

    Niech \(p \in (0,1)\) oznacza faktyczne (lecz nieznane) poparcie dla partii \(ABC\). Jeżeli próbka składa się z \(n\) osób, z których \(S_n\) wyraziło poparcie dla \(ABC\), to liczba \(\frac {S_n}{n}\) jest poparciem wyznaczonym na podstawie próbki. Możemy założyć, że \(S_n\) jest sumą niezależnych zmiennych losowych \(\xi _i\) o rozkładzie: \(P(\xi _i =0) = 1-p\), \(P(\xi _i = 1) =p\). Chcemy znaleźć takie \(n\), żeby:

    \[ P\left ( \left | \frac {S_n}{n} - p \right | \le b \right ) \ge 1 - \alpha . \]

    Ponieważ średnia arytmetyczna \(\frac {S_n}{n}\) ma w przybliżeniu rozkład normalny, więc:

    \begin{eqnarray*} P\left ( \left | \frac {S_n}{n} - p \right | \le b \right ) & = & P\left (\frac {S_n}{n} \in (p-b,p+b\right ) = \\ \Phi _{p,\sqrt {\frac {p(1-p)}{n}}}(p+b) - \Phi _{p,\sqrt {\frac {p(1-p)}{n}}}(p-b) & = & \Phi \left (\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) - \Phi \left (-\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) \end{eqnarray*}

    Czyli powinna być spełniona następująca nierówność:

    \[ 2 \Phi \left (\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) - 1 \ge 1 - \alpha , \]

    która jest z kolei równoważna:

    \[ n \ge \left ( \frac {\Phi ^{-1} \left (1- \frac {\alpha }{2} \right )}{b} \right )^2(1-p)p. \]

    Chociaż nie znamy \(p\), wiemy, że \((1-p) p \le \frac {1}{4}\). W takim razie \(n\) spełniające nierówność:

    \[ n \ge \left ( \frac {\Phi ^{-1} \left (1- \frac {\alpha }{2} \right )}{b} \right )^20,25, \]

    spełnia także poprzednią nierówność, a więc określa (z naddatkiem)wystarczającą wielkość próbki.

    Podstawiając \(b = 0,03\), \(\alpha = 0,05\), otrzymamy: \(n \ge 1067\).

    Jeżeli jeszcze przed losowaniem próbki mamy wstępne informacje o poparciu dla partii \(ABC\) – na przykład wiemy, że poparcie to jest mniejsze niż \(20 \%\) – możemy powyższy wynik znacznie polepszyć. Ponieważ \(p \le 0,2\), więc \((1-p)p \le 0,16\), co oznacza, że \(n \ge 683\) jest wystarczającą wielkością próbki.

    Przeprowadzono sondaż i okazało się, że na 1050 badanych osób 299 popiera partię \(ABC\). Jakie jest prawdziwe poparcie dla \(ABC\)? Podobnie jak w poprzednim przykładzie, na tak postawione pytanie nie potrafimy odpowiedzieć. Potrafimy jednak z dużym prawdopodobieństwem wskazać przedział (zwany przedziałem ufności), w którym to poparcie \(p\) się zawiera. Jest to na przykład przedział postaci \((\hat {p} - b, \hat {p} +b)\), gdzie \(\hat {p} = \frac {S_n}{n}\) (w naszym przypadku \(\hat {p} = \frac {299}{1050} = 0.2848\)), natomiast \(b\) jest tak dobrane, aby

    \[P(p \in (\hat {p} - b, \hat {p} +b)) \ge 1 - \alpha ,\]

    przy czym \(\alpha > 0\) jest ustaloną przez nas małą liczbą dodatnią. Rozumując jak poprzednio widzimy, że ten warunek jest równoważny warunkowi

    \[ 2 \Phi \left (\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) - 1 \ge 1 - \alpha , \]

    a dalej warunkowi

    \begin{equation} \label {wzornab} b \ge \frac {\sqrt {p(1-p)}}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ). \end{equation}

    Powiedzmy, że \(\alpha = 0.05\). Ponieważ nie znamy \(p\), nie możemy podać możliwie najmniejszego \(b\). Możemy jedynie formalnie stwierdzić, że

    \[b \ge \frac {\sqrt {\frac 12(1-\frac 12)}}{\sqrt {1050}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ) = \frac {\frac 12}{32.4} 1.96 = 0.0302.\]

    Czyli szukany przedział ufności \((\hat {p} - b, \hat {p} +b) \) jest równy \((0.2545, 0.3150)\). Praktycy postępują jednak inaczej. Ponieważ znamy przybliżoną wartość \(p\), czyli \(\hat {p}\), to we wzorze (9.1) podstawmy \(\hat {p}\) zamiast \(p\). Otrzymamy:

    \begin{equation} \label {wzornab2} b \ge \frac {\sqrt {\hat {p}(1-\hat {p})}}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ) \end{equation}

    i po podstawieniu wartości: \(b \ge 0.0273\) oraz przedział ufności

    \[( 0.2575, 0.3120).\]

    Warto zauważyć, że gdyby partia \(ABC\) miała mniejsze poparcie, na przykład 99 na 1050 ankietowanych, to przedział ufności byłby istotnie krótszy. Mamy teraz \(\hat {p} = 0.0894\), \(b = 0.0177\) oraz przedział ufności

    \[(0.0766, 0.1120.\]

  • Przykład – 9.11 Ze zbioru \(N\)-elementowego losujemy w kolejnych momentach po jednym elemencie, przy czym jest to losowanie ze zwracaniem. Interesuje nas rozkład czasu oczekiwania \(T\) na wylosowanie \(r\) różnych elementów. Widać, że:

    \[T = T_0 + \dots + T_{r-1},\]

    gdzie \(T_n\), \(n = 0,1,2, \dots , r-1\) są niezależnymi zmiennymi losowymi o rozkładach geometrycznych; \(T_n \sim G_{\frac {N-n}{N}}\). Dla ustalonych \(N\) oraz \(r\) można obliczyć (komputer) \(E(T)\) oraz \(D^2(T)\), gdyż znamy te wielkości dla czasów \(T_n\), a czasy te są niezależne. Na przykład, dla \(N = 100\) oraz \(r=8\), \(E(T) = 8.294833858\), \(D^2(T) = 0.3105547438\). Gdy chcemy wylosować 190 różnych elementów spośród 200, potrzebujemy średnio prawie 590 losowań, a wariancja wynosi ponad 3 000.

    Czy dla dużych \(r\) czas \(T\) ma rozkład normalny?

    CTG w wersji, którą znamy, nie może być stosowane. Sprawdzamy to więc doświadczalnie wykonując 1000 symulacji naszego doświadczenia dla \(N = 200\), \(r = 100\).

    Sporządzamy odpowiedni histogram, wyznaczamy średnią i wariancję z otrzymanej próby: \(mD := 138.511\), \(varD= 63.221100100100266\) oraz wyliczamy nadzieję matematyczną oraz wariancję \(T\): \(E(T) = 138.1306861\), \(D^2(T) = 60.37514711\) i porównujemy na wspólnym wykresie:

(image)
histogram

(image)
gęstości

(image)
porównanie

Wydaje się (potwierdzają to testy statystyczne), że \(T\) ma rzeczywiście rozkład normalny.

3

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

9.3 Pytania

  • Pytanie 9.1 Czy suma niezależnych zmiennych losowych o rozkładach normalnych ma rozkład normalny? Czy założenie niezależności jest istotne?

Wskazówka. Tak, można skorzystać z Twierdzenia 8.10. Jest istotne: \(X + (-X) = 0\).

  • Pytanie 9.2 Sformułuj odpowiednik Reguły 1.96, gdy \(\alpha = 0.01\).

Wskazówka. Reguła 2.58: Jeżeli zmienna losowa \(X\) ma rozkład normalny \(N(m,\sigma )\), to

\[ P(X \in (m - 2.58\sigma ,m + 2.58\sigma )) \cong 0.99.\]

  • Pytanie 9.3 Niech \(X_1, X_2\) będą niezależnymi zmiennymi losowymi o rozkładzie standardowym normalnym każda. Czy zmienne losowe \(X_1 -X_2, X_1+X_2\) są niezależne? Czy założenie normalności jest istotne?

Wskazówka. Są niezależne: można wykorzystać Twierdzenie 5.33, aby otrzymać gęstość wektora \((X_1 -X_2, X_1+X_2)\), a następnie stwierdzić, że jest ona iloczynem gęstości różnicy i sumy.

Założenie normalności jest istotne. Niech \(X_1\), \(X_2\) będą niezależne i mają rozkład \(B(1,\frac 12)\) każda. Gdy suma = 2, to różnica = 0. Formalnie: \(P(X_1+X_2 =2,X_1 - X_2=0) = \frac 14\), \(P(X_1+X_2 =2)P(X_1 - X_2=0) = \frac 14 \cdot \frac 12 = \frac 18\).

  • Pytanie 9.4

  • Pytanie 9.5 Partia ABC wie, że ma poparcie nie większe niż \(10\%\). Zamawia sondaż, aby stwierdzić czy zdobędzie co najmniej \(5\%\) poparcie. Chciałaby mieć \(99\%\) pewności, że wynik sondażu oddaje prawdziwe preferencje wyborców z dopuszczalnym błędem nie większym niż \(2\%\). Jak duża powinna być próbka ankietowanych osób?

Wskazówka.

\[ n \ge \left ( \frac {\Phi ^{-1} (1-\alpha )}{b} \right )^2\frac {9}{100} \cong 541.189443051267. \]

  • Pytanie 9.6 Pewna agencja prowadzi rekrutację pracowników w kilku różnych krajach, które stosują różne systemy punktowania, niemniej trudność używanych testów jest porównywalna. Agencja otrzymuje listy punktów uzyskanych przez kandydatów ze wszystkich krajach i na tej podstawie chce wybrać 100 najlepszych kandydatów. W jaki sposób może postąpić agencja, aby wybór był racjonalny?

Wskazówka. Każdy kraj przedstawia listę, powiedzmy \(x_1,x_2, ... , x_k\), gdzie \(x_i\) jest oceną punktową \(i\)-tego kandydata. Na podstawie tej listy można obliczyć średnią: \(\bar {x} = \frac {1}{k}\sum _{i=1}^kx_i\) oraz odchylenie standardowe z próby: \(s = \sqrt {\frac {1}{k}\sum _{i=1}^k(x_i - \bar {X})^2}\). Można wyznaczyć znormalizowane punkty: \(z_i = \frac {x_i - \bar {x}}{\hat {s}}\). Teraz można połączyć tak uzyskane listy ze wszystkich krajów, a następnie uporządkować malejąco całą listę i wybrać pierwszych 1000 kandydatów.

Rachunek prawdopodobieństwa — Zbiezność zmiennych losowych

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 10 Zbieżność zmiennych losowych

10.1 Rodzaje zbieżności

Dany jest ciąg zmiennych losowych \(X_n: \Omega \to \r \), \(n = 1,2,3, \dots \). Dana jest zmienna losowa \(X : \Omega \to \r \).

Rozróżniamy kilka rodzajów zbieżności \(X_n \to X\), gdy \(n \to \infty \). W trakcie tego kursu dyskutujemy głownie:

  • 1. Zbieżność z prawdopodobieństwem 1.

  • 2. Zbieżność stochastyczna.

  • 3. Zbieżność według rozkładów.

Nie rozważa się zbieżności punktowej zmiennych losowych!

Powód: Jeżeli zmienną losową, powiedzmy \(X\), zmienimy na zbiorze miary zero otrzymując zmienną, powiedzmy \(Y\), to obydwie te zmienne mają taki sam rozkład, patrz uwaga poniżej, więc z punktu widzenia rachunku prawdopodobieństwa są sobie równe. Jednak, gdy \(X_n \to X\) punktowo, to wtedy \(X_n\) nie może być zbieżny w niektórych punktach do \(Y\).

Mówimy, że dwa wektory losowe \(X\), \(Y\) określone na przestrzeni probabilistycznej (Ω, Σ, P ) są równe prawie (\(X = Y\) p.w.) względem miary \(P\), gdy \(P(X=Y) =1 \). Często wiadomo, o którą miarę chodzi i wtedy nie musimy tego podkreślać. Można łatwo pokazać następujący fakt.

  • Uwaga – 10.1 Jeżeli \(X = Y\) p.w., to \(P_X = P_Y\).

  • Definicja – 10.2 (Zbieżność z prawdopodobieństwem 1)

    \(X_n \stackrel {1}{\longrightarrow } X \rwn \)

    \[ P(\{\omega : \lim _{n\rightarrow \infty }X_n(\omega ) = X(\omega )\}) = 1.\]

  • Definicja – 10.3 (Zbieżność stochastyczna)

    \(X_n \stackrel {s}{\longrightarrow } X \rwn \)

    \[ \forall \ve > 0 \lim _{n\to \infty }P(|X_n -X| \le \ve ) = 1.\]

    \(\rwn \) (ćwiczenie)

    \[\forall \ve > 0 \lim _{n\to \infty }P(|X_n -X| \ge \ve ) = 0 .\]

  • Definicja – 10.4 (Zbieżność według rozkładów)

    \(X_n \stackrel {d}{\longrightarrow } X \rwn \)

    \[ \forall a \in \r , \mbox { punktu ciÄĚgÅĆoÅŻci } F_X , \, \lim _{n \to \infty } F_{X_n}(a) = F_X(a).\]

Ogólniej.

Niech \(F_n\), \(n = 1,2,3, \dots \), oraz \(F\) będą dystrybuantami.

  • Definicja – 10.5 (Zbieżność rozkładów)

    \(F_n \stackrel {d}{\longrightarrow } F \rwn \)

    \[ \forall a \in \r , \mbox { punktu ciÄĚgÅĆoÅŻci } F , \, \lim _{n \to \infty } F_n(a) = F(a).\]

Wtedy:

\[ X_n \stackrel {d}{\longrightarrow } X \rwn \, F_{X_n} \stackrel {d}{\longrightarrow } F_X. \]

Uwagi.

Słabe Prawo Wielkich Liczb, Twierdzenie 7.6, 2 Niech \(X_n\) będą niezależnymi zmiennymi losowymi o wspólnej nadziei matematycznej \(m\) i wspólnie ograniczonych wariancjach. Niech \(S_n = X_1+ \dots + X_n\). Wtedy \(\di \frac {S_n}{n} \stackrel {s}{\longrightarrow } m\).

Centralne twierdzenie graniczne, Twierdzenie 9.1 Niech \(X_n\) będą niezależnymi zmiennymi losowymi o takim samym rozkładzie. Niech \(m\) oznacza nadzieję matematyczną, a \(\sigma \) odchylenie standardowe tego rozkładu. Niech \(\di Z_n = \frac {S_n- m}{\sigma \sqrt {n}}\). Wtedy

\[ F_{Z_n} \stackrel {d}{\longrightarrow } \Phi , \]

gdzie \(\Phi \) jest dystrybuantą rozkładu \(N(0,1)\).

Zbieżność rozkładów geometrycznych do rozkładu wykładniczego. Twierdzenie 8.8 mówi o zbieżności ciągu dystrybuant rozkładów czasu oczekiwania na pierwszy sukces w ciągu niezależnych prób Bernoulliego, gdy odcinki czasowe są coraz krótsze a prawdopodobieństwo sukcesu zmniejsza się proporcjonalnie wraz z ich długością.

  • Twierdzenie – 10.6 (Przybliżenie rozkładu dwumianowego rozkładem Poissona.) Niech liczby \(p_n >0\) tworzą taki ciąg, że:

    \[\lim _{n\rightarrow \infty }n p_n = \lambda >0.\]

    . Wtedy:

    \[ F_{B(n,p_n)} \stackrel {d}{\longrightarrow } F_{P_\lambda }. \]

Dowód. Miech \(a\) będzie punktem ciągłości dystrybuanty rozkładu Poissona \(P_\lambda \). Korzystając z Twierdzenia 8.2 mamy:

\[\di F_{P_\lambda } (a) = \sum _{k \le a } e^{-\lambda }\frac {\lambda ^k}{k!} = \sum _{k \le a } \lim _{n\rightarrow \infty } \binom {n}{k}p_n^k(1 - p_n)^{n-k} =\]

\[\lim _{n\rightarrow \infty } \sum _{k \le a } \binom {n}{k}p_n^k(1 - p_n)^{n-k} = \lim _{n\rightarrow \infty } F_{B(n,p_n)}(a).\]

  \(\Box \)

  • Twierdzenie – 10.7 \(X_1,X_2, X_3, \dots \), \(X\) – zmienne losowe. Zachodzą implikacje:

    • 1. \(X_n \stackrel {1}{\longrightarrow } X \imp X_n \stackrel {s}{\longrightarrow } X\).

    • 2. \(X_n \stackrel {s}{\longrightarrow } X \imp X_n \stackrel {d}{\longrightarrow } X\).

    • 3. \(X_n \stackrel {d}{\longrightarrow } X\), \(X \equiv c \in \r \imp X_n \stackrel {s}{\longrightarrow } X\).

Dowód.

Ad 1. Niech \(A = \{\o \in \Omega : X_n(\o ) \to X(\o ), n \to \infty \}\). Z założenia wiemy, że \(P(A) = 1\). Ustalmy \(\ve > 0\). Wiemy, że \(A \subset A_\ve \), gdzie \(\di A_\ve = \bigcup _{N+1}^\infty A_{\ve N}\), gdzie \(A_{\ve N} = \{\o : |X_n(\o ) - X(\o )| < \ve , \mbox {dla } n \ge N\}\). Zbiory \(A_{\ve N}\) tworzą ciąg wstępujący. Mamy więc: \(\di 1 = P(A) \le P(A_\ve ) = \lim _{N\to \infty } P(A_{\ve N}) \le \lim _{N\to \infty } P(\{\o : |X_N(\o ) - X(\o )| < \ve \})\).   \(\Box \)

Ad 2. Niech \(a\) będzie punktem ciągłości dystrybuanty \(F_X\) i niech \(\varepsilon > 0\) będzie ustalone. Dla każdego \(n\) zachodzą dwie oczywiste inkluzje

\[ \{X \le a - \varepsilon \} \subset \{|X_n - X|\ge \varepsilon \} \cup \{X_n \le a\} \]

oraz

\[ \{X_n \le a\} \subset \{|X_n - X|\ge \varepsilon \} \cup \{X \le a +\varepsilon \}. \]

To oznacza, że

\[ F_X(a-\varepsilon ) \le P(\{|X_n - X|\ge \varepsilon \}) + F_{X_n}(a) \le 2 P(\{|X_n - X|\ge \varepsilon \}) + F_X(a + \varepsilon ). \]

Ponieważ \(P(\{|X_n - X|\ge \varepsilon \}) \longrightarrow 0,\) dla \(n \longrightarrow \infty ,\) więc dla każdego \(\varepsilon > 0\) mamy

\[ F_X(a - \varepsilon ) \le \liminf _n F_{X_n}(a) \le \limsup _n F_{X_n}(a) \le F_X(a +\varepsilon ). \]

Przechodząc z \(\varepsilon \) do zera i korzystając z ciągłości \(F_X\) w punkcie \(a\) otrzymujemy w powyższym wzorze same równości, co oznacza istnienie granicy i równość \(\lim _{n\rightarrow \infty }F_{X_n}(a) = F_X(a).\)   \(\Box \)

Ad 3. Dystrybuanta rozkładu skupionego w jednym punkcie \(c\) jest nieciągła tylko w punkcie \(c\). Weźmy dwa punkty ciągłości dystrybuanty \(F_X\), mianowicie punkty \(c - \varepsilon \) oraz \(c +\varepsilon \), gdzie \(\varepsilon > 0\). Dostajemy

\[ P(\{|X_n - c| \le \varepsilon \}) = P(c - \varepsilon \le X_n \le c + \varepsilon ) \ge P(c - \varepsilon < X_n \le c + \varepsilon ) = \]

\[ F_{X_n}(c + \varepsilon ) - F_{X_n}(c - \varepsilon ) \longrightarrow 1 - 0 =1, \]

co oznacza, że dla każdego \(\varepsilon >0\) mamy \(\lim _{n\rightarrow \infty } P(\{|X_n - c| \le \varepsilon \}) = 1\), a to daje stochastyczną zbieżność \(X_n \) do \(c\).   \(\Box \)

Twierdzenie odwrotne do Twierdzenia 10.7,2 nie jest prawdziwe.

  • Przykład – 10.8 Niech \(X\) oraz \(Y\) będą dwiema niezależnymi próbami Bernoulliego o prawdopodobieństwie sukcesu \(1\over 2\) każda. Ciąg \(X_n = X\) ma w sposób trywialny dystrybuanty zbieżne do dystrybuanty \(F_Y\).

    Z drugiej strony, z niezależności zmiennych losowych \(X\) oraz \(Y\), \(P(|X_n - Y| \ge 1) = \frac {1}{2},\) więc \(X_n\) nie są zbieżne stochastycznie do \(Y\).

Twierdzenie odwrotne do Twierdzenia 10.7,1 nie jest prawdziwe.

  • Przykład – 10.9 Niech \((\Omega ,\Sigma ,P)\) będzie przestrzenią probabilistyczną taką, że \(\Omega = [0,1]\), \(\Sigma \) składa się ze zbiorów borelowskich zawartych w odcinku \([0,1]\), a \(P\) jest miarą Lebesgue’a na tym odcinku. Rozważamy ciąg zmiennych losowych \(X_{11},X_{21},X_{22},X_{31},\dots \), zdefiniowanych na \(\Omega \) w sposób następujący:

    \[ X_{kl}(\omega ) = \left \{ \begin {array}{ll} 1, & \mbox { dla } \frac {l-1}{k} < \omega \le \frac {l}{k}\\ 0, & \mbox { dla pozostaÅĆych } \omega , \end {array} \right . \]

    gdzie \(k=1,2,3,\dots ,\;l=1,\dots k\). Zobacz sam.

    Dla dowolnego \(0<\varepsilon <1\) widzimy, że \(P(|X_{kl}|\ge \varepsilon ) = \frac {1}{k}\). Tak więc nasz ciąg jest zbieżny stochastycznie do 0.

    Dla każdego ustalonego \(\omega \) ciąg \(X_{kl}(\omega )\) zawiera nieskończenie wiele zer i nieskończenie wiele jedynek, więc nie jest ciągiem zbieżnym. Tym bardziej ciąg \(X_{kl}\) nie jest zbieżny prawie wszędzie do żadnej granicy.

Rachunek prawdopodobieństwa — Mocne Prawa Wielkich Liczb

(image)

Rachunek prawdopodobieństwa 1, 2

10.2 Mocne Prawa Wielkich Liczb

Celem tego punktu jest przedstawienie Mocnego Prawa Wielkich Liczb, które jest odpowiednikiem Słabego Prawa Wielkich Liczb i opiera się na pojęciu zbieżności z prawdopodobieństwem 1. Pierwszym krokiem będzie nierówność Kołmogorowa, która w pewnym szczególnym przypadku wzmacnia nierówność Czebyszewa.

  • Twierdzenie – 10.10 (Nierówność Kołmogorowa) Niech \(X_1,X_2,X_3, \dots \) będą niezależnymi zmiennymi losowymi, \(E(X_i) \in \r \), dla \(i = 1,2,3,\dots \). Ustalmy \(\ve > 0\). Wtedy

    \[ \forall n \ge 1 \, \, P\left (\max _{1 \le k \le n}|S_k - E(S_k)| \ge \ve \right ) \le \frac {D^2(S_n)}{\ve ^2}. \]

Uwaga. Z nierówności Czebyszewa wynika istotnie mniej, mianowicie:

\[ P\left (|S_n - E(S_n)| \ge \ve \right ) \le \frac {D^2(S_n)}{\ve ^2}. \]

Tymczasem:

\[ \{|S_n - E(S_n)| \ge \ve \} \subset \bigcup _{k=1}^n \{|S_k - E(S_k)| \ge \ve \} = \{\max _{1 \le k \le n}|S_k - E(S_k)| \ge \ve \} \]

Dowód. Bez straty ogólności zakładamy, że wszystkie \(E(X_i) = 0\). Definiujemy zdarzenia: \(\di A = \{\max _{1 \le k \le n}|S_k| \ge \ve \}\) oraz

\(\di A_1 = \{|S_1| \ge \ve \}\). \(\di A_k = \{|S_i| < \ve , i = 1,2,, \dots , k - 1, |S_k| \ge \ve \}\), dla \(k = 2, \dots , n\). Widać, że: \(\di A = \bigcup _{k=1}^n A_k\), oraz \(A_i \cap A_j = \emptyset \) dla \(i\neq j\).

Szacujemy:

\(\di D^2(S_n) = \int _\Omega S_n^2 \,dP \ge \int _A S_n^2 \,dP = \sum _{k=1}^n \int _{A_k} S_n^2 \,dP\).

Ale \(\di S_n = S_k + Y_k\). Zauważmy najpierw, że::

\(\di \int _{A_k} S_kY_k \,dP = \int _{\Omega } I_{A_k} S_k Y_k \,dP = E(I_{A_k}S_k \cdot Y_k) = E(I_{A_k}S_k) \cdot E(Y_k) = 0\), gdyż zmienne losowe \(I_{A_k}S_k\) oraz \(Y_k\) są niezależne jako funkcje wektorów niezależnych.

\(\di \int _{A_k} S_n^2 \,dP = \int _{A_k} (S_k +Y_k)^2 \,dP = \int _{A_k} S_k^2 \,dP + 2\int _{A_k} S_kY _k \,dP + \int _{A_k} Y_k^2 \,dP \ge \int _{A_k} S_k^2 \,dP \ge P(A_k) \ve ^2\), z określenia zdarzenia \(A_k\). Ostatecznie: \(\di D^2(S_n) \ge \sum _{k=1}^nP(A_k)\ve ^2 = P(A) \ve ^2\).   \(\Box \)

  • Twierdzenie – 10.11 (Zbieżność szeregu) Niech \(X_1,X_2,X_3, \dots \) będzie ciągiem niezależnych zmiennych losowych, takich, że:

    \[ \sum _{i=1}^\infty D^2(X_i) < \infty . \]

    Wtedy

    \[ \sum _{i=1}^\infty (X_i - E(X_i))\]

    jest zbieżny z prawdopodobieństwem 1.

Dowód. Bez straty ogólności zakładamy, że \(E(X_i) = 0\). Wystarczy pokazać, że dla każdego \(\omega \) ze zbioru, którego prawdopodobieństwo = 1 spełniony jest warunek Cauchy’ego zbieżności sum częściowych \(S_n(\omega )\) . Chcemy więc pokazać, że:

\[ P\left (\bigcap _{\ve > 0 }\bigcup _N \bigcap _{k,l \ge N} \{\o : |S_k(\o ) - S_l(\o )| < \ve \} \right ) =1. \]

Wystarczy więc pokazać, że:

\[ \forall \ve > 0 \ P\left (\bigcup _N \bigcap _{k,l \ge N} |S_k - S_l| < \ve \right ) =1. \]

Oznaczmy:

\[ A_{N,\ve } = \bigcap _{k,l \ge N} \{|S_k - S_l| < \ve \}, \ \ B_{N,\ve } = \bigcap _{k \ge 1} \{|S_{N+k} - S_N| < \ve \}. \]

Ponieważ zbiory \(A_{N,\ve }\) tworzą ciąg wstępujący, więc wystarczy pokazać, że:

\[ \forall \ve > 0 \lim _{N \to \infty }P(A_{N,\ve }) = 1. \]

Ponieważ \(|S_k - S_l| \le |S_k - S_N| + |S_l - S_N|\), to \(B_{N,\frac {\ve }{2}} \subset A_{N,\ve }\). Wystarczy więc wykazać, że:

\(\di \forall \ve > 0 \lim _{N \to \infty }P(B_{N,\ve }) = 1. \)

Ustalmy \(\ve > 0\) oraz \(N < M\). Teraz, z Nierówności Kołmogorowa:

\[\di P \left ( \bigcup _{k=1}^M |S_{N+k} - S_N| \ge \ve \right ) = P(\max _{1\le k \le M}|S_{N+k} - S_N| \ge \ve ) \le \frac {D^2(S_M - S_N)}{\ve ^2}. \]

Inaczej:

\[\di P \left ( \bigcup _{k=1}^M |S_{N+k} - S_N| \ge \ve \right ) \le \frac {1}{\ve ^2}\sum _{k=N+1}^M D^2(X_k).\]

Niech \(M \to \infty \). Wtedy lewa strona ma granicę (ciąg zbiorów wstępującyh) \(\di P \left ( \bigcup _{k=1}^\infty |S_{N+k} - S_N| \ge \ve \right )\), a prawa strona ma granicę \(\di \frac {1}{\ve ^2}\sum _{k=N+1}^\infty D^2(X_k)\). Zachodzi więc też nierówność:

\(\di P \left ( \bigcup _{k=1}^\infty |S_{N+k} - S_N| \ge \ve \right ) \le \frac {1}{\ve ^2}\sum _{k=N+1}^\infty D^2(X_k)\).

Niech \(N \to \infty \). Wtedy prawa strona, a więc i lewa strona dążą do zera.

Ponieważ \(\di \Omega \setminus B_{N,\ve } = \bigcup _{k=1}^\infty \left \{|S_{N+k} - S_N| \ge \ve \right \}\), otrzymujemy żądaną tezę:

\[ \forall \ve > 0 \lim _{N \to \infty }P(B_{N,\ve }) = 1. \]

  \(\Box \)

  • Przykład – 10.12 Zbadamy zbieżność szeregu \(\di \sum _{n=1}^\infty \frac {a_n}{n}\), gdzie \(a_n\) są niezależnymi zmiennymi losowymi o wspólnym rozkładzie: \(P(a_n = -1 ) = \frac {1}{2}\), \(P(A_n = 1) = \frac {1}{2}\). Ponieważ \(D^2\left (\frac {a_n}{n}\right ) = \frac {D^2(a_n)}{n^2} = \frac {\frac {1}{4}}{n^2}\), to szereg \(\di \sum _{n=1}^\infty D^2\left (\frac {a_n}{n}\right )\) jest zbieżny. Z powyższego twierdzenia wynika, że \(\di \sum _{n=1}^\infty \frac {a_n}{n}\) jest zbieżny z prawdopodobieństwem 1.

W dalszej części będziemy korzystać z dwóch faktów z analizy matematycznej.

  • Lemat – 10.13 (Toeplitz) Niech \(\{x_n\}_{n=1}^\infty \subset \r \), \(x \in \r \). Wtedy

    \[ \lim _{n\to \infty } x_n = x \imp \lim _{n\to \infty } \frac {1}{n} \sum _{i=1}^n x_i = x. \]

Dowód. Niech \(\ve >0\). Istnieje takie \(n_1\), że dla \(n \ge n_1\) \(|x_n - x| < \frac {\ve }{2}\). Istnieje takie \(n_0 > n_1\), że dla \(\di n \ge n_0\) \(\frac {1}{n} \sum _{i=1}^{n_1}|x_i - x| < \frac {\ve }{2}\). Niech \(n\ge n_0\). \(\di \left | \frac {1}{n} \sum _{i=1}^n x_i - x \right | \le \frac {1}{n}\sum _{i=1}^{n_1}|x_i - x | + \frac {1}{n}\sum _{i=n_1+1}^{n}|x_i - x | \le \frac {\ve }{2} + \frac {n-n_1}{n} \frac {\ve }{2} \le \ve \)   \(\Box \)

  • Lemat – 10.14 (Kronecker) Niech \(\{x_n\}_{n=1}^\infty \subset \r \) Wtedy: Szereg \(\di \sum _{i=1}^\infty x_i\) jest zbieżny. \(\imp \di \lim _{n\to \infty } \frac {1}{n} \sum _{i=1}^n i x_i = 0\).

Dowód. Oznaczmy: \(s_0 = 0\), \(s_n = x_1 + \dots + x_n\). Wtedy. \(\di \sum _{i=1}^n i x_i = s_1 - s_0 + 2(s_2 - s_1) + \dots + n(s_n - s_{n-1}) = \) \(= -s_0 - s_1 - s_2 - \dots - s_{n-1} + ns_n = - \sum _{i=1}^ns_{i-1} + n s_n\).

Niech \(\di s = \sum _{i=1}^\infty x_i\). Z Lematu Toeplitza:

\(\di \frac {1}{n} \sum _{i=1}^n i x_i = -\frac {1}{n} \sum _{i=1}^ns_{i-1} + s_n \to - s + s = 0 \).   \(\Box \).

Jesteśmy przygotowani do dowodu jednego z dwóch głównych twierdzeń tego punktu.

  • Twierdzenie – 10.15 (Mocne Prawo Wielkich Liczb, MPWl) Niech \(X_1,X_2,X_3, \ldots \) będzie ciągiem niezależnych zmiennych losowych.

    Niech \(S_n = X_1+X_2 + \ldots + X_n\).

    Niech szereg \(\di \sum _{n=1}^\infty \frac {D^2(X_n)}{n^2}\) będzie zbieżny.

    Wtedy:

    \[ \frac {S_n- E(S_n)}{n} \stackrel {1}{\longrightarrow } 0. \]

Dowód.

Korzystamy z twierdzenia o zbieżności szeregu oraz z Lematu Kroneckera.

Ponieważ szereg \(\di \sum _{i=1}^\infty D^2\left (\frac {X_i- E(X_i)}{i} \right ) = \sum _{i=1}^\infty D^2\left (\frac {X_i}{i} \right )\) jest zbieżny, więc szereg \(\di \sum _{i=1}^\infty \frac {X_i- E(X_i)}{i}\) jest zbieżny z prawdopodobieństwem 1.

Ale w takim razie: \(\di \frac {S_n- E(S_n)}{n} = \frac {1}{n}\sum _{i=1}^n i \frac {X_i- E(X_i)}{i} \stackrel {1}{\longrightarrow } 0\)   \(\Box \)

Założenie o wariancjach można opuścić, gdy się założy, że wszystkie zmienne losowe mają ten sam rozkład, czyli są i.i.d (independent, identically distributed)

  • Twierdzenie – 10.16 (Mocne Prawo Wielkich Liczb dla i.i.d.) Niech \(X_1,X_2,X_3, \ldots \) będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie i skończonej wartości oczekiwanej \(m\).

    Niech \(S_n = X_1+X_2 + \ldots + X_n\).

    Wtedy

    \[ \frac {S_n}{n} \stackrel {1}{\longrightarrow } m. \]

Dowód polega na zastąpieniu ciągu \(\{X_n\}\) innym ciągiem, który spełnia założenia poprzedniego twierdzenia, ale ma średnie tak samo zbieżne jak średnie \(\{X_n\}\).

Wykażemy jednak wcześniej dwa pomocnicze lematy i przypomnimy podstawowe twierdzenie o zbieżności całek.

Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(A_1, A_2,A_3, \dots \in \Sigma \). Interesuje nas zbiór:

\[A =\bigcap _{n=0}^\infty \bigcup _{i=n }^\infty A_i. \]

Zauważmy, że:

\(\o \in A \ \rwn \ \o \) należy do nieskończenie wielu spośród zdarzeń \(A_i\).

  • Lemat – 10.17 (Lemat Borel-Cantelli)

    (1) Jeżeli \(\di \sum _{i=1}^\infty P(A_i) < \infty \), to \(P(A) = 0\).

    (2) Jeżeli \(\di \sum _{i=1}^\infty P(A_i) = \infty \) oraz \(A_1, A_2,A_3, \dots \) są niezależne, to \(P(A) = 1\).

Dowód. Ad 1. Dla każdego \(n\) \(\di P(A) \le P\left (\bigcup _{i=n }^\infty A_i\right ) \le \sum _{i=n}^\infty P(A_i)\). Ponieważ jednak szereg \(\di \sum _{i=1}^\infty P(A_i)\) jest zbieżny, to jego „końcówka"\(\di \sum _{i=n}^\infty P(A_i) \to 0\), gdy \(n \to \infty \). Stąd \(P(A) = 0\).

Ad 2. Zauważmy najpierw że korzystając z założenia o niezależności oraz ze standardowej nierówności \(1+x \le e^x \forall x \in \r \), otrzymujemy dla wszystkich \(n < m\):

\[\di P\left (\bigcap _{i=n}^m(\Omega \setminus A_i)\right ) = \prod _{i=n}^m P(\Omega \setminus A_i) = \prod _{i=n}^m (1 - P( A_i)) \le \prod _{i=n}^m e^{- P(A_i)} = e^{-\sum _{i=n}^m P(A_i)}. \]

Ponieważ szereg \(\di \sum _{i=1}^\infty P(A_i)\) jest rozbieżny, więc dla każdego ustalonego \(n\):

\[ P\left (\bigcap _{i=n}^\infty (\Omega \setminus A_i)\right ) = \lim _{m \to \infty } P\left (\bigcap _{i=n}^m(\Omega \setminus A_i)\right ) \le \lim _{m \to \infty }e^{-\sum _{i=n}^m P(A_i)} =0. \]

i stąd kolejno:

\[ P\left (\bigcup _{i=n}^\infty A_i\right ) = 1 \mbox { oraz } P\left ( \bigcap _{n=1}^\infty \bigcup _{i=n}^\infty A_i \right ) = 1. \]

  \(\Box \)

  • Lemat – 10.18 Niech \(Y\) będzie zmienną losową nieujemną, czyli \(P(Y \ge 0) = 1\). Wtedy

    \[ \sum _{n=1}^\infty P(Y \ge n) \le E(Y) \le 1 + \sum _{n=1}^\infty P(Y \ge n). \]

Dowód. Udowodnimy pierwszą nierówność. Dowód drugiej (ćwiczenie). Mamy kolejno:

\[ \sum _{n=1}^\infty P(Y \ge n) = \sum _{n=1}^\infty \sum _{k=n}^\infty P(k \le Y < k+1) = \]

\[ \sum _{k=1}^\infty \sum _{n=1}^k P(k \le Y < k+1) = \sum _{k=1}^\infty k P(k \le Y < k+1)= \]

\[ \sum _{k=0}^\infty \int _{\{k \le Y < k+1 \}} k\,dP \le \sum _{k=0}^\infty \int _{\{k \le Y < k+1 \}} Y\,dP = E(Y). \]

  \(\Box \)

Przypominamy podstawowe twierdzenie o przechodzeniu do granicy pod znakiem całki.

  • Twierdzenie – 10.19 (Twierdzenie Lebesgue’a) Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(X_1, X_2, X_3, ...\), \(X\), \(Z\) zmiennymi losowymi określonymi na \(\Omega \).

    • 1. \(0 \le X_1 \le X_2 \le X_3 \le ... \) p.w., \(X_n \stackrel {1}{\str } X \imp E(X_n) \nearrow E(X)\).

    • 2. \(|X_n| \le Z\), \(E(Z) \in \r \), \(X_n \stackrel {1}{\str } X \imp E(X_n) \str E(X)\).

Wracamy do Mocnego Prawa Wielkich Liczb.

Dowód. Definiujemy nowe zmienne losowe:

\[ Y_n = \left \{ \begin {array}{ll} X_n, & \mbox { gdy } |X_n| < n\\ 0, & \mbox { gdy } |X_n| \ge n \end {array} \right . \]

Wykażemy najpierw, że ciąg \(\{Y_n\}\) spełnia założenia Mocnego Prawa Wielkich Liczb, Twierdzenie 10.15. Zauważmy najpierw, że: \(\di Y_n = I_{\{|X_n| < n\}} \cdot X_n \) gdzie \(I_A\) oznacza funkcję charakterystyczną (indykator) zbioru \(A\). W związku z tym zmienne losowe \(Y_n\) są niezależne jako funkcje zmiennych losowych niezależnych.

Wykażemy, że \(\di \sum _{n=1}^\infty \frac {D^2(Y_n)}{n^2} < \infty \). Mamy kolejno:

\[ \sum _{n=1}^\infty \frac {D^2(Y_n)}{n^2} \le \sum _{n=1}^\infty \frac {E(Y^2_n)}{n^2} = \sum _{n=1}^\infty \frac {1}{n^2} E(I_{\{|X_n| < n\}} \cdot X_n^2) = \]

\[ \sum _{n=1}^\infty \frac {1}{n^2} E(I_{\{|X_1| < n\}} \cdot X_1^2) = \sum _{n=1}^\infty \frac {1}{n^2} \sum _{k=1}^n E(I_{\{k-1 \le |X_1| < k\}} \cdot X_1^2) = \]

\[ \sum _{k=1}^\infty E(I_{\{k-1 \le |X_1| < k\}} \cdot X_1^2) \sum _{n=k}^\infty \frac {1}{n^2} \le \]

\[ \sum _{k=1}^\infty E(I_{\{k-1 \le |X_1| < k\}} \cdot |X_1|)\cdot k \cdot (\frac {1}{k} + \frac {1}{k^2}) \le \sum _{k=1}^\infty 2 E(I_{\{k-1 \le |X_1| < k\}}\cdot |X_1|) = 2E(|X_1|) < \infty . \]

Skorzystaliśmy tutaj z nierówności:

\[\di \sum _{n=k}^\infty \frac {1}{n^2} \le \frac {1}{k^2} + \frac {1}{k(k+1)} + \frac {1}{(k+1)(k+2)} + \dots = \frac {1}{k^2} + \frac {1}{k}.\]

Wykazaliśmy więc, że zmienne losowe \(Y_N\) spełniają Mocne Prawo Wielkich Liczb. Czyli:

(MPL) \(\di \frac {\sum _{i=1}^n Y_i - \sum _{i=1}^n E(Y_i)}{n} \stackrel {1}{\longrightarrow } 0\).

Niech \(A_n = \{X_n \neq Y_n\}\). Oczywiście \(A_n \subset \{|X_n| \ge n \}\). Mamy więc:

\[ \sum _{n=1}^\infty P(A_n) \le \sum _{n=1}^\infty P(|X_n| \ge n) = \sum _{n=1}^\infty P(|X_1| \ge n) \le E(|X_1|) < \infty . \]

Z Lematu Borela-Cantellego \(\di P\left (\bigcap _{n=0}^\infty \bigcup _{i=n }^\infty A_i\right ) = 0\). Czyli \(\di P\left (\bigcup _{n=0}^\infty \bigcap _{i=n }^\infty \{X_i = Y_i\}\right ) = 1\). Inaczej: \(\di P(X_i = Y_i\), dla prawie wszystkich \(i ) = 1\).

W szczególności:

(B-C) \(\di \frac {\sum _{i=1}^n X_i}{n} - \frac {\sum _{i=1}^n Y_i}{n} \stackrel {1}{\longrightarrow } 0\).

Zauważmy też, że:

(L+T) \(\di \frac {1}{n}\sum _{i=1}^n E(Y_i) \longrightarrow m \).

Rzeczywiście, korzystając z Twierdzenia Lebesgue’a wiemy, że \(\di E(I_{\{|X_1| <i \}}X_1) \to m \), gdy \(i \to \infty \). Mamy więc \(\di \frac {1}{n}\sum _{i=1}^n E(Y_i) = \frac {1}{n}\sum _{i=1}^n E(I_{\{|X_i| <i \}}X_i) = \frac {1}{n}\sum _{i=1}^n E(I_{\{|X_1| <i \}}X_1) \to m\), co wynika z Lematu Toeplitza.

Wykorzystując kolejno (B-C), (MPL) oraz (L+T), mamy:

\[ \frac {\sum _{i=1}^n X_i}{n} = \frac {\sum _{i=1}^n X_i}{n} - \frac {\sum _{i=1}^n Y_i}{n} + \frac {\sum _{i=1}^n Y_i - \sum _{i=1}^n E(Y_i)}{n} + \frac {1}{n}\sum _{i=1}^n E(Y_i)\]

\[\stackrel {1}{\longrightarrow } 0 + 0 + m = m. \]

  \(\Box \)

Jako natychmiastową konsekwencję mocnego prawa wielkich liczb otrzymujemy:

  • Wniosek – 10.20

    • 1. Niech \(X_1,X_2,X_3, ...\) będzie niezależnym ciągiem prób Bernoulliego o prawdopodobieństwie sukcesu \(p\) (\(X_i \sim B(1,p)\)). Wtedy

      \[ \frac {S_n}{n} \stackrel {1}{\longrightarrow } p. \]

    • 2. Niech \(A \in \Sigma \) i niech \(X_1,X_2,X_3, ...\) będzie niezależnym ciągiem prób Bernoulliego o prawdopodobieństwie sukcesu \(p = P(A)\). Wtedy

      \[ \frac {S_n}{n} \stackrel {1}{\longrightarrow } P(A). \]

Komentarz, Przybliżone wyznaczanie nadziei

W wielu przypadkach chcemy poznać nadzieję matematyczną \(m = E(X)\) zmiennej losowej \(X\), ale analitycznie jest to trudne lub niemożliwe. Tymczasem, zarówno słabe prawo wielkich liczb jak i pośrednio centralne twierdzenie graniczne mówią, że \(m\) jest przybliżana w określonym sensie przez średnie \(\frac {S_n}{n}\) ciągu niezależnych zmiennych losowych \(X_1, ..., X_n\) mających ten sam rozkład co zmienna losowa \(X\).

Niekiedy potrafimy generować na komputerze wielkości \(x_1, ... x_n\), które można traktować jako niezależne realizacje zmiennej \(X\), czyli \(x_1 = X_1(\o ), ..., x_n = X_n(\o )\) dla pewnego \(\o \in \Omega \), gdzie \(X_1, ..., X_n\), są niezależnymi zmiennymi losowymi mającymi taki sam rozkład jak \(X\).

Właśnie z mocnego prawa wielkich liczb wynika, że prawie zawsze dla dużych \(n\) średnia \(\di \hat {x_n} = \frac {\sum _{i=1}^nx_i}{n}\) będąca realizacją \(\di \frac {S_n}{n}\) jest blisko \(m\).

Dla każdego zdarzenia \(A\) jego prawdopodobieństwo \(P(A)\) jest równe wartości oczekiwanej \(E(I_A)\), gdzie \(I_A\) jest funkcją charakterystyczną zbioru \(A\). W związku z tym mocne prawo wielkich liczb może być użyte także do szacowania \(P(A)\) przy pomocy komputera.

Konkluzja. Aby wyznaczyć przybliżaną wartość nadziei matematycznej \(m = E(X)\) zmiennej losowej \(X\) (prawdopodobieństwo zdarzenia \(A\)) wystarczy wygenerować odpowiednio dużo niezależnych realizacji tej zmiennej (zmiennej \(I_A\)), a ich średnia jest poszukiwaną wielkością.

Co oznacza zwrot „odpowiednio dużo"będzie częściowo wyjaśnione w trakcie omawiania metod Monte Carlo.

  • Przykład – 10.21 Leon wchodzi do apteki i widzi, że jest dziesiąty, w kolejce oraz, że czynne są cztery okienka obsługujące aktualnie klientów, Jego poprzednie obserwacje wskazują, że jedna osoba jest obsługiwana około 1 – 5 minut (przypuszcza więc, że czas obsługi jednego klienta \(X\) ma rozkład \(N(3,1)\)). Zakłada, że czas podejścia pierwszej osoby z kolejki do zwalnianego okienka ma rozkład jednostajny \(U(0,mt)\), gdzie \(mt\) jest minimalnym czasem obsługi osób aktualnie stojących przy okienkach. Ile czasu spędzi Leon w kolejce?

    Czas oczekiwania Leona \(T\) jest zmienną losową, którą można wyrazić za pomocą sumy i minimów innych zmiennych losowych i w tej sytuacji trudno jest wyznaczyć bezpośrednio jej nadzieję. Można jednak łatwo wygenerować, powiedzmy 10 000 niezależnych realizacji zmiennej \(T\). Ich średnia przybliża średni czas oczekiwania naszego klienta. W kilku wykonanych próbach średnie te wynosiły: 7.55012877309712, 7.52607461327209, 7.52962450258854, 7.53444237897340, 7.52881780301394. Wynik ten można było z pewnym przybliżeniem przewidzieć. Gdyby w aptece było czynne tylko jedno okienko i musiało ono obsłużyć 9 klientów stojących przed Leonem, a wcześniej skończyć obsługę poprzedniego klienta, to zajęłoby to średnio 1.5 + 27 = 28.5 minut. Gdy są czynne 4 okienka, to obsługa trwa około 4 razy krócej.

  • Przykład – 10.22 Oszacujmy prawdopodobieństwo zbioru \(A\) występującego w nierówności Kołmogorowa:

    \[ A = \{\max _{1 \le k \le n}|S_k - E(S_k)| \ge \ve \}. \]

    Założymy tutaj, że \(S_k = X_1 + ... + X_k\), gdzie \(X_1, ..., X_n\) są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, a \(\ve \) oraz \(n\) są znane. Przy okazji przybliżymy (łatwiejsze do wyliczenia analitycznie) prawdopodobieństwo \(P(A_n)\), gdzie

    \[ A_n = \{|S_n -E(S_n)| \ge \ve \} \]

    oraz wartość prawej strony nierówności Kołmogorowa: \(\frac {D^2(S_n)}{\ve ^2}.\)

Ponieważ chcemy znaleźć wartości średnie \(E(I_A)\) oraz \(E(I_{A_n})\) będziemy generować \(N\) realizacji zmiennych losowych \(I_A\) oraz \(I_{A_n}\) i wyliczać ich średnie. Przykładowo otrzymaliśmy:

Gdy \(X_i\) mają rozkład jednostajny \(U(-3,5)\), \(n = 10\), \(\ve = 15\), \(N= 100\):
\(P(A) \cong \frac {3}{100}\), \(P(A_n) \cong \frac {2}{100}\), \(\frac {D^2(S_n)}{\ve ^2} = \frac {32}{135}\).

Gdy \(X_i\) mają rozkład Poissona \(P_5\), \(n = 200\), \(\ve = 40\), \(N= 100\):
\(P(A) \cong \frac {32}{100}\), \(P(A_n) \cong \frac {16}{100}\), \(\frac {D^2(S_n)}{\ve ^2} = \frac {5}{8}\)

Gdy \(X_i\) mają rozkład normalny \(N(0,2)\), \(n = 200\), \(\ve = 70\), \(N= 1000\):
\(P(A) \cong \frac {29}{1000}\), \(P(A_n) \cong \frac {17}{1000}\), \(\frac {D^2(S_n)}{\ve ^2} = \frac {8}{49}\).

Mocne Prawo Wielkich Liczb ma szereg innych ważnych konsekwencji. W szczególności stanowi podstawę całej statystyki. O jego kluczowym znaczeniu w metodach Monte Carlo powiemy jeszcze więcej później. Teraz podamy pewne inne zastosowanie.

  • Przykład – 10.23 Definiujemy ciąg ciąg; \(x_0 = 1\), \(x_{n+1}\) – liczba wylosowana zgodnie z rozkładem \(U(0,2x_n)\), \(n = 0,1,2,3, \dots \). Badamy jego zbieżność.

    Niech \(X_n\) oznacza zmienną losową, której realizacją jest \(x_n\).

    \(X_0 := 1, \ \ X_1 := 2 X_0 \cdot U_1 =2 U_1, \ \ X_2 := 2 X_1\cdot U_2 = 2^2 U_1\cdot U_2, ...\)

    \(X_n = 2^nU_1\cdot \dots \cdot U_n,\), gdzie \(U_1,...U_n\) i.i.d. o rozkładzie \(U(0,1)\), a więc:

    \[\ln X_n = n\ln 2 + \sum _{i=1}^n \ln U_i = \sum _{i=1}^n (\ln 2 + \ln U_i).\]

    Łatwo obliczyć (ćwiczenie), że \(m = E(\ln 2 + \ln U_i) = \ln 2 - 1 < 0\).

    Stąd, oznaczając \(Y_i = \ln 2 + \ln U_i\), mamy: \(X_n = e^{\sum _{i=1}^nY_i} = e^{n\frac {1}{n}\sum _{i=1}^nY_i}\).

    MPWL zapewnia, że \(\frac {1}{n}\sum _{i=1}^nY_i \to m < 0\) w prawie każdym punkcie, a więc \(X_n \stackrel {1}{\to } 0\).

Komentarz. Ze zbieżności \(X_n\stackrel {1}{\to } X\) nie zawsze wynika zbieżność \(E(X_n) \to E(X)\). Taką zbieżność gwarantuje Twierdzenie Lebesgue’a, o ile jednak są spełnione pewne założenia. Poniższy przykład dotyczy sytuacji, gdy nie są one spełnione.

W powyższym przykładzie:

\(E(X) = 0 \). Zauważmy też (indukcja), że \(E(X_n) = E(X_0) = 1\).

Ciąg \(X_n\) nie jest monotoniczny. Trudno byłoby też wskazać funkcję sumowalną ograniczającą wszystkie \(X_n\) z góry, gdyż nie mogą być one ograniczone od góry przez żadną stałą:

Niech \(A_i = \{\o : U_i(\o ) > \frac {3}{4}\}\). Wtedy \(X_n(\o ) > (\frac {3}{2})^n\) na zbiorze \(\bigcap _{i=1}^nA_i\).

Ponieważ jak widzimy, nie jest spełniona teza Twierdzenia Lebesgue’a, to faktycznie nie istnieje funkcja sumowalna ograniczająca z góry wszystkie \(X_n\).

Przy okazji zauważmy, że: \(D^2(X_n) = E(X_n^2) - E(X_n)^2 = E((2^nU_1\cdot \dots \cdot U_n)^2) - 1 = 4^nE(U_1^2)^n - 1 = \left (\frac 43\right )^n - 1\).

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

10.3 Pytania

  • Pytanie 10.1 Wykaż Uwagę 10.1

Wskazówka. Niech \(B \in \b (\rn )\). Wtedy \(X^{-1}(B) = (X^{-1}(B)\cap \{X = Y\}) \cup (X^{-1}(B)\cap \{X \neq Y\})\). Stąd \(P(X^{-1}(B)) = P(X^{-1}(B)\cap \{X = Y\})\). Podobnie: \(P(Y^{-1}(B)) = P(Y^{-1}(B)\cap \{X = Y\})\). Wystarczy zauważyć, że \(X^{-1}(B)\cap \{X = Y\}) = Y^{-1}(B)\cap \{X = Y\})\).

  • Pytanie 10.2 Wykaż, że granica stochastycznie zbieżnego ciągu zmiennych losowych jest wyznaczona jednoznacznie p.w.

Wskazówka. Załóżmy, że \(X_n \stackrel {s}{\to } X\) oraz \(X_n \stackrel {s}{\to } Y\). Wykażemy, że \(P(X= Y) = 1\). Ustalmy \(\ve >0\). Z nierówności trójkąta, \(|X - Y| \le |X - X_n| + |Y -X_n|\), widzimy, że \(\{|X - Y| > \ve \} \subset \{|X - X_n| > \frac {\ve }{2} \} \cup \{|Y - X_n| > \frac {\ve }{2} \}\). Stąd \(P(|X - Y| > \ve ) \le P(|X - X_n| > \frac {\ve }{2}) + P(|Y - X_n| > \frac {\ve }{2})\). Gdy \(n \to \infty \) prawa strona zmierza do 0, a stąd. \(P(|X - Y| > \ve ) = 0 \). Czyli dla każdego \(\ve > 0\) \(P(|X - Y| \le \ve ) = 1\). \(\{X = Y\} = \bigcap _{\ve > 0}\{|X - Y| \le \ve \}\).

  • Pytanie 10.3 Niech \(X_1,X_2,X_3, ...\) będzie ciągiem takich niezależnych zmiennych losowych, że \(P_{X_i} = B(1,p_i)\) dla \(i = 1,2,3, ...\). Wykazać, że:

    (1) \(X_n \stackrel {s}{\to } 0 \rwn \lim _{n \to \infty } p_n = 0\).

    (2) \(X_n \stackrel {1}{\to } 0 \rwn \sum _{n =1}^\infty p_n < \infty \).

Wskazówka. Ad (1). Niech \(\ve < 1\). Wtedy \(\{|X_n| \ge \ve \} = \{X_n = 1\}\)

Ad (2). \(\{X_n \to 0\} = \Omega \setminus \bigcap _N\bigcup _{n \ge N}\{X_n = 1\}\). Stosuje się Lemat Borela-Cantellego do zdarzeń \(A_n = \{X_n=1\}\), gdyż \(X_n \stackrel {1}{\to } 0 \rwn P(A) = 0\).

  • Pytanie 10.4 Niech \(X_n \stackrel {s}{\to } X\) i niech \(f :\r \to \r \) będzie funkcją jednostajnie ciągłą. Wykaż, że \(f(X_n) \stackrel {s}{\to } f(X)\). Jak można osłabić założenia, gdy wiemy, że \(X = c \in \r \)?

Wskazówka. Ustalmy \(\ve > 0\) i weźmy takie \(\delta > 0\), że \(|x - y| \le \delta \) implikuje \(|f(x) - f(y)| \le \ve \). W takim razie

\[ P(|X_n - X| \le \delta ) \le P(|f(X_n) - f(X)| \le \ve ) \]

i wystarczy przejść z \(n\) do nieskończoności.

Z dowodu widać, że gdy \(X = c\), lub nawet bardziej ogólnie, gdy \(X\) przyjmuje wartości w zbiorze zwartym, wystarczy założyć, że \(f\) jest ciągła na tym zbiorze.

  • Pytanie 10.5 Niech \(X_n \stackrel {1}{\to } X\) i niech \(f :\r \to \r \). Zaproponuj założenie dotyczące \(f\) gwarantujące, że \(f(X_n) \stackrel {1}{\to } f(X)\).

Wskazówka. Złóżmy, że \(P_X(B) = 0\), gdzie \(B = \{a \in \r : f \mbox { nie jest ciÄĚgÅĆa w } a\}\). Dla dowodu weźmy zbiór \(A = \{\o \in \Omega : X_n(\o ) \to X(\o )\}\). Wtedy dla \(\o \in A \cap (\Omega \setminus X^{-1}(B))\) zachodzi \(f(X_n(\o )) \to f(X(\o ))\), natomiast \(PA \cap (\Omega \setminus X^{-1}(B)) = 1\).

  • Pytanie 10.6 Niech \(X_1,X_2,X_3, ... \) będzie ciągiem niezależnych zmiennych losowych o takim samym rozkładzie. Wykaż, że jeżeli ciąg \(\frac {S_n}{n}\) jest zbieżny z prawdopodobieństwem 1, to zmienne \(X_i\) mają skończoną nadzieję matematyczną \(m\) i \(\frac {S_n}{n} \stackrel {1}{\to } m\).

Wskazówka. Kolejno mamy: \(\frac {X_n}{n} = \frac {S_n}{n} - \frac {S_{n-1}}{n} \stackrel {1}{\to } 0\).

\(\{\frac {X_n}{n} \to 0\} \subset \bigcup _N \bigcap _{n \ge N}\{|X_n| < n\} = \Omega \setminus \bigcap _N \bigcup _{n \ge N}\{|X_n| \ge n\}\).

W związku z tym: \(P\left ( \bigcap _N \bigcup _{n \ge N}\{|X_n| \ge n\} \right ) =0\), więc z Lematu Borela-Cantellego \(\sum _{n=1}P(|X_n| \ge n) < \infty \). Ponieważ nasze zmienne losowe mają ten sam rozkład, to \(P(|X_n| \ge n) = P(|X_1| \ge n)\), więc \(\sum _{n=1}P(|X_1| \ge n) < \infty \). Z Lematu 10.18 otrzymujemy wiadomość, że \(E(|X_1|)\) jest skończona, a więc także \(m = E(X_1)\) jest skończona. MPWL dla i.i.d. kończy dowód.

Rachunek prawdopodobieństwa 2

Rachunek prawdopodobieństwa — Zbiezność rozkladów i funkcje charakterystyczne

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 11 Zbieżność rozkładów i funkcje charakterystyczne

Przypominamy, że zdefiniowaliśmy już zbieżność ciągu dystrybuant, patrz Definicja 10.5:

Niech \(F_n\), \(n = 1,2,3, \dots \), oraz \(F\) będą dystrybuantami.

Zbieżność rozkładów. \(F_n \stackrel {d}{\longrightarrow } F \rwn \)

\[ \forall a \in \r , \mbox { punktu ciÄĚgÅĆoÅŻci } F , \, \lim _{n \to \infty } F_n(a) = F(a).\]

Wtedy: \(X_n \stackrel {d}{\longrightarrow } X \rwn \, F_{X_n} \stackrel {d}{\longrightarrow } F_X. \)

Możemy mówić o zbieżności samych rozkładów. Można postawić następującą definicję.

Niech \(P_n\), \(n = 1,2,3, \dots \), oraz \(P\) będą jednowymiarowymi rozkładami.

  • Definicja – 11.1 (Zbieżność rozkładów)

    \[P_n \stackrel {d}{\longrightarrow } P \ \rwn \ F_{P_n} \stackrel {d}{\longrightarrow } F_P. \]

11.1 Charakteryzacja zbieżności ciągu rozkładów

Okazuje się, że powyżej sformułowana definicja zbieżności ciągu rozkładów może być sformułowana równoważnie na kilka innych sposobów, co nieraz jest wygodne.

Zanim sformułujemy i udowodnimy odpowiednie twierdzenia przytoczymy ważny rezultat pomocniczy.

  • Twierdzenie – 11.2 (twierdzenie o wyborze) Niech \(F_1,\,F_2,\,F_3,\dots \) będzie dowolnym ciągiem dystrybuant. Wtedy istnieje podciąg tego ciągu \(F_{k_1},F_{k_2},F_{k_3},\dots \) oraz funkcja \(F : \r \longrightarrow \r \) taka, że dla każdego \(x\) punktu ciągłości \(F\)

    \[ \lim _{n\rightarrow \infty }F_{k_n}(x) = F(x) \]

    oraz

    • 1. \(0 \le F(x) \le 1\), dla każdego \(x \in \r \),

    • 2. \(F\) jest funkcją niemalejącą: \(x < y \Rightarrow F(x) \le F(y)\),

    • 3. \(F\) jest prawostronnie ciągła: \(\lim _{x\rightarrow a^+} F(x) = F(a)\), dla każdego \(a \in \r \).

Funkcja \(F\) nie musi być dystrybuantą Na przykład, biorąc dystrybuanty rozkładów jednopunktowych, \(F_{\delta _n}\), dla \(n = 1,2,3, \dots \), widzimy, że funkcja \(F = 0\).

Dowód. (szkic) Wybieram dowolny zbiór \(D \subset \r \), który jest przeliczalny i gęsty w \(\r \). Iloczyn kartezjański \([0,1]^D\) jest zbiorem zwartym, bo \([0,1]\) jest zwarty. Zacieśnienia \(F_n|D\) są elementami tego zbioru, więc istnieje podciąg \(k_n\) oraz \(F|D \in [0,1]^D\), takie, że \(\forall x \in D\) \(F_{k_n}(x) \to F|D(x)\), gdy \(n \to \infty \). Określamy: \(\di F : \r \to \r \) przez warunek \(F(x) = \inf \{F|D(y): y > x, y \in D \}\). Można teraz sprawdzić , że \(F\) oraz \(F_{k_n}\) spełniają wszystkie żądane warunki.   \(\Box \)

Niech \(\cal P\) oznacza ustaloną rodzinę rozkładów.

  • Definicja – 11.3 (warunek Prochorowa) Mówimy, że \(\cal P\) spełnia warunek Prochorowa (rodzina \(\cal P\) jest ścisła) \(\rwn \forall \ \ve > 0 \ \exists \ K \, {\rm zwarty} \subset \r \ \forall \ P \in {\cal P} \ \‚P(K) \ge 1 - \ve \).

Rodzina jednoelementowa \({\cal P} = \{ P \}\) spełnia warunek Prochorowa: dla \(\ve > 0\) dobieramy tak \(a < b\), że \(F_P(a) < \frac {\ve }{2}\) oraz \(F_P(b) > 1 - \frac {\ve }{2}\). Niech \(a' < a\). Wtedy \(P[a',b] \ge P(a,b] = F_P(b) - F_P(a) \ge 1-\ve \).

Łatwo widać, że jeżeli dwie rodziny rozkładów spełniają warunek Prochorowa, to ich suma też spełnia ten warunek. Przez indukcję przenosi się to na skończoną liczbę rodzin rozkładów.

Rodzina rozkładów jednopunktowych \({\cal P } = \{\delta _n: n = 0,1,2, \dots \}\) nie spełnia warunku Prochorowa: dla dowolnego zbioru zwartego \(K\), \(P_{\delta _n}(K) = 0\) dla prawie wszystkich \(n\).

Podobnie rodzina \(\{N(m,1) : m \in \r \}\) oraz rodzina \(\{U(a,b): a < b < 100\}\) nie spełnia warunku Prochorowa. Natomiast rodzina \(\{N(0,\sigma ) : 0 < \sigma < 1 \}\) spełnia ten warunek (ćwiczenie).

  • Twierdzenie – 11.4 Niech \(\{P_n\}\) będzie ciągiem rozkładów, \(P\) rozkładem, takimi, że: \(\forall \ f: \r \to \r \) ciągłej o suporcie zwartym \(\di \int _\r f\,dP_n \to \int _\r f\,dP\), gdy \(n \to \infty \).

    Wtedy rodzina \(\{P_n\}\) spełnia warunek Prochorowa.

Dowód. Niech \(\ve > 0\). Istnieje takie, \(N\), że \(P[-N,N] \ge 1 -\frac {\ve }{2}\). Biorę taką funkcję ciągłą \(g : \r \to \r \), że \(g(x) = 1\) dla \(|x| \le N\), \(g(x) = 0\) dla \(|x | \ge N+1\) oraz \(g\) jest afiniczna na przedziałach \([-N-1, - N]\), \([N, N+1]\). \(\di \int _\r g\,dP \ge \int _\r I_{[-N,N]}dP = P[-N,N] \ge 1 - \frac {\ve }{2}\). Istnieje \(n_0\), takie, że dla \(n \ge n_0\) \(\int _\r g\,dP_n \ge 1 - \ve \). Wtedy

\[ P_n[-N-1,N+1] = \int _\r I_{[-N-1,N+1]} dP_n \ge \int _\r g\,dP_n \ge 1 - \ve . \]

  \(\Box \)

  • Twierdzenie – 11.5 (o względnej zwartości) Niech rodzina \(\cal P\) spełnia warunek Prochorowa. Wtedy dla każdego ciągu \(\{P_n\} \subset {\cal P}\) istnieje podciąg \(k_n\) oraz rozkład \(P\) taki, że \(P_{k_n} \stackrel {d}{\longrightarrow } P\), gdy \(n \to \infty \)

Dowód. Biorę ciąg \(k_n\) oraz funkcję \(F\) z Twierdzenia 11.2 o wyborze zastosowanego do \(F_n = F_{P_n}\). Z monotoniczności \(F\) wynika, że isnieją granice, powiedzmy \(F(-\infty ) = \lim _{x \to - \infty } F(x)\), \(F(\infty ) = \lim _{x \to \infty } F(x)\). Pytamy czy \(F(\infty ) - F(-\infty ) = 1\). Niech \(\ve > 0\). Istnieje zbiór zwarty \(K \subset \r \), taki, że dla każdego \(k_n\) \(P_{k_n}(K) \ge 1 - \ve \). Biorę \(a, b\) – punkty ciągłości \(F\), takie, że \((a,b] \supset K\) (można je znaleźć ). \(F_{k_n}(b) - F_{k_n}(a) = P_{k_n}(a,b] \ge P_{k_n}(K) \ge 1 - \ve \).

W granicy: \(F(b) - F(a) \ge 1 - \ve \). Więc: \(F(\infty ) - F(-\infty ) \ge F(b) - F(a) \ge 1 - \ve \).   \(\Box \)

Naszym celem jest udowodnienie równoważności czterech warunków charakteryzujących na różne sposoby zbieżność ciągu rozkładów, twierdzenie 11.11. Dowód będzie przebiegał etapowo. Na początku wykażemy:

  • Twierdzenie – 11.6 \(P_n \stackrel {d}{\longrightarrow } P \imp \)
    \(\forall a < b\): \(P(a) = P(b) = 0\) \(P_n(a,b] \to P(a,b]\), gdy \(n \to \infty \).

Dowód. Warunek \(P(a) = P(b) = 0\) oznacza, że \(F_P\) jest ciągła w tych punktach, więc \(P_n(a,b] = F_{P_n}(b) - F_{P_n}(a) \to F_P(b) - F_P(a) = P(a,b]\).   \(\Box \)

  • Lemat – 11.7 Niech \(P_1, P_2\) będą rozkładami. Jeżeli dla każdej funkcji \(f :\r \to \r \) ciągłej o suporcie zwartym \(\di \int _\r f\,dP_1 = \int _\r f\,dP_2\), to \(P_1 = P_2\).

Dowód.

Niech \(a < b\). Określamy ciąg funkcji ciągłych:

\[ g_n(x) = \left \{ \begin {array}{lll} 1 & , & \mbox {dla } a + \frac {1}{n} \le x \le b\\ 0 & , & \mbox {dla } x \le a \mbox { lub } x \ge b + \frac {1}{n}\\ \mbox {afiniczna} &, & \mbox {na pozostaÅĆych przedziaÅĆach}. \end {array} \right . \]

Ponieważ \(I_{(a,b]} = \lim _{n\to \infty } g_n\), więc z Twierdzenie Lebesgue’a:

\[ P_1(a,b] = \int _{\bf R}I_{(a,b]}\,dP_1 = \lim _{n\rightarrow \infty } \int _{\bf R}g_n\,dP_1 = \]

\[ \lim _{n\rightarrow \infty } \int _{\bf R}g_n\,dP_2 = \int _{\bf R}I_{(a,b]}\,dP_2 = P_2(a,b]. \]

\(F_{P_1}(b) - F_{P_1}(a) = F_{P_2}(b) - F_{P_2}(a) \) i przechodząc z \(a\) do \(-\infty \) otrzymujemy równość dystrybuant, a więc i rozkładów.   

  • Twierdzenie – 11.8 Jeżeli \(\forall \ a < b\): \(P(a) = P(b) = 0\) \(P_n(a,b] \to P(a,b]\), gdy \(n \to \infty \), to \(\forall \ f : \r \to \r \), \(f\) ciągła i ograniczona,

    \[\di \int _\r f\,dP_n \to \int _\r f\,dP,\]

    gdy \(n \to \infty \).

  • Lemat – 11.9 Zbiór punktów \(\{a \in \r : P(a) > 0\}\) jest co najwyżej przeliczalny.

Jest to uogólnienie twierdzenia mówiącego, że rozkład dyskretny jest skupiony na zbiorze co najwyżej przeliczalnym. Dowód jest ten sam (ćwiczenie).

Dowód Twierdzenia 11.8

Krok I. Ustalam \(a < b\) takie, że \(P(a) = P(b) = 0\) oraz funkcję ciągłą i ograniczoną \(f : [a,b] \to \r \). Wykażemy, że:

\[ \int _a^bf\,dP_n \longrightarrow \int _a^bf\,dP. \]

\(f\) jest jednostajnie ciągła na \([a,b]\), więc korzystając z prostego Lematu:

Dla każdego \(\delta > 0\) istnieje podział \(a = x_0 < x_1 < \dots < x_N = b\) taki, że dla każdego \(k = 1,\dots ,N\) oraz \(x\in [x_{k-1},x_k]\) mamy \(|f(x) - f(x_k)| \le \delta ,\) przy czym P(\(x_0) = \dots = P(x_N) = 0.\)

Ustalamy \(\varepsilon > 0\) i dla \(\delta = {\varepsilon \over 3}\) rozważamy powyższy podział \(a = x_0 < x_1 < \dots < x_N = b\), Zdefiniujmy pomocniczą funkcję \(g\)

\[ g(x) = f(x_k) \;\;\; \mbox { dla } x \in (x_{k-1},x_k], \;\;\;k= 1,\dots ,N. \]

Z nierówności trójkąta otrzymujemy oszacowanie

\[ \left |\int _a^bf\,dP_n - \int _a^bf\,dP\right | \le I_1 + I_2 +I_3, \]

gdzie

\[ I_1 = \int _a^b|f-g|\,dP_n, \;\;\; I_2 = \left |\int _a^bg\,dP_n - \int _a^bg\,dP\right |,\;\;\; I_3 = \int _a^b|f-g|\,dP. \]

Całki \(I_1\) oraz \(I_3\) są szacowane z góry odpowiednio przez \(\delta P_n[a,b]\) oraz \(\delta P[a,b],\) a więc każda z nich jest \(\le \delta .\) Natomiast, ponieważ \(g\) jest funkcją schodkową,

\[ I_2 = \left |\sum _{k=1}^Nf(x_k)P_n(x_{k-1},x_k] - \sum _{k=1}^Nf(x_k)P(x_{k-1}, x_{k}]\right | = \]

\[ \left |\sum _{k=1}^Nf(x_k)[ P_n(x_{k-1},x_k]- P(x_{k-1},x_k]]\right | \]

i zmierza do \(0\), gdy \(n\longrightarrow \infty \), więc jest \(\le \delta \) dla dużych \(n\). Dla takich \(n\)
\(\di \left |\int _a^bf\,dP_n - \int _a^bf\,dP\right | \le \varepsilon . \).

Krok 2. Dowodzimy teraz właściwej tezy. Niech \(M = \sup _{\r } | f |\). Ustalamy \(\varepsilon > 0\) i dobierzmy liczby \(a' < b'\) tak, aby \(P(a') = P(b') = 0\) oraz: \(M\,P({\r }\setminus (a',b') ) <{\varepsilon \over 4}\).

Ponieważ \(P_n(a',b'] \longrightarrow P(a',b'],\) dla \(n\longrightarrow \infty \), bierzemy \(n\) tak duże, że \(M\,P_n({\r }\setminus (a',b'] ) \le {\varepsilon \over 4}\). Niech \(a < a'\) oraz \(b > b'\) będą punktem takimi, że \(P(a) = P(b) = 0\). Mamy teraz

\[ \left |\int _{\r }f\,dP_n -\int _{\r }f\,dP\right | \le \]

\[ \left |\int _a^bf\,dP_n -\int _a^bf\,dP\right | + \left |\int _{{\r }\setminus (a,b)}f\,dP_n -\int _{{\r }\setminus (a,b)}f\,dP\right | \le \]

\[ \left |\int _a^bf\,dP_n -\int _a^bf\,dP\right | + M\,P_n({\r }\setminus (a,b)) + M\,P({\r }\setminus (a,b)) \le \varepsilon , \]

dla dużych \(n\).   

  • Twierdzenie – 11.10 Niech \(\{P_n\}\) będzie ciągiem rozkładów, \(P\) rozkładem takimi, że: \(\forall \ f: \r \to \r \) ciągłej o suporcie zwartym \(\di \int _\r f\,dP_n \to \int _\r f\,dP\), gdy \(n \to \infty \). Wtedy \(P_n \stackrel {d}{\longrightarrow } P\).

Dowód. Z Twierdzenia 11.4 wynika, że ciąg \(\{P_n\}\) spełnia warunek Prochorowa. Z Twierdzenia o względnej zwartości dostajemy podciąg \(k_n\) oraz rozkład, powiedzmy \(Q\), taki, że \(P_{k_n} \stackrel {d}{\longrightarrow } Q\). Z Twierdzenia 11.8 \(\di \int _\r f\,dP_{k_n} \to \int _\r f\,dQ\), Ponieważ także: \(\di \int _\r f\,dP_{k_n} \to \int _\r f\,dP\), więc:

dla każdej funkcji ciągłej o suporcie zwartym zachodzi: \(\di \int _\r f\,dQ = \int _\r f \,dP\).

Z Lematu 11.7, \(Q = P\). Dowodzimy dalej nie wprost. Gdyby \(\sim (P_n \stackrel {d}{\longrightarrow } P)\), to istniałby \(a\) – punkt ciągłości \(F_P\) oraz podciąg \(l_n\) takie, że dla pewnego \(\ve > 0\) \(|F_{l_n} (a) - F_P(a)| \ge \ve \) dla wszystkich \(l_n\). Stosując poprzednie rozumowanie dla ciągu \(P_{l_n}\) otrzymamy jego podciąg, \(P_{m_{l_n}} \stackrel {d}{\longrightarrow } P\), co stanowi sprzeczność.   \(\Box \)

Wykazane poprzednio twierdzenia pozwalają na sformułowanie czterech warunków równoważnych charakteryzujących zbieżność.

Niech \(P_n\) będzie ciągiem rozkładów, \(P\) rozkładem.

  • Twierdzenie – 11.11 (o zbieżności rozkładów) Następujące warunki są równoważne:

    • 1. \(P_n \stackrel {d}{\longrightarrow } P\) ( to znaczy: \(\forall a \in \r \mbox { punktu ciÄĚgÅĆoÅŻci } F_P , \, \lim _{n \to \infty } F_{P_n}(a) = F_P(a).\) ),

    • 2. \(\forall a < b\): \(P(a) = P(b) = 0\) \(P_n(a,b] \to P(a,b]\), gdy \(n \to \infty \).

    • 3. \(\forall \ f: \r \to \r \) ciągłej i ograniczonej \(\di \int _\r f\,dP_n \to \int _\r f\,dP\), gdy \(n \to \infty \).

    • 4. \(\forall \ f: \r \to \r \) ciągłej o suporcie zwartym \(\di \int _\r f\,dP_n \to \int _\r f\,dP\), gdy \(n \to \infty \).

Dowód.

(1) \(\imp \) (2) – Twierdzenie 11.6

(2) \(\imp \) (3) – Twierdzenie 11.8

(3) \(\imp \) (4) – oczywiste.

(4) \(\imp \) (1) – Twierdzenie 11.10   \(\Box \)

Rachunek prawdopodobieństwa — Funkcje charakterystyczne

(image)

Rachunek prawdopodobieństwa 1, 2

11.2 Funkcje charakterystyczne

Zamiast badać zbieżność miar, nieraz łatwiej jest badać zbieżność ich funkcji charakterystycznych zdefiniowanych poniżej. Funkcje charakterystyczne wykorzystywane są także do innych celów.3

Niech \(P\) będzie rozkładem na \(\r \).

  • Definicja – 11.12 Funkcję \(h :\r \longrightarrow \C \) określoną wzorem:

    \[ h(u) = \int _\r e^{iux}\,dP(x) = \int _\r \cos ux\,dP(x) +i\int _\r \sin ux\,dP(x) \]

    nazywamy funkcją charakterystyczną rozkładu \(P\). Oznaczamy, \(h_P\) zamiast \(h\).

Jeżeli rozkład ma dystrybuantę \(F\), to piszemy też \(h_F\) zamiast \(h_P\). Podobnie gdy \(P\) jest rozkładem pewnej zmiennej losowej \(X\), to mówimy o funkcji charakterystycznej zmiennej losowej, mając na myśli funkcję charakterystyczną jej rozkładu. Piszemy wtedy \(h_X\).

W tym ostatnim przypadku mamy:

\[ h_X(u) = E(e^{iuX}) = E(\cos uX) + iE(\sin uX). \]

Niech \(h\) będzie funkcją charakterystyczną pewnego rozkładu. Wtedy:

  • 1. \(\;\;h(0) = 1.\)

  • 2. \(\;\;|h(u)| \le 1\), dla każdego \(u \in {\bf R},\)

  • 3. \(\;\;h\) jest funkcją ciągłą.

    Dla dowolnej zmiennej losowej \(X\) oraz liczb rzeczywistych \(a,b\) mamy

  • 4. \(\;\;h_{aX + b}(u) = e^{iub}\,h_X(au)\).

Dowód. wynika natychmiast z odpowiednich własności całek (ćwiczenie).   \(\Box \)

  • Twierdzenie – 11.13 Niech \(X_1, X_2,\,\dots ,X_n\) będą niezależnymi zmiennymi losowymi. Wtedy

    \[ h_{X_1+\dots +X_n }(u) = h_{X_1}(u)\cdot \dots \cdot h_{X_n}(u). \]

Dowód. \(X_1,X_2,\,\dots ,X_n\) są niezależne, \(e^{iuX_1},\dots ,e^{iuX_n}\) (traktowane jako wektory losowe o wartościach w \(\r ^2\)), a więc: \(\di h_{X_1+\dots +X_n }(u) = E\left (e^{iu(X_1 + \dots + X_n)} \right ) = E\left (e^{iuX_1} \cdot \dots \cdot e^{iuX_n} \right ) = E\left (e^{iuX_1}\right ) \cdot \dots \cdot E\left (e^{iuX_n} \right ) = h_{X_1}(u) \cdot \dots \cdot h_{X_n}(u)\).   \(\Box \)

  • Twierdzenie – 11.14 (o jednoznaczności) Niech \(P_1\) oraz \(P_2\) będą rozkładami takimi, że \(h_{P_1} = h_{P_2}\).

    Wtedy \(P_1 = P_2\).

Dowód. Jeżeli mamy równość funkcji charakterystycznych \(h_{P_1} = h_{P_2}\), to są sobie równe ich części rzeczywiste i urojone, a więc dla każdego \(u \in \r \) mamy:

\[ \int _{\r }\cos ux\,dP_1(x) = \int _{\r }\cos ux\,dP_2(x), \]

\[ \int _{\r }\sin ux\,dP_1(x) = \int _{\r }\sin ux\,dP_2(x). \]

Z liniowości całek możemy rozszerzyć tę równość na dowolne wielomiany trygonometryczne a następnie na funkcje ciągłe i okresowe \({\r } \longrightarrow {\r }\), gdyż z analizy wiadomo, że każdą funkcję ciągłą i okresową można aproksymować jednostajnie na \(\r \) wielomianami trygonometrycznymi.

Niech teraz \(g\) będzie dowolną funkcją ciągłą o suporcie zwartym. Pokażemy, że równość powyższa zachodzi także dla \(g\), czyli że

\[ \int _{\r }g(x)\,dP_1(x) = \int _{\r }g(x)\,dP_2(x). \]

Ustalmy dowolne \(\varepsilon > 0\) i niech \(M = \sup \{|g(x)|: x\in {\r }\}\). Ponieważ zbiory \({\r }\setminus (-T,T)\,\) tworzą ciąg zstępujący (gdy T rośnie) o części wspólnej \(=\emptyset ,\) więc można znaleźć takie \(T\), że \(P_i({\r } \setminus I) \le {\varepsilon \over 2M}\) dla \(i=1,\,2\) oraz \(supp\,g \subset I\), gdzie \(I\) oznacza przedział \((-T,T).\)

Zmodyfikujmy funkcją \(g\) poza przedziałem \(I\) tak, aby otrzymać funkcję \(\tilde {g}\) okresową i ciągłą, określoną na \(\r \) i taką, że \(g|I = \tilde {g}|I\) .

Oczywiście \(|\tilde {g}(x)| \le M,\) dla każdego \(x \in {\r },\) przy czym:

\[ \int _{\r }\tilde {g}(x)\,dP_1(x) = \int _{\r }\tilde {g}(x)\,dP_2(x). \]

Z równości tej kolejno otrzymujemy:

\[ \int _{I}\tilde {g}(x)\,dP_1(x) + \int _{\r \setminus I}\tilde {g}(x)\,dP_1(x) = \int _{I}\tilde {g}(x)\,dP_2(x) \int _{\r \setminus I}\tilde {g}(x)\,dP_2(x). \]

\[ \left |\int _I\tilde {g}(x)\,dP_1(x) - \int _I\tilde {g}(x)\,dP_2(x)\right | = \left |\int _{{\r }\setminus I}\tilde {g}(x)\,dP_1(x) - \int _{{\r }\setminus I}\tilde {g}(x)\,dP_2(x)\right | \le \]

\[ \left |\int _{{\r }\setminus I}\tilde {g}(x)\,dP_1(x)\right | + \left | \int _{{\r }\setminus I}\tilde {g}(x)\,dP_2(x)\right | \le 2\, M{\varepsilon \over 2M } =\varepsilon . \]

Mamy więc:

\[ \left |\int _{\r }g(x)\,dP_1(x) - \int _{\r }g(x)\,dP_2(x)\right | = \left |\int _I\tilde {g}(x)\,dP_1(x) - \int _I\tilde {g}(x)\,dP_2(x)\right | \le \varepsilon . \]

Ponieważ \(\varepsilon > 0\) jest dowolne, więc dla funkcji ciągłych o suporcie zwartym całki reż są sobie równe.

Z Lematu 11.7, \(P_1 = P_2\).   \(\Box \)

Istnieje iniekcja określona na zbiorze rozkładów w zbiór funkcji ciągłych i ograniczonych \(\r \to K(0,1) \subset \C \), spełniających warunek \(h(0) = 1\). UWAGA. (1) To nie jest suriekcja na powyższy zbiór. (2) Istnieje jednak pełna charakteryzacja obrazu tego odwzorowania.

  • Twierdzenie – 11.15 Niech \(X :\Omega \longrightarrow {\r }\) będzie zmienną losową, \(h= h_X\) jej funkcją charakterystyczną.

    Jeżeli istnieje moment rzędu \(k\) i jest skończony, to funkcja \(h\) jest k-krotnie różniczkowalna. Wtedy:

    \[ h^{(k)}(0) = i^k\,E(X^k). \]

Dowód. Przeprowadzimy dla \(k = 1\); dla pozostałych \(k\) dowód jest już prosty.

Ponieważ

\[ \int _{\r }\left |\frac {d}{du}e^{iux}\right |dP_X(x) = \int _{\r }|ixe^{iux}|dP_X(x) = \int _{\r }|x|dP_X(x) = E(|X|) < \infty , \]

więc – korzystając ze znanego z kursu analizy twierdzenia – istnieje pochodna funkcji określonej przez całkę: \(\frac {d}{du}\,\int _{\r }e^{iux}dP(x) = h'(u)\), i aby ją obliczyć, można różniczkować pod znakiem całki. Tak więc

\[h'(u) = \int _{\r }ix\,e^{iux}dP_X(x),\]

a kładąc \(u = 0\), mamy \(\di h'(0) =i\,\int _{\r }xdP_X(x) = i\, E(X)\).   \(\Box \)

Większość używanych rozkładów na już dawno wyznaczone swoje funkcje charakterystyczne. Warto jednak zobaczyć choćby jak to się robi.

  • 1. Dla rozkładu dyskretnego

    \[ h_P(u) = \sum _{k=0}^Ne^{iux_k}p_k. \]

  • 2. Dla rozkładów ciągłych

    \[ h_P(u) = \int _\r e^{iux}f(x)\, dx. \]

Przykład, rozkład \(\delta _c\).

\(h_{\delta _c}(u) = e^{iuc} 1 = e^{iuc}\). Przykład, rozkład \(N(0,1)\).

  • Twierdzenie – 11.16 Funkcja charakterystyczna \(h\) rozkładu normalnego \(N(0,1)\) wyraża się wzorem

    \[ h(u) = e^{-\frac {1}{2}u^2}. \]

Dowód. (nieobowiązkowy)

Dopełniając do kwadratu, otrzymujemy

\[ h(u) = \int _\r e^{iux}\frac {1}{\sqrt {2\pi }} e^{-\frac {1}{2}x^2}\,dx = \frac {e^{-\frac {u^2}{2}}} {\sqrt {2\pi }}\int _\r e^{-\frac {1}{2}(x-iu)^2}\,dx \]

Wystarczy udowodnić, że \(I:= \int _\r e^{-\frac {1}{2}(x-iu)^2}\,dx = \sqrt {2\pi }. \)

Wiedząc, że całka z funkcji analitycznej po drodze zamkniętej jest równa zeru, rozważmy funkcję \(f(z)=e^{-\frac {1}{2}z^2}\) oraz prostokąt o wierzchołkach w punktach \(-N - iu,\, N- iu,\,N,\,-N\), gdzie \(N\) oraz \(u\) są ustalonymi liczbami rzeczywistymi.

\[ \int _{-N -iu}^{N-iu}f(z)\,dz + \int _N^{-N}f(z)\,dz + R_N = 0. \]

gdzie \(R_N\) jest sumą dwóch całek po odcinkach pionowych. Niech \(z = x -iu\)

\[ \int _{-N}^Ne^{-\frac {1}{2}(x-iu)^2}\,dx = \int _{-N}^Nf(z)\,dz - R_N = \int _{-N}^Ne^{-\frac {1}{2}x^2}\,dx - R_N. \]

Gdy \(N\longrightarrow \infty \), to \(R_N \longrightarrow 0\), gdyż miara pionowych odcinków jest stała, a funkcja \(f\) na tych odcinkach maleje do \(0\). W takim razie

\[ I = \lim _{N\rightarrow \infty } \int _{-N}^Ne^{-\frac {1}{2}(x-iu)^2}\,dx = \lim _{N\rightarrow \infty }\int _{-N}^Ne^{-\frac {1}{2}x^2}\,dx =\int _{-\infty }^\infty e^{-\frac {1}{2}x^2}\,dx = \sqrt {2\pi }. \]

  

  • Przykład – 11.17 (Rozkład \(N(m,\sigma )\)) Jeżeli zmienna losowa \(X\) rozkład \(N(0.1)\), to zmienna losowa \(Y = \sigma X + m\) ma rozkład \(N(m,\sigma )\). W takim razie funkcja charakterystyczna \(h\) tego rozkładu jest równa \(h_Y\).

    \(h(u) = h_Y(u) = e^{ium}h_X(\sigma u) = e^{ium}e^{-\frac {1}{2}(\sigma u)^2} = e^{ium -\frac {1}{2}\sigma ^2 u^2}\).

  • Przykład – 11.18 (Rozkład sumy i.i.d. o rozkładach normalnych.)

    Niech \(P_X = N(m_1,\sigma _1)\), \(P_Y = N(m_2, \sigma _2)\). Wtedy: \(\di h_{X+Y}(u) = h_X(u) h_Y(u) = e^{ium_1 -\frac {1}{2}\sigma _1^2 u^2}e^{ium_2 -\frac {1}{2}\sigma _2^2 u^2} = e^{iu(m_1+m_2) -\frac {1}{2}(\sigma _1^2 + \sigma _2^2) u^2}\).

    A to jest funkcja charakterystyczna rozkładu \(N(m_1+m_2, \sqrt {\sigma _1^2 + \sigma _2^2}).\) Więc \(P_{X+Y} = N(m_1+m_2, \sqrt {\sigma _1^2 + \sigma _2^2}).\)

Znajomość funkcji charakterystycznej pozwala czasami na oszacowanie prawdopodobieństwa „ogona" rozkładu:

  • Twierdzenie – 11.19 Niech \(P\) będzie rozkładem. a \(h\) jego funkcją charakterystyczną. Niech \(u > 0\). Wtedy:

    \[ P(x \in \r : |x| \ge \frac {2}{u}) \le \frac {1}{u}\int _{-u}^u 1 - h(s)\,ds \in \r . \]

Dowód. \(\di \int _{-u}^u 1 - h(s)\,ds = \int _{-u}^u \int _\r dP(x) - \int _\r e^{isx}dP(x)\,ds = \) \(\di \int _\r \int _{-u}^u 1 - \cos (sx)\,ds\,dP(x) = \int _\r 2u - 2\frac {\sin (ux)}{x} \,dP(x) = \) \(\di 2u\left (\int _{\{x: |ux| < 2 \}} 1 - \frac {\sin (ux)}{ux} \,dP(x) + \int _{\{x: |ux| \ge 2 \}} 1 - \frac {\sin (ux)}{ux} \,dP(x) \right ) \ge \)

\(\di 2u(0 + \frac {1}{2}P(x: |ux| \ge 2)) = u P(x: |ux| \ge 2)\).   \(\Box \)

Jednym z najważniejszych zalet funkcji charakterystycznych jest zgodność zbieżności ciągu rozkładów ze zbieżnością odpowiedniego ciągu funkcji charakterystycznych. Mówi o tym następujące twierdzenie.

  • Twierdzenie – 11.20 (o ciągłości) Niech \(\{P_n\}\) będzie ciągiem rozkładów, a \(h_n = h_{P_n}\) ciągiem funkcji charakterystycznych.

    • 1. Jeżeli \(P\) jest rozkładem i \(P_n \stackrel {d}{\longrightarrow } P\), to \(\forall \, u \in \r \lim _{n\to \infty }h_n(u) = h_P(u)\).

    • 2. Jeżeli \(h :\r \to \C \) jest funkcją ciągłą w 0 oraz \(\forall \, u \in \r \lim _{n\to \infty }h_n(u) = h(u)\), to istnieje rozkład \(P\) taki, że \(P_n \stackrel {d}{\longrightarrow } P\). Wtedy też \(h = h_P\).

Dowód. Ad 1. Dla każdego \(u\), \(\sin (ux)\) oraz \(\cos (ux)\) są funkcjami ciągłymi i ograniczonymi, więc stosuje się Twierdzenie 11.11 o zbieżności rozkładów.

Ad 2. Udowodnimy, że \(\{P_n\}\) spełnia warunek Prochorowa. Niech \(\ve > 0\). Niech \(0 < \ve ' < \ve \). Istnieje \(u > 0\), takie, że \(|1 - h(s)| \le \frac {\ve '}{2}\), dla \(|s| \le u\).
Z własności całek: \(\di \frac {1}{2u} \int _{-u}^u |1- h(s)|\,ds \le \frac {\ve '}{2}\).
Z twierdzenia Lebesgue’a \(\di \frac {1}{2u} \int _{-u}^u |1- h_n(s)|\,ds \to \frac {1}{2u} \int _{-u}^u |1- h(s)|\,ds\). Istnieje \(n_0\) takie, że dla \(n \ge n_0\) \(\frac {1}{2u} \int _{-u}^u1- h_n(s)\,ds \le \frac {\ve }{2}\). Z poprzedniego twierdzenia: \(P_n(x \in \r : |x| \ge \frac {2}{u}) \le \frac {1}{u}\int _{-u}^u 1 - h_n(s)\,ds \le \ve \).

\(\{P_n\}\) spełnia więc warunek Prochorowa. Istniej podciąg \(\{P_{k_n}\}\) oraz rozkład \(P\), taki, że \(P_{p_n} \stackrel {d}{\longrightarrow } P\). Z punktu 1: \(\forall \, u \in \r \lim _{n\to \infty }h_{P_{k_n}}(u) = h_P(u)\). Ale również \(\forall \, u \in \r \lim _{n\to \infty }h_{P_{k_n}}(u) = h(u)\). Więc \(h_P = h\). Gdyby \(P_n\) nie zmierzał do \(P\), to istniałby podciąg \(P_{l_n}\) oraz rozkład \(Q\) różny od \(P\) taki, że \(P_{l_n} \stackrel {d}{\longrightarrow } Q\). Rozumując jak poprzednio widzimy, że \(h_Q = h = h_P\). Z twierdzenia o jednoznaczności \(P = Q\).   \(\Box \)

Rachunek prawdopodobieństwa — Dowód centralnego twierdzenia granicznego

(image)

Rachunek prawdopodobieństwa 1, 2

11.3 Dowód centralnego twierdzenia granicznego

W oparciu o teorię funkcji charakterystycznych możemy podać dowód Centralnego Twierdzenia Granicznego. Najpierw udowodnimy twierdzenie Lindeberga-Lévy’ego, twierdzenie 9.1, a jak się okaże wynikają z niego twierdzenie 9.2 oraz twierdzenie 9.3.

Przypominamy, że: \(X_1,\,X_2,\, X_3,\dots \) jest ciągiem niezależnych zmiennych losowych określonych (i.i.d.) na przestrzeni probabilistycznej (Ω, Σ, P ) . Wszystkie zmienne losowe \(X_i\) mają taki sam rozkład, a ich wspólna nadzieja matematyczna \(m\) oraz wariancja \(\sigma ^2\) istnieją i są skończone, przy czym \(\sigma > 0\) .

\[S_n = X_1 + \dots +X_n, \ \ \ Z_n := \frac {S_n -E(S_n)}{\sqrt {D^2(S_n)}} = \frac {S_n-nm}{\sigma \sqrt {n}}. \]

Wtedy \(E(Z_n) = 0\) oraz \(D^2(Z_n) = 1\) (ćwiczenie).

Mamy wykazać, że: Dla każdego \(x \in \r \) zachodzi równość:

\[ \lim _{n\rightarrow \infty }P(Z_n \le x) = \Phi (x), \]

gdzie \(\Phi \) jest dystrybuantą standardowego rozkładu normalnego, czyli, że \(P_{Z_n} \stackrel {d}{\str } N(0,1)\).

Dowód. Skorzystamy z drugiej części twierdzenia o ciągłości.

Musimy więc wykazać, że ciąg funkcji charakterystycznych \(h_n := h_{Z_n}\) jest zbieżny do funkcji charakterystycznej \(h_\Phi \), którą to funkcję wyznaczyliśmy.

\[ h_\Phi (u) = e^{-\frac {1}{2}u^2}. \]

Ponieważ

\[ Z_n = \frac {(X_1 -m) + \dots +(X_n - m)}{\sigma \sqrt {n}}, \]

więc korzystając z niezależności zmiennych losowych \((X_1 -m) , \dots ,(X_n - m)\) oraz z własności funkcji charakterystycznych otrzymujemy:

\[ h_n(u) = h\left ( \frac {u}{\sigma \sqrt {n}}\right )^n, \]

gdzie przez \(h\) oznaczamy funkcję charakterystyczną rozkładu zmiennej losowej \(X_i - m\).

Ponieważ zmienne losowe mają z założenia moment rzędu 2, więc wiemy, że funkcja \(h\) jest dwukrotnie różniczkowalna w zerze. Mamy przy tym

\[ h(0) = 1,\;\;\;\;\; h'(0) = i E(X_i - m) = 0,\;\;\;\;\;h''(0) = i^2 E((X_i -m)^2) = - \sigma ^2. \]

Mamy więc:

\[ h(u) = 1 - \frac {1}{2} \sigma ^2 u^2 +o(u^2), \;\;\;\mbox { gdy } u \longrightarrow 0. \]

Przypomnienie Dla funkcji \(f, g\) określonych na przestrzeni topologicznej \(A\) oraz \(a \in A\) definiujemy:

\[ f(x) = o(g(x), x \to a \ \rwn \ \forall \ve > 0 \ \exists U \mbox { otoczenie } a \ \forall x \in U \ |f(x)| \le \ve |g(x)|. \]

Intuicja Gdy \(g(x) \to 0\) dla \(x \to a\) oraz \(f(x) = o(g(x), x \to a\),
to \(f(x)\) ZMIERZA ISTOTNIE SZYBCIEJ do 0 niż \(g(x)\).

Ustalmy teraz \(u\). Mamy wtedy

\[ h\left (\frac {u}{\sigma \sqrt {n}}\right ) = 1 - \frac {1}{2}\frac {u^2}{n} + o\left (\frac {1}{n}\right ),\mbox { gdy } n \longrightarrow \infty . \]

Oznacza to, że dla dużych \(n\) wartości \(h(\frac {u}{\sigma \sqrt {n}})\) leżą w kole o środku w punkcie \(z = 1\) i promieniu \(r = 1\).

Jak wiadomo z kursu funkcji analitycznych, w kole tym istnieje dokładnie jedna funkcja analityczna (nazywa się ją gałęzią logarytmu naturalnego i oznacza przez \(\log \)), taka, że: \(e^{\log z} = z\) oraz \(\log \,1 = 0\). Możemy też skorzystać z faktów, że: \(\log z^n = n \log z\) oraz:

\[ \log \,(1 + z) = z + o(z),\;\;\; \mbox { dla } z \longrightarrow 0 .\]

Kolejno mamy:

\[ \log h_n(u) = n\log h\left (\frac {u}{\sigma \sqrt {n}}\right ) = n\log \left ( 1 - \frac {1}{2}\frac {u^2}{n} + o\left (\frac {1}{n}\right )\right ) ,\mbox { gdy } n \longrightarrow \infty , \]

\[ \log h_n(u) = - \frac {1}{2}u^2 + \phi (n), \]

gdzie \(\phi (n) = o\left (- \frac {1}{2}\frac {u^2}{n}+ n o\left (\frac {1}{n}\right )\right )\) dla \(n \longrightarrow \infty \).

Widać, że \(\phi (n) \longrightarrow 0\) dla \(n \longrightarrow \infty \).

Tak więc ostatecznie

\[ h_n(u) = e^{-\frac {u^2}{2}}e^{\phi (n)} \longrightarrow e^{-\frac {u^2}{2}} = h_\Phi (u), \;\; \mbox { dla }n \longrightarrow \infty .\‚\]

Z twierdzenia o ciągłości \(P_{Z_n} \stackrel {d}{\longrightarrow } N(0,1)\).   \(\Box \)

Komentarz. Wiadomo, że \(\di \lim _{n\to \infty }\left (1 - \frac {1}{2}\frac {u^2}{n} \right )^n = e^{-\frac {u^2}{2}}\). Stosując elementy teorii funkcji analitycznych pokazaliśmy, że również \(\di \lim _{n\to \infty }\left (1 - \frac {1}{2}\frac {u^2}{n} +o\left (\frac {1}{n}\right )\right )^n = e^{-\frac {u^2}{2}}\), co jest raczej zgodne z intuicją.

  • Twierdzenie – 11.21 W tezie twierdzenia Lindeberga – Lévy’ego zachodzi zbieżność jednostajna ze względu na \(x \in \r .\)

Jest to konsekwencja następującego lematu.

  • Lemat – 11.22 Załóżmy, że

    \[ F_n \stackrel {d}{\longrightarrow } F, \]

    gdzie \(F_n\) oraz \(F\) są dystrybuantami. Załóżmy ponadto, że \(F\) jest funkcją ciągłą. Wtedy

    \[ F_n \longrightarrow F, \;\;\;\;\mbox { jednostajnie na } \r . \]

    Czyli: \(\forall \, \ve > 0 \ \exists \, n_0 \ \forall \, x \in \r \ \forall n \ge n_0 \ \ |F_n(x) - F(x)| < \ve \).

Dowód lematu. Ustalmy \(\varepsilon > 0\) i bez straty ogólności załóżmy, że \(\varepsilon < 1\). Ponieważ dystrybuanta \(F\) jest funkcją ciągłą, istnieją punkty \(x_1, \dots , x_r\) takie, że \(F(x_k) = \frac {k\varepsilon }{2},\;\; k = 1,\dots ,r\), gdzie \(r\) jest największą liczbą taką, że \(\frac {r\varepsilon }{2} < 1\). Połóżmy dodatkowo \(x_0 = -\infty ,\;x_{r+1} = \infty \). Oczywiście jest \(F(x_{k+1}) - F(x_k) \le {\varepsilon \over 2}.\) Z założenia wiemy, że we wszystkich punktach \(x_k\) mamy \(\lim _{n\rightarrow \infty }F_n(x_k) = F(x_k)\). Ponieważ jest ich skończenie wiele, istnieje takie \(N\), że dla \(n >N\) i dla wszystkich \(k = 1, \dots r\)

\[ |F_n(x_k) - F(x_k)| \le {\varepsilon \over 2}. \]

Niech \(x \in \r \) będzie dowolnie ustalone. Istnieje taki przedział \([x_k,x_{k+1})\), który zawiera \(x\). Mamy teraz

\[ F_n(x) - F(x) \le F_n(x_{k+1}) - F(x_k) \le F(x_{k+1}) +{\varepsilon \over 2} - F(x_k) \le \varepsilon \]

i podobnie

\[ F(x) - F_n(x) \le F(x_{k+1}) - F_n(x_k) \le F(x_{k+1}) - (F(x_k) - {\varepsilon \over 2}) \le \varepsilon , \]

co oznacza, że \(\;\;\;|F_n(x) - F(x)| \le \varepsilon \) dla dowolnego \(x\) oraz \(n >N\).   

Dowód twierdzenia 9.2, CTG dla sum.

Ponieważ z określenia zmiennej losowej \(Z_n\) mamy \(S_n = \sigma \sqrt {n}Z_n + nm\), więc mamy

\[ F_{S_n}(x) = F_{Z_n}\left (\frac {x-nm}{\sigma \sqrt {n}}\right ). \]

Natomiast także w naszym przypadku:

\[ \Phi _{nm,\sigma \sqrt {n}}(x) = \Phi \left (\frac {x-nm}{\sigma \sqrt {n}}\right ). \]

Twierdzenie 11.21 mówi, że: \(\forall \, \ve >0 \ \exists \, n_0 \ \forall n \ge n_0 \ \forall \, x \in \r \)

\[ \left | F_{S_n}(x) - \Phi _{nm,\sigma \sqrt {n}}(x) \right | = \left | F_{Z_n}\left (\frac {x-nm}{\sigma \sqrt {n}}\right ) - \Phi \left (\frac {x-nm}{\sigma \sqrt {n}}\right )\right | < \ve . \]

  

Dowód twierdzenia 9.3, CTG dla średnich (ćwiczenie).   

Rachunek prawdopodobieństwa — Funkcje tworzące

(image)

Rachunek prawdopodobieństwa 1, 2

11.4 Funkcje tworzące

Do badania rozkładów zmiennych losowych przyjmujących wartości całkowite nieujemne zamiast funkcji charakterystycznych można używać tak zwanych funkcji tworzących.

Niech \(a_i\), \(i = 0,1,2,3, \dots \) będzie ciągiem liczb rzeczywistych nieujemnych. Funkcją tworzącą tego ciągu jest funkcja zmiennej zespolonej \(z\):

\begin{equation} \alpha (z) := \sum _{i = 0}^\infty a_i z^i. \label {eq:tw1} \end{equation}

Zauważmy, że jeżeli ciąg \(\{a_i\}\) jest ograniczony, to szereg powyższy jest zbieżny dla \(|z|<1\), a więc funkcja \(\alpha \) jest analityczna w otwartym kole \(K(0,1)\). Jeżeli dodatkowo \(\sum _{i = 0}^\infty a_i = 1\), to szereg (11.1) jest zbieżny także dla \(|z|= 1\).

Niech \(X\) będzie zmienną losową określoną na odpowiedniej przestrzeni probabilistycznej. Załóżmy, że \(X\) przyjmuje jedynie wartožci całkowite nieujemne, czyli \(P\left (\bigcup _{i=0}^\infty \{X = i\}\right ) = 1\). Niech \(p_i = P(X = i)\), \(i = 0,1,2, \dots \). Określamy funkcję tworzącą zmiennej losowej \(X\) jako funkcję tworzącą ciągu \(\{p_i\}\). Jest to więc funkcja:

\begin{equation} \pi _X(z) := \pi (z) = \sum _{i = 0}^\infty p_i z^i. \label {eq:tw2} \end{equation}

Zauważmy, że funkcja tworząca \(\pi _X\) oraz funkcja charakterystyczna \(h_X\) są ze sobą ściśle związane. Mianowicie, stosując wzór na funkcję charakterystyczną rozkładu dyskretnego, strona (página for item 1), mamy dla rzeczywistych \(u\):

\[ h_X(u) = \sum _{k= 0}^\infty e^{iuk}p_k = \sum _{k= 0}^\infty (e^{iu})^kp_k = \pi _X(e^{iu}). \]

Ponieważ funkcja \(\pi \), jako funkcja analityczna w kole \(K(0,1)\), jest wyznaczona jednoznacznie przez swoje wartości na okręgu \(|z|=1\), powyższy związek pozwala wykazać wiele własności funkcji tworzących na podstawie odpowiednich własności funkcji charakterystycznych. Własności te mogą być otrzymane także bezpośrednio – bez odwoływania się do funkcji charakterystycznych. Na przykład, często wykorzystuje się następującą własność będącą konsekwencją (ćwiczenie) twierdzenia 11.13:

  • Twierdzenie – 11.23 Niech \(X_1,\,X_2,\,\dots ,X_n\) będą niezależnymi zmiennymi losowymi przyjmującymi nieujemne wartości całkowite. Wtedy

    \[ \pi _{X_1+\dots +X_n }(z) = \pi _{X_1}(z)\cdot \dots \cdot \pi _{X_n}(z). \]

Zachodzi także twierdzenie o jednoznaczności rozkładu, które jest szczególnym przypadkiem twierdzenia 11.14 (ćwiczenie).

Podobnie jak funkcje charakterystyczne, funkcje tworzące mogą służyć do wyznaczania momentów.

  • Twierdzenie – 11.24 Niech \(X\) będzie nieujemną zmienną losową przyjmującą wartości całkowite.

    • 1. Jeżeli \(E(X) < \infty \), to \(E(X) = \pi _X'(1)\).

    • 2. Jeżeli \(E(X^2) < \infty \), to \(E(X^2) = \pi _X'(1) + \pi _X''(1)\).

Dowód. Można zróżniczkować szereg dla \(|z| < 1\). Ponieważ istnieje \(E(X)\), to szereg określający \(\pi _x'\) jest zbieżny dla \(z = 1\) (ćwiczenie).

Podamy teraz trzy proste zastosowania funkcji tworzących:

Spacery losowe po prostej

Wyobraźmy sobie ruch cząstki po osi liczbowej odbywający się według następujących zasad. (1) W chwili \(n=0\) cząstka znajduje się w ustalonym punkcie, powiedzmy w punkcie \(A =0\). (2) Jeżeli w chwili \(n\) cząstka znajduje się w punkcie \(x\), to w chwili \(n+1\) znajduje się w punkcie \(x+1\) z prawdopodobieństwem \(p\) i w punkcie \(x-1\) z prawdopodobieństwem \(q\). Zakładamy, że \(p+q=1\). Interesuje nas czy cząstka musi wrócić do wyjściowego stanu \(A\).

Najpierw sprecyzujemy nasze zadanie. Niech \(X_i\), \(i = 1,2,3, \dots \) będą niezależnymi zmiennymi losowymi o rozkładzie:

\[ P(X_i = -1) = q,\ \ \ \ \ P(X_i= 1) = p. \]

Niech \(S_n = X_1 + \dots + X_n\) i niech

\begin{equation} T = min \{n > 0: S_n = 0 \}. \label {eq:tw8} \end{equation}

Pytanie postawione poprzednio można teraz sformułować następująco: Czy \(P(T< \infty ) = 1\)? Prawdopodobieństwo \(P(T< \infty )\) nazywamy prawdopodobieństwem powrotu.

Rozważmy dwa ciągi liczb \(\{a_n\}\) oraz \(\{f_n\}\) określające odpowiednio prawdopodobieństwa pobytu cząstki w punkcie \(A\) w chwili \(n\) oraz prawdopodobieństwo pierwszego powrotu do \(A\) w chwili \(n\). Definiujemy więc:

\[ a_n = P(S_n=0),\ \ \ \ \ \ \ f_n = P(T = n),\ \ \ \ \ \ \mbox { dla } n = 1,2,3, \dots \]

oraz dookreślamy \(a_0 = 0\), \(f_0 = 0\).

Ponieważ zdarzenia \(\{T = n\}\) są parami rozłączne, więc prawdopodobieństwo powrotu:

\[ P(T < \infty ) = \sum _{n=0}^\infty f_n = \varphi (1), \]

gdzie \(\varphi \) jest funkcją tworzącą ciągu \(\{f_n\}\). Oczywiście \(\varphi (1) \le 1\).

Znajdziemy związek między funkcją \(\varphi \) oraz \(\alpha \), funkcją tworzącą ciągu \(a_n\). Ze wzoru na prawdopodobieństwo całkowite oraz z niezależności zmiennych \(X_k\) mamy dla \(n =1,2,3, \dots \) (ćwiczenie):

\(a_1 =f_1\),
\(a_2 =f_1 a_1 + f_2 \),
\(a_3 =f_1 a_2 + f_2 a_1 + f_3\),
\(a_4 =f_1 a_3 + f_2 a_2 + f_3a_1 + f_4\),
\(\dots \ \ \ \ \ \dots \ \ \ \ \ \dots \ \ \ \ \ \dots \ \ \ \ \‚\dots \ \ \ \ \‚\dots \)

Pomnóżmy te równości odpowiednio przez \(z\), \(z^2\), \(z^3\), \(z^4\), \(\dots \) , \(|z| < 1\), i zsumujmy stronami. Otrzymujemy:

\[ \alpha (z) = f_1z\ (1 + a_1z + a_2 z^2 + \dots ) + f_2z^2\ (1 + a_1z + a_2 z^2 + \dots ) + \]

\[ f_3z^3\ (1 + a_1z + a_2 z^2 + \dots ) + \dots . \]

Mamy więc dla \(|z|<1\)

\[ \alpha (z) = \varphi (z) (1 + \alpha (z)). \]

Niech \(z\) zmierza do \(1\) po osi rzeczywistej w sposób rosnący. Wtedy wartości \(\alpha (z)\), \(\varphi (z)\) rosną i zmierzają odpowiednio do granic \(\alpha (1)\) i \(\varphi (1)\), czyli:

\[ \alpha (1) = \varphi (1) (1 + \alpha (1)), \]

przy czym wiemy, że \(\varphi (1) \le 1\). Widzimy teraz, że \(\varphi (1) = 1\), wtedy i tylko wtedy, gdy \(\alpha (1) = \infty \). Co więcej, gdy \(\alpha (1) < \infty \), to

\begin{equation} \varphi (1) = \frac {\alpha (1)}{1+\alpha (1)} \label {eq:tw3} \end{equation}

Wykazaliśmy więc następujące:

  • Twierdzenie – 11.25

    • 1. Jeżeli \(\sum _{n=1}^\infty a_n < \infty \), to prawdopodobieństwo powrotu jest mniejsze od jeden i wynosi:

      \begin{equation} P(T< \infty ) = \frac {\sum _{n=1}^\infty a_n }{1+\sum _{n=1}^\infty a_n }. \label {eq:tw4} \end{equation}

    • 2. Jeżeli \(\sum _{n=1}^\infty a_n = \infty \), to prawdopodobieństwo powrotu jest równe jeden.

Wyznaczymy teraz liczby \(a_n\). Są to prawdopodobieństwa tego, że cząstka startująca z \(A\) znajdzie się po \(n\) krokach znowu w punkcie \(A\). Cząstka musi więc wykonać tyle samo kroków w prawo co w lewo. Mamy więc:

\[ a_{n} = \left \{ \begin {array}{cl} 0, & \mbox { gdy } n = 2k - 1\\ \left (^{2k}_{\, k} \right ) p^kq^k, & \mbox { gdy } n = 2k \end {array} \right ., \mbox { dla } k = 1,2,3, \dots \]

Do zbadania zbieżności szeregu \(\sum _{n=1}^\infty a_n\) wykorzystamy słynny wzór:

Wzór Stirlinga

\begin{equation} \lim _{n \to \infty } \frac {n!}{n^n e^{-n} \sqrt {2\pi n} } = 1, \end{equation}

który często używany jest w formie:

\[\di n! \cong n^n e^{-n} \sqrt {2\pi n}, \mbox { dla duÅijych } n.\]

Wzór ten oznacza (ćwiczenie), że:

\begin{equation} a_{2k} \cong \frac {(4pq)^k}{\sqrt {\pi k}}, \ \ \ k \longrightarrow \infty . \label {eq:tw5} \end{equation}

Ponieważ \(pq \le \frac {1}{4}\), a równość zachodzi dokładnie wtedy, gdy \(p = q = \frac {1}{2}\), widzimy, że:

\[ \sum _{n=1}^\infty a_n = \infty \ \ \ \Longleftrightarrow \ \ \ p = q =\frac {1}{2}. \]

Tak więc przy symetrycznym spacerze losowym po prostej cząstka prędzej czy później powróci do stanu wyjściowego. Natomiast, gdy spacer nie jest symetryczny cząstka z dodatnim prawdopodobieństwem nigdy nie powróci do stanu wyjściowego.

Można też bezpośrednio wyznaczyć sumę szeregu \(\sum _{n=1}^\infty a_n\) oraz \(P(T < \infty )\), patrz Ćwiczenie 11.4. Mianowicie:

\[ P(T < \infty ) = 1 - |2p-1| = 1 - |p-q|. \]

Jako, że dyskutowany przez nas spacer losowy jest szczególnym przypadkiem łańcucha Markowa, wrócimy do tego problemu w rozdziale 16. Wykorzystamy wtedy przybliżenie zadane wzorem (11.7).

Suma losowej liczby składników

Niech \(X_1, X_2, X_3, \dots \) oraz \(N\) będą zmiennymi losowymi przyjmującymi wartości całkowite nieujemne. Interesuje nas suma pierwszych \(N\) zmiennych \(X_i\), czyli zmienna losowa:

\[ S := X_1 + \dots + X_N. \]

Wykażemy następujące:

  • Twierdzenie – 11.26 Jeżeli zmienne losowe \(X_1, X_2, X_3, \dots \) są niezależne i mają taki sam rozkład o funkcji tworzącej \(\pi \), a zmienna losowa \(N\) jest niezależna od \(X_1, X_2, X_3, \dots \) i ma funkcję tworzącą \(\nu \), to zmienna losowa \(S\) ma funkcję tworzącą \(\sigma = \nu \circ \pi \).

Dowód. Niech \(\pi (z) = \sum _{i=0}^\infty p_iz^i\), \(\nu (z) = \sum _{i=0}^\infty n_iz^i\), \(\sigma (z) = \sum _{i=0}^\infty s_iz^i\). Oznaczmy przez \(\sigma ^{(n)}\) funkcję tworzącą sumy \(S_n = X_1 + X_2 + \dots + X_n\), \(n = 0,1,2,3 \dots \). Niech \(\sigma ^{(n)}(z) = \sum _{i=0}^\infty s^{(n)}_iz^i\). Po pierwsze, z niezależności \(N\) od \(X_i\) mamy dla \(j = 0,1,2,3, \dots \):

\[ s_k = P(S = k) = \sum _{i=0}^\infty P(N=i) P(S_i = k) = \sum _{i=0}^\infty \nu _i s^{(i)}_k. \]

Po drugie, z twierdzenia 11.23 wiemy, że \(\sigma ^{(i)}(z) = \pi (z)^i\) i stąd:

\[ (\nu \circ \pi )(z) = \nu (\pi (z)) = \sum _{i=0}^\infty n_i\pi (z)^i = \sum _{i=0}^\infty n_i \sigma ^{(i)}(z) = \]

\[ \sum _{i=0}^\infty n_i \sum _{k=0}^\infty s^{(i)}_k z^k = \sum _{k=0}^\infty \left ( \sum _{i=0}^\infty \nu _is^{(i)}_k \right ) z^k = \sum _{k=0}^\infty s_k z^k, \]


co oznacza tezę.   

  • Przykład – 11.27

    Owad (powiedzmy mucha) składa dużo jajeczek z których mogą wykluwać się nowe owady. Zakładając, że liczba jajeczek ma rozkład Poissona o parametrze \(\lambda \), oraz, że owady wykluwają się z jajeczek niezależnie od siebie z tym samym4 prawdopodobieństwem \(p\), wyznaczyć rozkład oraz oczekiwaną wartość liczby potomków jednego owada.

    Niech \(N\) oznacza liczbę jajeczek złożonych przez muchę w ciągu całego życia i niech \(X_i= 1\) lub \(X_i = 0\) zależnie od tego czy z \(i\)-tego jajeczka rozwinie się dorosły owad czy nie. Wtedy \(S = X_1 + \dots + X_N\) oznacza liczbę dorosłych potomków muchy. Załóżmy, że \(N, X_1, X_2, X_3, \dots \) są niezależne. Wiemy, że \(X_i\) mają taki sam rozkład \(B(1,p)\) oraz, że \(N\) ma rozkład Poissona o parametrze \(\lambda \). Jak łatwo sprawdzić odpowiednie funkcje tworzące są równe: \(\pi (z) = 1- p + pz\) oraz \(\nu (z) = e^{- \lambda + \lambda z}\). W takim razie \(\sigma (z) = (\nu \circ \pi )(z) = e^{- \lambda p+ \lambda p z}\). Oznacza to, że liczba dorosłych potomków \(S\) ma rozkład Poissona o parametrze \(\lambda p\).

    Przykład ten przeanalizujemy jeszcze raz w oparciu o teorię warunkowych wartości oczekiwanych, przykład 14.5.

Proces gałązkowy

  • Przykład – 11.28 Osoba, powiedzmy \(O_0\), która jest nosicielem wirusa może przekazywać go \(k\) innym osobom z prawdopodobieństwami \(p_k\), \(k = 0,1,2, ...\), a te osoby mogą przekazywać go dalej według tego samego schematu. Niech \(X_n\) oznacza liczbę osób, które otrzymały wirusa od \(O_0\) dokładnie po \(n\) krokach. Niech \(\pi \) oznacza funkcję tworzącą ciągu \((p_k)\).

    Wyznaczymy kolejno funkcję tworzącą \(\pi _{X_n}\) (zakładając niezależność), \(E(X_n)\) oraz \(P(X_n=0)\).

    Niech \(N\) będzie zmienną losową o rozkładzie \(P(N=k) = p_k\).

    \(O_0\) zarazi \(X_1\) osób, przy czym \(P_{X_1} = P_N\). Tworzą one pierwszą generację.

    Każda osoba \(i\) z pierwszej generacji zarazi \(X_{1,i}\) osób, przy czym \(P_{X_{1,i}} = P_N\).

    \(X_2\) – liczba osób w drugiej generacji jest więc sumą: \(X_2 = X_{1,1} + ... + X_{1,X_1}\).

    Podobnie \(X_n = X_{n-1,1} + ... + X_{n-1,X_{n-1}}\)

    W początkowym stadium epidemii można założyć, że występująca w sumach zmienne losowe są niezależne. Przy takim założeniu można skorzystać z Twierdzenia 11.26, z którego wynika, że \(\pi _{X_n}\) jest \(n\)-tym złożeniem funkcji \(\pi \), czyli \(\pi _{X_1} = \pi \), \(\pi _{X_2} = \pi ^2 = \pi \circ \pi \), \(\pi _{X_3} = \pi ^3\) i t.d.

    Z określenia funkcji tworzącej całkowitoliczbowej zmiennej losowej \(X\) wynika, że \(P(X=0) = \pi _X(0)\). Natomiast Twierdzenie 11.24 pozwala wyliczyć wartość oczekiwaną: \(E(X) = \pi _X'(1)\). Tak więc w naszym przypadku:

    \[P(X_n=0) = \pi ^n(0), \ \ \ \‚E(X_n) = (\pi ^n)'(1). \]

    Zakładając, że \(\di p_k = e^{-\lambda }\frac {\lambda ^k}{k!}\), czyli rozkład Poissona, można jak poprzednio wyznaczyć funkcję tworzącą \(\pi \) i obliczyć (np. Maple) powyższe wielkości dla \(n = 10\), gdy: (a) \(\lambda = 0.9\), (b) \(\lambda = 1.1\). Wskazówka: \(n\)-krotne złożenie funkcji \(f\) ze sobą uzyskuje się w Maple za pomocą polecenia \(f@@n\).

    Otrzymujemy: Ad (a) \(E(X_{10}) = 0.3486784401 \), \(P(X_{10} = 0) = 0.9150828404 \).

    Ad (b) \(E(X_{10}) = 2.593742460 \), \(P(X_{10} = 0) = 0.7507181832\).

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

11.5 Pytania

  • Pytanie 11.1 Czy następujące rodziny rozkładów spełniają warunek Prochorowa?

    • 1. \(\{N(m,1) : m \in \r \}\),

    • 2. \(\{N(0,\sigma ) : 0 < \sigma < 1 \}\),

    • 3. \(\{U(a,b): a < b < 100\}\).

    Odpowiedź uzasadnij.

Wskazówka. Ad 1. Nie. Ustalmy jakikolwiek zbiór zwarty. Jest on zawarty w jakimś przedziale postaci \([-N,N]\). Można obliczyć \(P([-N,N])\) i zobaczyć, że dla dużych \(m\) jest ono dla każdego ustalonego \(N\) małe.

Ad 2. Tak. Rozumowanie podobne jak wyżej.

Ad 3. Nie. Rozumowanie podobne jak wyżej, tylko mniej liczenia.

  • Pytanie 11.2 Nie korzystając z MPWL wykaż następujące twierdzenie (Chinczyna).

    Jeżeli \(X_1,X_2,X_3, ...\) są i.i.d. i mają skończoną nadzieję matematyczną \(m\), to \(\frac {S_n}{n} \stackrel {s}{\to } m\).

Wskazówka. Postępujemy podobnie jak w dowodzie CTG. Niech \(h\) będzie funkcją charakterystyczną zmiennej \(X_i\). Wtedy:

\[h(u) = 1 + imu + o(u),\]

\[h_{\frac {S_n}{n}}(u) = h \left (\frac {u}{n}\right )^n = \left (1 + im\frac {u}{n} + o(\frac {1}{n})\right )^n \to e^{ium} = h_m(u).\]

Więc \(\di \frac {S_n}{n} \stackrel {d}{\to } m\), więc także \(\di \frac {S_n}{n} \stackrel {s}{\to } m\).

  • Pytanie 11.3 Przeprowadź dowód CTG dla średnich.

Wskazówka. Tak samo jak dla sum.

  • Pytanie 11.4 Niech \(S_n\) oznacza sumę orłów uzyskanych w trakcie \(n\) rzutów monetą symetryczną. Niech \(\ve >0\) będzie dowolną liczbą.

    Obliczyć:

    • 1. \(\di \lim _{n\rightarrow \infty } P\left (\left |S_n-\frac {n}{2} \right | \ge \ve \right )\!, \)

    • 2. \(\di \lim _{n\rightarrow \infty } P\left (\left |S_n-\frac {n}{2} \right | \ge \ve n\right )\!, \)

    • 3. \(\di \lim _{n\rightarrow \infty } P\left (\left |S_n-\frac {n}{2} \right | \ge \ve \sqrt {n}\right )\!. \)

Wskazówka.

Ad 1. \(\di P\left (\left |S_n-\frac {n}{2} \right | \ge \ve \right ) = 2 - 2\Phi \left (\frac {\ve }{2\sqrt {n}}\right ) \to 1\).

Ad 2. \(\di P\left (\left |S_n-\frac {n}{2} \right | \ge \ve n\right ) = 2 - 2\Phi \left (\frac {\ve \sqrt {n}}{2}\right ) \to 0\).

Ad 3. \(\di P\left (\left |S_n-\frac {n}{2} \right | \ge \ve \sqrt {n}\right ) = 2 - 2\Phi \left (\frac {\ve }{2}\right )\).

  • Pytanie 11.5 Niech \(S_n\) oznacza sumę orłów uzyskanych w trakcie \(n\) rzutów monetą symetryczną. Sformułować jako twierdzenie następujące spostrzeżenia: Gdy wykona się dostatecznie dużo rzutów, to różnica między liczbą uzyskanych orłów i reszek będzie tak wielka jak chcemy, natomiast ich iloraz będzie coraz bliższy 1.

Wskazówka. Twierdzenie Dla dowolnego \(\ve > 0\):

  • 1. \(\di \lim _{n\rightarrow \infty } P\left (\left |S_n-(n-S_n) \right | \ge \ve \right ) = 1, \)

  • 2. \(\di \lim _{n\rightarrow \infty } P\left (\left |\frac {n-S_n}{S_n} - 1 \right | \ge \ve \right ) = 0. \)

Dowód. 1. wynika z 1. z punktu 1 w poprzednim pytaniu.

\[ 2. \ \ \ P\left (\left |\frac {n-S_n}{S_n} - 1 \right | \ge \ve \right ) = 1 - \Phi \left (\frac {\ve \sqrt {n}}{2-\ve }\right ) + \Phi \left (\frac {-\ve \sqrt {n}}{2+\ve }\right ) \to 0.\]

  • Pytanie 11.6 Wykazać twierdzenie o jednoznaczności rozkładu w przypadku funkcji tworzących.

Wskazówka. Niech \(\pi _X = \pi _Y\) będą funkcjami tworzącymi zmiennych losowych \(X\), \(Y\). Wtedy zachodzi też równość \(h_X(u) = \pi _X(e^{iu}) = \pi _Y(e^{iu}) = h_Y(u)\) dla \(u \in \r \), gdzie \(h_X\), \(h_Y\) są odpowiednimi funkcjami charakterystycznymi. Z twierdzenia o jednoznaczności dla funkcji charakterystycznych oznacza to, że \(P_X = P_Y\).

Rachunek prawdopodobieństwa — Metody Monte Carlo

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 12 Metody Monte Carlo

Metody Monte Carlo są rozumiane na różne sposoby. Można powiedzieć, że stanowią one narzędzia numeryczne oparte na teorii rachunku prawdopodobieństwa służące do rozwiązywania problemów, w tym problemów o podłożu deterministycznym, najczęściej wtedy, gdy zawodzą metody analityczne czy klasyczne metody numeryczne. Jednym z twórców współczesnych metod Monte Carlo był polski matematyk Stanisław ULam pracujący w latach 40-tych XX wieku w Stanach Zjednoczonych nad konstrukcją broni jądrowej. Wraz z rozwojem technologii komputerowych metody Monte Carlo osiągnęły zawrotny rozwój i są wykorzystywane obecnie w wielu dziedzinach nauki i techniki.

Już przykład 10.21 oraz przykład 10.22 podane przez na przy okazji omawiania znaczenia mocnego prawa wielkich liczb ilustrowały podstawowe idee metod Monte Carlo. Sygnalizujemy teraz inny klasyczny przykład. Różni się on tym od tych dwóch, że używa narzędzia probabilistyczne do rozwiązania problemu o charakterze deterministycznym.

  • Przykład – 12.1 Należy podać przybliżoną wartość liczby \(\pi \).

    Schemat rozwiązania: Losujemy dużo punktów, powiedzmy \(n\), \(n \ge 1000\), z kwadratu \([-1,1]^2\) i wyznaczamy liczbę, \(k\), punktów, które spełniają nierówność \(x^2 + y^2 \le 1\). Liczbę \(4\frac {k}{n}\) uważamy za przybliżenie \(\pi \).

Uzasadnimy później sensowność powyższego postępowania. Pokażemy istotne uogólnienie. Zaczniemy od wyjaśnienie kwestii losowania.

Metody Monte Carlo bazują na możliwości generowania przez komputer w bardzo krótkim czasie bardzo wielu liczb, które można uważać za wielkości losowe niezależnie od tego, że najczęściej są one generowane przez algorytmy deterministyczne. Takie liczby nazywamy liczbami pseudolosowymi. Po omówieniu sposobów pozyskiwania liczb pseudolosowych powiemy jak mogą być one użyte do przybliżonego wyznaczania całek, a także w problemach optymalizacyjnych.

12.1 Liczby pseudolosowe

Problem pozyskiwania liczb pseudolosowych o dobrych własnościach jest kluczowy dla wielu obliczeń metodami Monte Carlo oraz w symulacjach i nadal pozostaje w centrum uwagi specjalistów.

Jeszcze do niedawna programy komputerowe używały najczęściej następującego algorytmu: dla ustalonych liczb naturalnych \(a\), \(b\) i \(p\) wybieramy dowolną liczbę naturalną \(X_0\), zwaną ziarnem (ang. seed), a następnie określamy rekurencyjnie ciąg:

\[ X_{n+1} = a X_n + b \ (\mbox { mod }\, p). \]

Mówiąc inaczej, za każdym razem obliczamy \(X_{n+1}' = a X_n + b\), a jako \(X_{n+1}\) bierzemy resztę z dzielenia \(X_{n+1}'\) przez \(p\) – tak więc wszystkie wyrazy naszego ciągu są liczbami naturalnymi mniejszymi od \(p\).

Jeżeli parametry \(a\), \(b\), \(p\) i \(X_0\) są odpowiednio dobrane, to okazuje się, że liczby:

\[ U_n = X_n /p \]

mają własności niemal takie same, jak liczby wylosowane niezależnie jedna od drugiej z rozkładu jednostajnego na przedziale \((0,1)\).

  • Przykład – 12.2 \(a = 5\), \(b = 0\), \(p=7\). \(X_0 = 4\). Wtedy otrzymujemy kolejno:

    \(4, 6, 2, 3, 1, 5, 4, 6, \dots \) i po podzieleniu przez 7 odpowiednio: \(.5714285716,\) \(.8571428574,\) \(.2857142858,\) \(.4285714287, \) \(.1428571429,\) \(.7142857145,\) \(.5714285716,\) \(.8571428574, \dots \).

Istnieją pewne zasady wybierania parametrów. W szczególności, \(p\) powinno być bardzo duże, aby jak najbardziej ograniczyć zjawisko okresowości. Z podobnych względów także \(a\) powinno być dużą liczbą, najlepiej względnie pierwszą z \(p\). Natomiast wybór \(b\) ma mniejsze znaczenie – często przyjmuje się \(b=0\).

Okazuje się, że przy odpowiednio wybranych parametrach oraz przy zastosowaniu dodatkowych procedur liczby pseudolosowe i ich zestawy mają bardzo dobre własności – potwierdzają to także odpowiednie testy statystyczne.

Przykładowo, program Maple (już w wersji 5) używał generatora liczb pseudolosowych z bardzo dużymi parametrami \(a\) oraz \(p\), mianowicie:

\[a = 427419669081, \;\; p = 999999999989.\]

Wartość ziarna \(X_0\) można w każdej chwili zadać zgodnie z aktualnymi potrzebami. Może nam na przykład zależeć, aby przy powtórzeniach danego losowania zawsze otrzymywać te same liczby pseudolosowe – zadajemy wtedy taką samą (stałą) wartość \(X_0\). Z drugiej strony, możemy żądać, aby w każdym losowaniu otrzymywać inne liczby pseudolosowe – można to na przykład osiągnąć, zadając wartość ziarna w zależności od upływu czasu zużytego przez procesor od rozpoczęcia aktualnej sesji.

Mając liczby pseudolosowe z rozkładu jednostajnego na odcinku \([0,1]\), można, stosując odpowiednią metodę, uzyskać liczby pseudolosowe z innego zadanego rozkładu.

  • Przykład – 12.3 (liczby pseudolosowe z rozkładu dyskretnego) Niech rozkład \(Q\) będzie zadany przez ciągi: \(x_1,x_2, \dots , \), \(p_1,p_2, \dots , \). Czyli \(Q(x_i) = p_i\). Definiujemy liczby \(F_0 = 0\), \(F_i = F_{i-1} + p_i\). \(i = 1,2,3, \dots \). Przypuśćmy, że liczby pseudo-losowe \(u_1, u_2, u_3, \dots \) są wylosowane według rozkładu \(U(0,1)\). Wtedy punkty \(y_1, y_2, y_3, \dots \) wybrane według reguły:

    \(y_j = x_k\), gdzie \(k\) jest takie, że: \(u_j \in (F_{k-1}, F_k]\).

    są wybrane z rozkładu \(Q\). Uzasadnić (ćwiczenie).

  • Przykład – 12.4 (liczby pseudolosowe z rozkładu ciągłego) Załóżmy, że zmienna losowa \(X\) ma rozkład \(Q\) oraz dystrybuantę ciągłą, \(F\). Dla uproszczenia załóżmy, że \(F\) jest silnie rosnąca. Zauważmy, że zmienna losowa \(U = F(X) = F\circ X\) ma rozkład \(U(0,1)\).

    Rzeczywiście, dla każdego \(0 < u < 1\): \(F_U(u) = P(U \le u) = P(F\circ X \le u) = P(X \le F^{-1}(u)) = F(F^{-1}(u)) = u\), a to oznacza, że \(F_U\) jest dystrybuantą rozkładu \(U(0,1)\).

    Aby więc wylosować liczbę \(x\) z rozkładu \(Q\) można wylosować liczbę z rozkładu \(U(0,1)\) i wziąć \(x = F^{-1}(u)\).

    Ponieważ odwracanie dystrybuanty może być trudne (czasochłonne), istnieją również inne metody pozyskiwania liczb pseudo-losowych z określonych typów rozkładów.

Obecnie chyba najczęściej stosowaną metodę pozyskiwania liczb pseudo losowych z rozkłądu \(U(0,1)\) stanowią różne wersje: Mersenne Twister Algorithm.

Rachunek prawdopodobieństwa — Estymatory i przedzialy ufności

(image)

Rachunek prawdopodobieństwa 1, 2

12.2 Estymatory i przedziały ufności

  • Definicja – 12.5 (Próbka prosta) Dana jest rozkład \(Q\). Próbką prostą z rozkładu \(Q\) nazywamy ciąg niezależnych zmiennych losowych \(X_1, X_2, \dots , X_n\) takich, że dla każdego \(i = 1,2,\dots ,n\), \(P_{X_i} = Q\).

  • Definicja – 12.6 (Estymator) Jeżeli \(X_1, X_2, \dots , X_n\) jest próbką prostą, a \(g :\rn \to \r \) jest funkcją borelowską, to zmienną losową \(g(X_1, X_2, \dots , X_n)\) nazywamy estymatorem.

Najczęściej mówiąc o estymatorze mamy na myśli, że powinien on w jakimś określonym sensie przybliżać pewną wielkość, na przykład nadzieję matematyczną lub inny parametr rozkładu.

  • Definicja – 12.7 (Estymator silnie zgodny) Estymator \(g(X_1, X_2, \dots , X_n)\) parametru \(a\) jest zgodny silnie \(\rwn g(X_1, X_2, \dots , X_n) \stackrel {1}{\longrightarrow } a\), gdy \(n \to \infty \).

  • Definicja – 12.8 (Estymator słabo zgodny) Estymator \(g(X_1, X_2, \dots , X_n)\) parametru \(a\) jest zgodny słabo \(\rwn g(X_1, X_2, \dots , X_n) \stackrel {s}{\longrightarrow } a\), gdy \(n \to \infty \).

Powyższe definicje są formalnie błędne, niemniej często używane. Powinno się oczywiście mówić o ciągu o wyrazach \(g_n(X_1, X_2, \dots , X_n)\).

  • Definicja – 12.9 (Estymator nieobciążony) Estymator \(g(X_1, X_2, \dots , X_n)\) parametru \(a\) jest nieobciążony \(\rwn E(g(X_1, X_2, \dots , X_n)) = a\).

  • Przykład – 12.10 (Estymator wartości oczekiwanej) Dana jest zmienna losowa \(X\) oraz próbka prosta \(X_1, X_2, \dots , X_n\) z rozkładu \(P_X\). Niech \(m = E(X)\). Definiujemy \(\di \bar {X}_n = \frac {X_1+ X_2, \dots + X_n}{n}\). Jak wiemy, jest to nieobciążony estymator parametru \(m\). Natomiast Mocne Prawo Wielkich Liczb dla i.i.d. gwarantuje, że jest to estymator silnie zgodny (a więc także sła bo zgodny).

  • Przykład – 12.11 Niech \(Y_1 = (Y_{11},Y_{12}), \dots , Y_n = (Y_{n1},Y_{n2}) \) będą niezależnymi wektorami losowymi o rozkładzie jednostajnym na kwadracie \([-1,1]^2\). Określamy zmienne losowe:

    \[ X_i = \left \{\begin {array}{ll} 1, \mbox { gdy } & Y_{i1}^2 + Y_{i2}^2 \le 1\\ 0, \mbox { gdy } & Y_{i1}^2 + Y_{i2}^2 > 1 \end {array} \right . \]

    Rozważamy estymator \(4 \bar {X}_n\). Zauważmy, że jest to estymator nieobciążony i silnie zgodny liczby \(\pi \).

    Rzeczywiście: Ponieważ \(Y_i\) mają rozkład jednostajny, to \(P(X_i = 1)= \frac {\pi }{4}\). Mamy więc też \(m = E(X_i) = \frac {\pi }{4}\). Co więcej zmienne losowe \(X_i\) są niezależne jako funkcje wektorów niezależnych. Z poprzedniego przykładu wynika, że \(\bar {X}_n\) jest estymatorem nieobciążonym i silnie zgodnym liczby \(m\). A więc \(4 \bar {X}_n\) jest estymatorem nieobciążonym i silnie zgodnym liczby \(4m = \pi \).

  • Przykład – 12.12 (Estymatory wariancji) Dana jest zmienna losowa \(X\) oraz próbka prosta \(X_1, X_2, \dots , X_n\) z rozkładu \(P_X\). Niech \(\sigma ^2 = D^2(X)\). Definiujemy:

    \[ \hat {\sigma }^2_n = \frac {1}{n}\sum _{i=1}^n(X_i - \bar {X}_n)^2. \]

    Można sprawdzić (ćwiczenie), że \(E(\hat {\sigma }^2_n) = \frac {n-1}{n}\sigma ^2\). Tak więc \(\hat {\sigma }^2_n\) nie jest estymatorem nieobciążonym (jest asymptotycznie nieobciążony) \(\sigma ^2\). Jest jednak zgodny silnie. Zauważmy, że:

    \begin{equation} \hat {\sigma }^2_n = \frac {1}{n}\sum _{i=1}^n(X_i - \bar {X}_n)^2 = \frac {1}{n}\sum _{i=1}^n(X_i^2 - 2 X_i \bar {X}_n + \bar {X}_n^2) = \frac {1}{n}\sum _{i=1}^n X_i^2 - \bar {X}_n^2. \label {eq:odchs} \end{equation}

    Stosujemy Mocne Prawo Wielkich Liczb do ciągu \(X_i\) oraz do ciągu \(X_i^2\). \(\bar {X}_n \stackrel {1}{\longrightarrow } E(X), \ \ \ \frac {1}{n}\sum _{i=1}^n X_i^2 \stackrel {1}{\longrightarrow } E(X^2). \) Stąd: \(\di \hat {\sigma }^2_n \stackrel {1}{\longrightarrow } E(X^2) - E(X)^2 = D^2(X). \). Zauważmy teraz, że:

    \[\di \frac {n}{n-1} \hat {\sigma }^2_n = \frac {1}{n-1}\sum _{i=1}^n(X_i - \bar {X}_n)^2\]

    jest nieobciążonym i zgodnym silnie estymatorem \(\sigma ^2\).

  • Przykład – 12.13 (kontynuacja Przykładu 12.10) Wiemy już, że \(\bar {X}_m\) jest „dobrym’ estymatorem wartości oczekiwanej \(m\), ale ważnym pytaniem pozostaje: jak bardzo otrzymane wartości tego estymatora różnią się od prawdziwej wartości \(m\)? Oczywiście nie potrafimy odpowiedzieć na to pytanie z całkowitą pewnością! Możemy jednak podać odpowiedź obarczoną niewielkim błędem, co więcej, możemy z góry określić wielkość tego błędu. Ustalamy małą liczbę \(\alpha >0\) (0.05; 0.01) i szukamy takiego przedziału, zwanego przedziałem ufności, \((a,b)\), że:

    \[P(m \in (a,b)) = 1 - \alpha . \]

    Oczywiście liczby \(a, b\) muszą mieć charakter losowy zależny od wartości próbki. Co więcej, sie mogą one być wyznaczone jednoznacznie. Najczęściej szuka się ich w trzech następujących postaciach:

    (1) \(a = \bar {X}_n - \ve \), \(b = \bar {X}_n + \ve \).

    (2) \(a = -\infty \), \(b = \bar {X}_n + \ve \).

    (3) \(a = \bar {X}_n - \ve \), \(b = \infty \).

Zadanie rozwiązujemy w oparciu o Centralne Twierdzenie Graniczne. Musimy jednak wtedy założyć, że zmienna losowa \(X\), a więc wszystkie zmienne losowe \(X_1, \dots , X_n\), mają skończoną wariancję \(\sigma ^2\). Pamiętając, że \(n\) jest duże możemy przyjąć, że \(\bar {X}_n\) ma rozkład normalny \(N(m,\frac {\sigma }{\sqrt {n}})\).

Rozwiążmy problem (1). Poprzednia nierówność przyjmuje postać:

\[ P(m \in (\bar {X}_n - \ve , \bar {X}_n + \ve )) = 1 - \alpha . \]

Otrzymujemy kolejno:

\[ P(\bar {X}_n \in (m - \ve , m + \ve )) = 1 - \alpha . \]

\[ \Phi _{m,\frac {\sigma }{\sqrt {n}}}(m + \ve ) - \Phi _{m,\frac {\sigma }{\sqrt {n}}}(m - \ve ) = 1 - \alpha . \]

\[ 2 \Phi \left (\frac {\ve \sqrt {n}}{\sigma } - 1 \right ) = 1 - \alpha , \ \ \ \ \Phi \left (\frac {\ve \sqrt {n}}{\sigma } \right ) = 1 - \frac {\alpha }{2}, \]

\[ \frac {\ve \sqrt {n}}{\sigma } = \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ), \]

\[ \ve = \frac {\sigma }{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ). \]

Problem (2) oraz (3) rozwiązuje się podobnie (ćwiczenie), otrzymując w obydwóch przypadkach wzór:

\[ \ve = \frac {\sigma }{\sqrt {n}} \Phi ^{-1}\left (1 - \alpha \right ). \]

W zagadnieniach praktycznych często jednak nie znamy \(\sigma \). W takiej sytuacji możemy użyć jego estymatora \(\di \sqrt {\frac {n}{n-1} \hat {\sigma }^2_n}\), lub \(\di \sqrt {\hat {\sigma }^2_n} = \hat {\sigma }_n\). W tym drugim przypadku wzory na \(\ve \) przyjmują postać:

\[ \ve = \frac {\hat {\sigma }_n}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ). \]

oraz

\[ \ve = \frac {\hat {\sigma }_n}{\sqrt {n}} \Phi ^{-1}\left (1 - \alpha \right ). \]

  • Przykład – 12.14 (kontynuacja Przykładu 10.21) Przeprowadzono następne \(n = 10 000\) symulacji \(m\) – średniego czasu oczekiwania Leona na dotarcie do okienka – otrzymując tym razem: realizację \(\hat {X}_n\), \(\hat {x} = 7.5402\) oraz \(\hat {\sigma } = 1.0532\). Na poziomie ufności \(\alpha = 0.95\) przedział ufności dla \(m\) wynosi \([7.5196, \ 7.5609]\). Na poziomie ufności \(0.9\) przedział ten jest nieco krótszy i wynosi \([7.5229, \ 7.5575]\).

  • Przykład – 12.15 (kontynuacja Przykładu 10.22) Chcemy obecnie wyznaczyć przybliżoną wartość prawdopodobieństwa zdarzenia

    \[ A = \{\max _{1 \le k \le n}|S_k - E(S_k)| \ge \ve \}, \]

    przy czym \(S_k = X_1 + ... + X_k\), gdzie \(X_1, ..., X_n\) są niezależnymi zmiennymi losowymi o rozkładzie Poissona \(P_5\). Bierzemy \(\ve = 20\), \(n = 30\).

    Pamiętamy, że \(p= P(A) = m = E(I_A)\). Generujemy więc realizację \(y_1, ..., y_N\) próbki prostej, powiedzmy \(Y_1, ..., Y_N\) z rozkładu \(B(1,p)\), \(N = 10000\). Mianowicie dla każdego \(i = 1, ..., 10000\) generujemy ciąg liczb \(x_1, ..., x_{30}\) z rozkładu Poissona \(P_5\), wyliczamy \(s_k = y_1 + ... + y_k\) oraz \(E(S_k) = 5k\) i bierzemy

    \[ y_i = \left \{\begin {array}{cc}1, & \mbox { gdy } \max _{1 \le k \le 30}|s_k - 5k| \ge 20 \\ 0, & \mbox { gdy } \max _{1 \le k \le 30}|s_k - 5k| < 20. \end {array} \right . \]

    Wyliczamy \(\bar {y} = \frac 1N\sum _{i=1}^Ny_i\) oraz \(\hat {\sigma }^2 = \frac {1}{N}\sum _{i=1}^N y_i^2 - \bar {y}_N^2\). Ponieważ \(y_i^2 = y_i\), więc \(\hat {\sigma }^2 = \bar {y} - \bar {y}^2\). Za pomocą Maple otrzymujemy \(\bar {y} = 0.1518\) i dalej \(p = 0.1518\), \(\hat {\sigma } = 0.3588\) oraz dwustronny przedział ufności dla \(p\) na poziomie ufności \(0.95\): \([0.1448,\ 0.1588]\).

Rachunek prawdopodobieństwa — Calkowanie metodami Monte Carlo

(image)

Rachunek prawdopodobieństwa 1, 2

12.3 Całkowanie metodami Monte Carlo

Chcemy obliczyć całkę \(\di J = \int _a^b f(x)\,dx\).

Metoda I (uogólnienie metody obliczania \(\pi \)), przykład 12.1.

Załóżmy, że \(f\) jest ograniczona, dla uproszczenia, że \(0 \le f(x) \le c\), gdzie \(c \in \r \).

Niech \(U_1 = (U_{11},U_{12}), \dots , U_n = (U_{n1},U_{n2}) \) będą niezależnymi wektorami losowymi o rozkładzie jednostajnym na prostokącie \([a,b]\times [0,c]\). Określamy zmienne losowe:

\[ X_i = \left \{\begin {array}{ll} 1, \mbox { gdy } & f(U_{i1}) \le U_{i2} \\ 0, \mbox { gdy } & f(U_{i1}) > U_{i2} \end {array} \right . \]

Oczywiście zmienne losowe \(X_i\) są niezależne i mają rozkład \((0,1,p)\), gdzie \(\di p = \frac {J}{(b-a)c}\). Mamy więc \(m = E(X_i) = p\), \(\sigma ^2 = D^2(X_i) = p(1-p)\). Ponieważ \(\bar {X}_n\) jest nieobciążonym i silnie zgodnym estymatorem \(m\), to \(\bar {J}_n =(b-a)c\bar {X}_n\) jest nieobciążonym i silnie zgodnym estymatorem całki \(J\).

Znajdziemy dwustronny przedział ufności dla \(J\) na poziomie \(1 - \alpha \). Ponieważ dla \(m\) takim przedziałem jest \((\bar {X}_n - \ve , \bar {X}_n + \ve )\), gdzie \(\ve = \frac {\sigma _X}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ). \), to dla \(J = (b-a)c m\) jest przedział: \((\bar {J}_n - \delta _1,\bar {J}_n + \delta _1)\), gdzie:

\[\di \delta _1 = (b-a)c \ve = (b-a)c \frac {\sqrt {\frac {J}{(b-a)c}(1 - \frac {J}{(b-a)c})}}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ) = \]

\[\sqrt {J(b-a)c - J^2} \frac {1}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ).\]

Metoda II. Zauważmy, że

\[\di J = \int _{a}^b f(x)\,dx = (b-a)\int _{\r }\frac {1}{b-a} I_{[a,b]}(x) f(x)\,dx = (b-a)E(f(X)),\]

gdzie \(X\) jest zmienną losową o rozkładzie \(U(a,b)\).

Stosując Przykład 12.10 do zmiennej \(Y = f(X)\) mamy wzór na estymator nadziei \(m_Y = E(Y)\) oraz umiemy znaleźć przedziały ufności dla \(m_Y\).

Estymatorem \(\hat {J}\) dla całki \(J\) jest więc \(\hat {J} = (b-a) \bar {Y}_n= \frac {b-a}{n} \sum _{i=1}^n Y_i\), gdzie \(Y_i = f(X_i)\), a \(X_1,X_2, \dots , X_n\) jest próbką prostą z rozkładu \(P_X = U(a,b)\).

Przedziałem ufności dla \(J\) jest więc: \(\di ((b-a)\bar {Y}_n - \delta _2, (b-a)\bar {Y}_n + \delta _2)\), gdzie

\[ \delta _2= (b-a)\frac {\sigma _Y}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ), \]

gdzie \(\di \sigma _Y^2 = D^2(Y) = E(f(X)^2) - E(f(X))^2 = \frac {1}{b-a}\int _a^bf(x)^2\,dx - \frac {J^2}{(b-a)^2}\).

Tak więc:

\[ \delta _2 = \sqrt {(b-a) \int _a^b f(x)^2 \,dx - J^2} \frac {1}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ). \]

Wzory na przedział ufności otrzymane w powyższych metodach zawierają wielkość \(J\), której nie znamy, więc nie mogą być bezpośrednio stosowane.

Zauważmy jednak, że Metoda II dostarcza potencjalnie lepszy (na ogół mniejszy) przedział ufności niż Metoda I. Mianowicie: \(\di (b-a) \int _a^b f(x)^2 \,dx \le J(b-a)c\). Czyli \(\delta _2 \le \delta _1\). Przy nieuważnym doborze \(c\) ta nierówność może być bardzo istotna.

Faktyczny przedział ufności można wyznaczyć dopiero po przeprowadzeniu eksperymentu.

W Metodzie I jest to przedział: \(\di ((b-a)c\bar {X}_n - \hat {\delta }_1,b-a)c\bar {X}_n + \hat {\delta }_1)\), \(\di \hat {\delta }_1 = (b-a)c \frac {\hat {\sigma }_X}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right )\), gdzie \(\di \hat {\sigma }_X^2 = \frac {1}{n}\sum _{i=1}^n(X_i - \bar {X}_n)^2\) = \(\di \frac {1}{n}\sum _{i=1}^n X_i^2 - (\bar {X}_n)^2 \).

W Metodzie 2 jest to przedział: \(\di ((b-a)\bar {Y}_n - \hat {\delta }_2, (b-a)\bar {Y}_n + \hat {\delta }_2)\), \(\di \hat {\delta }_2 = (b-a)\frac {\hat {\sigma }_Y}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ), \) gdzie \(\di \hat {\sigma }_Y^2 = \frac {1}{n}\sum _{i=1}^n(Y_i - \bar {Y}_n)^2\) = \(\frac {1}{n}\sum _{i=1}^n Y_i^2 - (\bar {Y}_n)^2 \).

  • Przykład – 12.16

    Policzmy całkę \(J = \int _0^3 x^2\,dx\) stosując obie metody.

    Losujemy (Maple) \(n = 10 000\) punktów (z prostokąta \([0,3]\times [0,9]\) w Metodzie I, z odcinka \([0,3]\) w Metodzie II), ustalamy \(\alpha := 0.05\). W tym przypadku umiemy oczywiście wyliczyć bezpośrednio: \(J = 9\), a także \(\delta _1 = 0.249462688356251\) oraz \(\delta _2 = 0.157774057303750\).

    W Metodzie I otrzymujemy \(\bar {J}_n = 8.934300000\) oraz

    \(\hat {\delta }_1 = 0.249003673187557\).

    W Metodzie II otrzymujemy \(\bar {J}_n = 8.91313296682201 \) oraz

    \(\hat {\delta }_2 =0.157905405151449\).

  • Przykład – 12.17

    Porównajmy obydwie metody dla bardziej skomplikowanej funkcji.

    Niech \(f(x) = x+ \sin x+ \cos 2x\).

    Interesuje na całka
    \(\di J = \int _0^{4\pi } f(x)\,dx\).

    Łatwo bezpośrednio obliczyć, że \(J = 8\pi ^2\).

(image)

Uruchamiamy 10 razy metodą 1 i 10 razy metodą 2. Najpierw porównujemy same przybliżenia \(J\), a później odpowiednie przedziały ufności (\(\alpha = 0.05\)). W każdej z metod przeprowadzamy 2000 losowań z rozkładu jednostajnego. Metoda 1 – kolor czerwony, Metoda 2 – kolor niebieski.

(image)

(image)

  • 1. Opisanymi dwiema metodami oraz innymi metodami Monte Carlo można obliczać całki wielowymiarowe:

    \[ \int _D f\, d\mu , \mbox { gdzie } D \subset \rn ,\ \ \mu \mbox { -- dana miara}. \]

  • 2. W wielu przypadkach metody Monte Carlo są jedynymi metodami obliczania takich całek!

  • 3. Oprócz dwóch omówionych powyżej istnieje więcej metod Monte Carlo obliczania całek. Istotnym problemem jest to, aby do danego problemu dobrać metodę, które dają szansę na mały przedział ufności.

  • 4. Wiele problemów obliczeniowych można sprowadzić do odliczania całek.

  • 5. Metody Monte Carlo stosowane są też w innych zagadnieniach. W szczególności metami Monte Carlo owiązywane są złożone zadania optymalizacyjne.

Rachunek prawdopodobieństwa — Optymalizacja

(image)

Rachunek prawdopodobieństwa 1, 2

12.4 Optymalizacja

Dana jest funkcja \(f : A \longrightarrow \r \). gdzie \(A \subset \rn \).

Należy wyznaczyć efektywnie minimum globalne, to znaczy punt \(a \in A\) taki, że

\[ \forall x \in A \ f(a) \le f(x). \]

lub jego możliwie najlepsze przybliżenie.

Oznaczamy zbiór rozwiązań:

\[ A^{\star } := \{a \in A: \hbox { dla kaÅijdego } x \in A \ \‚f(a) \le f(x)\}. \]

Szukanie maximum globalnego funkcji \(f \rwn \) szukanie minimum globalnego funkcji \(-f\).

Omówimy najprostszy algorytm stochastycznej optymalizacji, Pure Random Search (PRS).

Zakładamy, że \(f : A \to \r \) jest funkcją ciągłą, \(A\) jest zwarty. Dla uproszczenia załóżmy, że \(A = [0,1]^n\).

Algorytm PRS.

  • 1. Losujemy punkt ze zbioru \(A\) zgodnie z rozkładem jednostajnym na \(A\). Oznaczamy go jako \(x_0\). Kolejne punkty \(x_1, x_2,x_3 \dots ,\) tworzymy w następujący sposób.

    Dla \(t = 0,1,2,3,\dots \):

  • 2. Losujemy punkt \(\by _t \in A\) według rozkładu jednostajnego.

  • 3. Jeżeli \(f(\by _t) < f(x_t)\), kładziemy \(x_{t+1} = \by _t\). W przeciwnym przypadku kładziemy \(x_{t+1} = x_t\).

Okazuje się, że punkty \(x_t\) określone powyższym algorytmem zmierzają do zbioru \(A^\star \) z prawdopodobieństwem 1, to znaczy \(dist(x_t,A^\star ) \str 0\), gdy \(t \str \infty \). Bardziej formalnie formułujemy to tak.

  • Twierdzenie – 12.18 Niech \(X_t\) będzie ciągiem zmiennych losowych, których realizacje \(x_t\) określa algorytm. Wtedy

    \[ P(\{\omega : X_t(\omega ) \str A^\star ,\hbox { gdy } t \str \infty \}) = 1. \]

Dowód.

Przypominamy drugą część lematu 10.17.

Lemat Borela-Cantellego Niech \((\Omega ,\Sigma ,P)\) będzie przestrzenią probabilistyczną.
Niech \(C_1,C_2,C_3,\dots \in \Sigma \) będzie ciągiem zdarzeń niezależnych:

\[\sum _{i=1}^\infty P(C_i) = \infty \ \imp \‚P\left (\bigcap _{t=1}^\infty \bigcup _{i=t}^\infty C_i \right ) = 1. \]

Oznaczmy \(m = \min _A f\). Wtedy \(A^\star = \{x \in A: f(x) = m\}\).

Ciąg \(f(X_t)\) jest nierosnący i ograniczony z dołu przez \(m\), więc jest zbieżny do pewnej zmiennej losowej \(\eta \ge m\).

Niech \(\bY _t\) będą niezależnymi zmiennymi losowymi o rozkładzie jednostajnym na \(A\), których realizacjami są punkty \(\by _i\).

Ustalmy \(\ve > m\).

Ponieważ funkcja \(f\) jest ciągła, zbiór \(B = \{x \in A: f(x) < \ve \}\) jest niepusty i otwarty, więc jego miara Lebesgue’a, \(\nu (B) = \alpha > 0\).

Określmy:
\(C_t = \{\omega \in \Omega : f(\bY _t(\omega )) < \ve \}\) = \(\bY _t^{-1}(B)\), dla \(t = 1,2,3,\dots \).
\(C_t\) są zdarzeniami niezależnymi.

Ponieważ zmienne losowe \(\bY _t\) mają rozkład \(\nu \), więc \(P(C_t) = P_{\bY _t}(B) = \nu (B) = \alpha \) dla \(t \ge 1\). Jest więc spełnione założenie Lematu Borela-Cantellego.

Na podstawie algorytmu PRS zachodzi implikacja:

\[\eta \ge \ve \‚\imp \ \forall t \ge 1\ f(\bY _t) \ge \eta \ge \ve , \]

czyli

\[\{\eta \ge \ve \} \subset \bigcap _{t=1}^\infty \left (\Omega \setminus C_t\right ) =\Omega \setminus \bigcup _{t=1}^\infty C_t.\]

\[\bigcap _{t=1}^\infty \bigcup _{i=t}^\infty C_i \subset \bigcup _{t=1}^\infty C_t \subset \{\eta < \ve \} \]

Z Lematu Borela-Cantellego: \(P(\{\eta < \ve \}) =1\). Ponieważ, \(\ve >m\) było ustalone dowolnie więc \(\eta = m\). Tak więc: \(P(f(X_t) \to m, \hbox { gdy } t \str \infty ) = 1\).

Z ciągłości \(f\) oraz zwartości \(A\), \(P\,(X_t \str A^\star ,\hbox { gdy } t \str \infty ) = 1\) .   \(\Box \)

  • Przykład – 12.19 Szukamy minimum i maksimum globalnego funkcji \(f(x) = x-(x+1)^2\sin (5x) \) na przedziale \(A = [-2,2]\).

    Stosując metodę PRS i wykonując 1000 kroków otrzymujemy:

    \(a_{min} = 1.5937765\), \(f(a_{min}) = -5.0895387\).

    \(a_{max} = 1.9991702\), \(f(a_{max}) = 6.86129796\).

(image)

Rozwiązywanie równań, bądź układów równań, można sprowadzić do problemu poszukiwania minimum globalnego. Rzeczywiście, zamiast szukać rozwiązania układu \(f_i(x) = 0\), \(i =1,...,n\) można szukać minimum globalnego funkcji \(\di F(x) = \sum _{i=1}^nf_i(x)^2\).

  • Przykład – 12.20 Znajdziemy przybliżenie rozwiązania równania:

    \[ \sqrt {x^2+e^{-x}} = x-2 \cos (2x) \]

    w przedziale \([0,1]\).

    Stosujemy metodę PRS do funkcji \((f(x) - g(x))^2\), gdzie \(f(x)\) oznacza lewą, a \(g(x)\) prawą stronę równania. Po wykonaniu 1000 kroków otrzymamy:
    \(x^\star = 0.84191450\), przy czym
    \(f(x^\star ) = 1.067569590\),
    \(g(x^\star ) = 1.067498775\).

(image)

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

12.5 Pytania

  • Pytanie 12.1 Liczby \(0.657, 0.773, 0.801, 0.501, 0.123, 0.202\) wylosowano z rozkładu \(U(0,1)\). Na tej podstawie wygeneruj liczby z rozkładu \(B(3,1/2)\).

Wskazówka. 2, 2, 2, 2, 0, 1. Trzeba było podzielić odcinek \([0,1]\) punktami \(1/8, 4/8, 7/8\).

  • Pytanie 12.2 Niech \(X_1,X_2,X_3, ... \) będą i.i.d. z rozkładu \(U(0,a)\), \(a > 0\). Zbadać własności estymatora parametru \(a\): \(M_n = \max (X_1,...,X_n)\).

Wskazówka. Zgodność. Ustalmy \(0< \ve < a\) i zdefiniujmy zdarzenia \(A_n = \{M_n \le a-\ve \}\). Widać, że \(\di P(A_n) = \left (\frac {a-\ve }{a}\right )^n\). Stąd \(\di \sum _{n=1}^\infty P(A_n) < \infty \), co z Lematu Borela-Canteellego oznacza, że \(\di P\left (\bigcap _{N=1}^\infty \bigcup _{n \ge N} A_n\right ) = 0\).

Inaczej:

\[P\left (\bigcap _{\ve >0} \bigcup _{N=1}^\infty \bigcap _{n \ge N} \{M_n > a-\ve \}\right ) = 1,\]

czyli \(\di M_n \stackrel {1}{\str } a\).

Nieobciążoność.

\[F_{M_n}(x) = \left (\frac {x}{a}\right )^n, \ \ f_{M_n}(x) = n\frac {x^{n-1}}{a^n}, \ \ E(M_n) = \frac {n}{n+1} a.\]

Estymator jest obciążony.

Nieobciążonym i zgodnym estymatorem parametru \(a\) jest więc: \(\di \frac {n+1}{n}M_n\).

  • Pytanie 12.3 Dana jest funkcja \(f:[a,b] \str \r \), o której wiadomo, że spełnia warunek \(|f(x)| \le M\) dla każdego \(x \in [a,b]\). Jak można estymować \(\di \int _a^b f(x)\,dx\) używając Metodę 1 z wykładu?.

Wskazówka. Rozważyć funkcję \(g = f + M\).

  • Pytanie 12.4 Aby obliczyć całkę \(J = \int _{-1}^{1} f(x)\,dx\), gdzie \(0 < f(x) < 1\) zastosowano Metodę 1. Wylosowano \(1000\) punktów z prostokąta \([-1,1]\times [0,1]\) i okazało się, że \(360\) z nich leży pod wykresem funkcji. Na poziomie ufności \(0.95\) wskaż przedział ufności dla \(J\).

Wskazówka. Przedział ufności jest postaci \((\bar {J}_n - \delta ,\bar {J}_n + \delta )\), gdzie \(\bar {J}_n =(b-a)c\bar {X}_n\), \(\delta = (b-a)c \frac {\sigma }{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right )\). Mamy \(a= -1\), \(b=1\), \(c = 1\), \(n = 1000\), \(\bar {X}_n = \frac {360}{1000} = 0.36\), \(\Phi ^{-1}(1 - \frac {\alpha }{2}) = 1.96\). Nie znamy \(\sigma \), ale na podstawie próby znamy jego przybliżenie, mianowicie \(\hat {\sigma }_X^2 = \frac {1}{n}\sum _{i=1}^n(X_i - \bar {X}_n)^2 = \frac {1}{n}\sum _{i=1}^n X_i^2 - (\bar {X}_n)^2 \). Ponieważ \(X_i = X_i^2\), to \(\hat {\sigma }_X^2 = \frac {360}{1000} - (\frac {360}{1000})^2 = 0.230400\). W takim razie przedział ufności dla \(J\), to: \([0.660498, 0.779501]\).

  • Pytanie 12.5 W celu estymacji całki \(\di J = \int _a^b f(x)\,dx\) wylosowano \(n\) punktów \(x_i\) według rozkładu jednostajnego \(U([a,b])\) i wyznaczono sumy \(s = f(x_1) + \dots +f(x_n)\) oraz \(kw = f(x_1)^2 + \dots +f(x_n)^2\). Wskaż przedział ufności dla \(J\) postaci \((c,\infty )\) na poziomie ufności \(1 - \alpha \).

Wskazówka. \(\di c = (b-a)\left (\frac {s}{n} - \frac {\sqrt {n\,kw - s^2}}{n}\Phi ^{-1}(1- \alpha )\right )\).

  • Pytanie 12.6 Wykonaj ćwiczenie zaproponowane w punkcie 8 dowodu Twierdzenia 8.13.

Wskazówka. Wystarczy wykazać, że

\[\{f(X_t) \str m, \hbox { gdy } t \str \infty \} \subset \{X_t \str A^\star ,\hbox { gdy } t \str \infty \}.\]

Niech \(\omega \in \{f(X_t(\omega )) \str m, \hbox { gdy } t \str \infty \}\) i niech \(x_t = X_t(\omega )\). Chcemy pokazać, że \(dist(x_t,A^\star ) \str 0\). Gdyby tak nie było, to istniałby taki podciąg \(t_k\) oraz \(\ve >0\), że

\begin{equation} \|x_{t_k} - x \| \ge \ve \hbox { dla kaÅijdego } x \in A^\star . \label {r1} \end{equation}

Ze zwartości \(A\) można wybrać podciąg \(t_{k_l}\) oraz punkt \(x^\star \in A\) takie, że \(x_{t_{k_l}} \str x^\star \). Wtedy z ciągłości \(f\) wiemy, że \(f(x_{t_{k_l}}) \str f(x^\star )\). Ale z naszego założenia: \(f(x_{t_{k_l}}) \str m\). Czyli \(m = f(x^\star )\), co z określenia \(A^\star \) oznacza, że \(x^\star \in A^\star \), więc nierówność (12.2) oznacza, że \(\|x_{t_{k_l}} - x^\star \| \ge \ve \) i w granicy \(\|x^\star - x^\star \| \ge \ve \), co daje sprzeczność.

Rachunek prawdopodobieństwa — Warunkowa wartość oczekiwana

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 13 Warunkowa wartość oczekiwana

13.1 Wartości oczekiwana rozkładów warunkowych

Zdefiniowaliśmy poprzednio rozkłady warunkowe w przypadku dwuwymiarowego wektora losowego o rozkładzie dyskretnym lub ciągłym. Można to powtórzyć dla wyżej wymiarowych wektorów losowych:

Niech \((X,Y)\) będzie będzie \(n\times m\)-wymiarowym wektorem losowym o dyskretnym rozkładzie danym przez \((\{(x_i,y_j)\},\{ p_{ij}\} )\). Czyli \(P(X = x_i,Y = y_j) = p_{ij}\). Niech:

\begin{equation} \label {eq:w1} p_{j|i} = P(Y=y_j|X=x_i) = \frac {P(X=x_i,Y=y_j)}{P(X=x_i)} = \frac {p_{ij}}{p_{i.}} = \frac {p_{ij}}{\sum _kp_{ik}}. \end{equation}

Rozkład dany przez ciągi \(\{y_j\}, \{p_{j|i}\}\) nazywamy rozkładem warunkowym \(Y\) pod warunkiem \(X= x_i\). Oznaczamy go jako \(P_{Y|X=x_i}\)..

Jeżeli \(m=1\), czyli gdy \(Y\) jest zmienną losową, \(P_{Y|X=x_i}\) jest rozkładem jednowymiarowym i wtedy można mówić o jego nadziei matematycznej, patrz Uwaga 6.10. Jeżeli istnieje, to dla powyższego rozkładu będzie to liczba oznaczana przez \(E(Y|X=x_i)\), a więc:

\[ E(Y|X=x_i) = \sum _j y_jp_{j|i} \]

  • Przykład – 13.1

    Przypomnijmy przykład dotyczący wektora losowego \((X,Y)\) o rozkładzie określonym przez tabelkę:

    \[ \begin {array}{cccccccc} $X$\backslash $Y$ & 1 & 2 & 3 & 4 & 5 & 6 & \ \color {red}{X} \\[1mm] 0 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ 1 & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12}\\ 2 & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12} \\[1mm] \color {blue}{Y} & \color {blue}{1/36} & \color {blue}{3/36} & \color {blue}{5/36} & \color {blue}{7/36} & \color {blue}{9/36} & \color {blue}{11/36} \end {array} \]

    \(X\) oraz \(Y\) były określone w kontekście rzutu dwiema kostkami: \(X\) – numer kostki na której wypadła większa liczba, lub \(0\), gdy liczby były równe.

    \(Y\) – maksimum oczek na dwóch kostkach.

    Rozkładem warunkowym \(P_{Y|X=0}\) jest rozkład jednostajny w punktach \(1, 2, 3, 4, 5, 6\), a więc \(E(Y|X=0) = 3.5\).

    Rozkład warunkowy \(P_{Y|X=2}\) jest określony przez ciągi \(2, 3, 4, 5, 6\) oraz \(1/15\), \(2/15\), \(3/15\), \(4/15\), \(5/15\), a więc \(E(Y|X=2) = 70/15 = 14/3\).

    Rozkład warunkowy \(P_{X|Y = 4}\) jest określony przez ciągi \(0,1,2\) oraz \(\frac 17\), \(\frac 37\), \(\frac 37\), a więc \(E(X|Y=4) = \frac {10}{7}.\)

Niech \((X,Y)\) będzie będzie \(n\times m\)-wymiarowym wektorem losowym o ciągłym rozkładzie danym przez gęstość \(f\).

\begin{equation} \label {eq:w2} f_{Y|X=x}(y) = f(y|x) = \left \{\begin{array}{lll} \frac {f(x,y)}{\int _\r f(x,y)\,dy} = \frac {f(x,y)}{f_X(x)}, & \mbox { gdy } & f_X(x) >0\\ 0, & \mbox { gdy } & f_X(x) = 0 \end {array} \right . \end{equation}

Tutaj \(f_X\) oznacza gęstość wektora losowego \(X\). Przy ustalonym \(x\), takim, że \(f_X(x) >0\) funkcja \(y \to f(y|x)\) jest gęstością. Zakładając, że \(m =1\) możemy więc, podobnie jak w przypadku dyskretnym mówić o nadziei matematycznej \(E(Y|X=x)\) określonej (o ile istnieje) jako:

\[ E(Y|X=x) = \int _\r y f(y|x)\, dy. \]

Oczywiście można w przypadku dyskretnym i w przypadku ciągłym zdefiniować także \(E(X|Y=y)\) dla zmiennej losowej \(X\) i dowolnego wektora losowego \(Y\).

\[ E(X|Y=y_j) = \sum _i x_ip_{i|j}, \ \ \ \‚E(X|Y=y) = \int _\r x f(x|y)\,dx. \]

  • Przykład – 13.2 (c.d. Przykładu 5.21)

    Losujemy według rozkładu jednostajnego liczbę \(a\) z odcinka \([0,1]\) a następnie według rozkładu jednostajnego liczbę \(b\) z odcinka \([0,a]\). \(X\) oraz \(Y\) są zmiennymi losowymi odpowiadającymi powyższym losowaniom. Pamiętamy, że gęstość warunkowa \(f(y|x)\) była dana jako \(f(y|x) = \frac {1}{x}I_{[0,x]}(y)\), dla \(0 < x \le 1\) oraz 0 w przeciwnym przypadku. W takim razie: \(E(Y|X=x) = \int _\r yf(y|x)\,dy = \int _0^x \frac {y}{x} dy = \frac {x}{2}\) dla \(0 < x \le 1\).

    Pamiętamy, że gęstość wektora losowego \(f\) można otrzymać jako iloczyn: \(f(x,y) = f(y|x)f_X(x) = \frac {1}{x}\) dla \(0 < y \le x \le 1\) oraz 0 w przeciwnym przypadku.

    Można więc wyliczyć gęstość warunkową dla \(0 < y \le x \le 1\):

    \[f(x|y) = \frac {f(x,y)}{\int _\r f(x,y)\,dx} = \frac {\frac {1}{x}}{\int _y^1 \frac {1}{x}\,dx} = \frac {\frac {1}{x}}{-\ln y} \]

    i dalej

    \[ E(X|Y=y) = \int _\r x f(x|y)\,dx = \int _y^1 x \frac {\frac {1}{x}}{-\ln y} = \frac {1-y}{- \ln y}. \]

Naszym celem będzie podanie definicji oraz własności i zastosowań tak zwanej warunkowej nadziei matematycznej zmiennej losowej \(Y\) względem wektora losowego \(X\), \(E(Y|X)\), a także pojęcia bardziej ogólnego, nadziei matematycznej zmiennej losowej \(Y\) względem \(\sigma \)-algebry A, \(E(Y|\a )\). Aby jednak nawiązać do wspomnianych właśnie sytuacji szczególnych zrobimy kilka wstępnych uwag.

  • Uwaga – 13.3

    Każdy wektor losowy określony na przestrzeni probabilistycznej (Ω, Σ, P ) , \(X : \Omega \str \rn \) generuje pewną \(\s \)-algebrę \(\s (X) \subset \Sigma \). Mianowicie:

    \[ \s (X) = \{X^{-1}(B): B \in {\cal B}(\rn )\}. \]

    Jest to oczywiście najmniejsza \(\s \)-algebra przy której \(X\) jest odwzorowaniem mierzalnym.

  • Przykład – 13.4

    Gdy \(X\) ma rozkład dyskretny wyznaczony przez ciągi \(\{x_i\}\), \(\{p_i\}\), \(i = 1,\dots N\), \(N \le \infty \), to \(\s (X)\) jest generowana przez rozkład zbioru \(\Omega \) na przeciwobrazy \(X^{-1}(x_i)\), czyli jest rodziną wszystkich możliwych sun przeciwobrazów \(X^{-1}(x_i)\).

Z poprzedniego semestru znamy już podstawowe twierdzenie 6.8:

Twierdzenie. Niech \(X: \Omega \to \rn \) będzie wektorem losowym, \(g: \rn \to \r \) funkcją borelowską. Wtedy:

\[ E(g(X)) = \int _\Omega g(X)\,dP = \int _{\rn } g\,dP_X, \]

przy czym obydwie strony istnieją jednocześnie.

Możemy teraz nieco uogólnić ten wzór:

  • Twierdzenie – 13.5 Niech \(X: \Omega \to \rn \) będzie wektorem losowym, \(h: \rn \to \r \) funkcją borelowską. \(B \in {\cal B}(\rn )\). Wtedy:

    \[ \int _{X^{-1}(B)} h(X)\,dP = \int _{B} h\,dP_X, \]

    przy czym obydwie strony istnieją jednocześnie.

Dowód. W poprzednim twierdzeniu wystarczy wziąć: \(g(x) = I_B(x)\cdot h(x)\), dla \(x \in \rn \), gdzie \(I_B\) jest funkcją charakterystyczną zbioru \(B\).   \(\Box \)

Podobnie można uogólnić wzór na nadzieję matematyczną dla rozkładów dyskretnych i ciągłych.

  • Twierdzenie – 13.6 Niech wektor \(X\) ma rozkład ciągły zadany przez gęstość \(f :\rn \to \r \).
    \(h :\rn \to \r \) jest funkcją borelowską, \(B \in {\cal B}(\rn )\). Wtedy:

    \[\int _{X^{-1}(B)} h(X)\,dP = \int _{B} h(x) f(x) \,dx,\]

    przy czym obydwie strony istnieją jednocześnie. Całkowanie odbywa się według miary Lebesgue’a.

Dowód. (ćwiczenie).   

Sformułować odpowiednią wersję w przypadku rozkładów dyskretnych (ćwiczenie).

Wróćmy do nadziei rozkładu warunkowego \(E(Y|X=x)\), w przypadku wektorów losowych \((X,Y)\) o rozkładach dyskretnych i ciągłych. Możemy teraz rozważać następujące odwzorowanie:

\[ \f : \Omega \ni \o \str E(Y|X = X(\o )). \]

  • Twierdzenie – 13.7 W przypadku, gdy wektor losowy \((X,Y)\) ma rozkład dyskretny, lub rozkład ciągły, odwzorowanie \(\f \), o ile jest dobrze określone, spełnia dwa warunki:

    (M) \(\f \) jest \(\s (X)\) mierzalne.

    (C) Dla każdego \(A \in \s (X)\) \(\int _A \f \,dP = \int _A Y\,dP\).

    Słowami: \(\f \) jest zmienną losową na przestrzenie probabilistycznej \((\Omega ,\s (X),P)\), taką, że na wszystkich zbiorach z \(\s (X)\) ma takie same całki (można mówić o średnich) co zmienna losowa \(Y\).

Dowód. Przypadek dyskretny. Ustalmy punkt \(x_i\). Wtedy \(\f \) jest funkcją stałą na zbiorze \(X^{-1}(x_i)\) równą \(E(Y|X=x_i)\), a to oznacza mierzalność względem \(\s \)-algebry generowanej przez te zbiory. Niech \(A \in \s (X)\). Wtedy \(A\) jest sumą co najwyżej przeliczalną zbiorów postaci \(X^{-1}(x_i)\). Całka po \(A\) jest więc sumą całek po tych zbiorach. Natomiast

\[ \int _{X^{-1}(x_i)}\f \,dP = E(Y|X=x_i)P(X^{-1}(x_i)) = \sum _j y_j p_{j|i}p_{i.} = \frac {\sum _j y_j p_{ij}}{p_i.} p_{i.}\]

\[= \sum _j y_j p_{ij} = \sum _j y_jP(X=x_i,y=y_j) = \sum _j\int _{\{X=x_i,Y=y_j\}}Y\,dP = \int _{X^{-1}(x_i)} Y\,dP.\]

Przypadek ciągły. \(\f \) wyraża się wzorem:

\[\f (\o ) = \int _\r y(f(y|X(\o ))\,dy , \mbox { gdzie }\]

\[ f(y|x) = \left \{\begin {array}{lll} \frac {f(x,y)}{\int _\r f(x,y)\,dy} = \frac {f(x,y)}{f_X(x)}, & \mbox { gdy } & f_X(x) >0\\ 0, & \mbox { gdy } & f_X(x) = 0 \end {array} \right . \]

Widać, że \(\f \) jest złożeniem funkcji mierzalnych względem \(\s (X)\), a więc jest \(\s (X)\)-mierzalne. Niech \(A \in \s (X)\). Oznacza to, że \(A = X^{-1}(B)\), gdzie \(B \in {\cal B}(\rn )\). \(B = B_1 \cup B_2\), gdzie \(B_1 = \{x \in B : f_X(x) > 0\}\), \(B_2 = \{x \in B : f_X(x) =0\}\). Wtedy \(A = X^{-1}(B_1) \cup X^{-1}(B_2)\) = \(A_1 \cup A_2\).

Zauważmy najpierw, że \(P(A_2) = 0\). Rzeczywiście: \(P(A_2) = P_X(B_2) = \int _{B_2}f_X(x)\,dx = 0\). Tak więc \(\int _{A_2} \f \,dP = \int _{A_2} Y\,dP = 0\).

Natomiast stosując dwukrotnie twierdzenie 13.6 dotyczące zmiany całkowania względem miary \(P\) na całkowanie przy użyciu gęstości \(f_X\) oraz \(f\), z Twierdzenia Fubiniego mamy:

\[\di \int _{A_1} \f \,dP = \]

\[ \int _{B_1} \frac {\int _\r yf(x,y) \,dy}{f_X(x)}f_X(x) \,dx = \int _{B_1} \int _\r yf(x,y) \,dy \,dx = \]

\[ \int _{B_1\times \r } yf(x,y) \,d(x,y) = \ (\mbox { bo } A_1 = (X,Y)^{-1}(B_1 \times \r ) \ ) \]

\[\int _{A_1} Y\,dP.\]

Czyli \(\int _A \f \,dP = \int _A Y\,dP\).   \(\Box \)

Rachunek prawdopodobieństwa — Twierdzenie Radona-Nikodyma

(image)

Rachunek prawdopodobieństwa 1, 2

13.2 Twierdzenie Radona-Nikodyma

Przypomnimy twierdzenie Radona-Nikodyma, gdyż stanowi ono klucz w kolejnych rozważaniach dotyczących nadziei warunkowych.

Niech \(\a \) będzie \(\s \)-algebrą na zbiorze \(\Omega \).

Funkcję \(\lambda : \a \str \r \) nazywamy przeliczalnie addytywną, jeżeli dla każdego ciągu parami rozłącznych zbiorów \(A_1,A_2,A_3,... \in \a \)

\[ \lambda \left (\bigcup _{i=1}^\infty A_i \right ) = \sum _{i=1}^n \lambda (A_i). \]

Każda miara skończona, w szczególności każda miara probabilistyczna jest przeliczalnie addytywna.

Mówimy, że przeliczalnie addytywna funkcja \(\lambda \) jest absolutnie ciągła względem miary \(\mu : \a \str \, [0,\infty ]\), piszemy często \(\lambda \ll \mu \), jeżeli dla każdego \(A \in \a \) zachodzi implikacja:

\[ \mu (A) = 0 \ \imp \ \lambda (A) = 0. \]

  • Przykład – 13.8 Jeżeli \(\mu : \a \str [0, \infty ]\) jest miarą, a \(g : \Omega \str \, \r \) \(\a \)-mierzalną funkcją taką, że \(\int _\Omega g\,d\mu \in \r \), to \(\lambda \) zdefiniowana jako:

    \begin{equation} \lambda (A) = \int _A g\,d\mu \end{equation}

    jest przeliczalnie addytywną funkcją, absolutnie ciągłą względem miary \(\mu \).

Przy pewnym założeniu powyższą implikację można odwrócić. Mówi o tym twierdzenie Radona-Nikodyma.

Mówimy, że miara \(\mu \) jest \(\sigma \)-skończona, jeżeli istnieją takie zbiory \(A_i \in \a \), że \(\Omega = \bigcup _{i=1}^\infty A_i\) oraz \(\mu (A_i) < \infty \).

Każda miara probabilistyczna jest \(\s \)-skończona. Miara Lebesgue’a jest \(\sigma \)-skończona.

  • Twierdzenie – 13.9 (Radon-Nikodym) Jeżeli \(\lambda \) jest przeliczalnie addytywną funkcją, absolutnie ciągłą względem \(\sigma \)-skończonej miary \(\mu \), to istnieje \(\a \)-mierzalna funkcja \(g : \Omega \str \, \r \), że dla każdego \(A \in \a \)

    \[ \lambda (A) = \int _Ag\,d\mu . \]

    Jeżeli \(\a \)-mierzalna funkcja \(h : \Omega \str \, \r \) spełnia dla każdego \(A \in \a \) ten sam warunek, to \(g\), \(h\) są równe \(\mu \)-prawie wszędzie, to znaczy to \(\mu (\{\o : g(\o ) \neq h (\o ) \} = 0\)

Dowód. Pomijamy.

  • Uwaga – 13.10 Poznaliśmy wcześniej definicję rozkładu ciągłego. Był to rozkład \(Q\), który ma gęstość, powiedzmy \(f\), czyli dla każdego boelowskiego zbioru \(A\): \(Q(A) = \int _A f\,dx\), gdzie całkowanie odbywa się względem miary Lebesgue’a, \(\mu _L\). Powyższe jednak oznacza, że \(Q \ll \mu _L\). Z twierdzenia Radona-Nikodyma wynika więc, że rozkład \(Q\) jest ciągły, wtedy i tylko wtedy, gdy miara \(Q\) jest absolutnie ciągła względem miary \(\mu _L\). Dlatego też część autorów używa terminologii „rozkład absolutnie ciągły" rezerwując termin „rozkład ciągły" do opisania sytuacji w której \(Q(\{a\}) = 0\) dla wszystkich \(a\).

    W tym kursie pozostajemy przy częściej stosowanej terminologii.

Rachunek prawdopodobieństwa — Warunkowa wartość oczekiwana - sytuacja ogólna

(image)

Rachunek prawdopodobieństwa 1, 2

13.3 Warunkowa wartość oczekiwana – sytuacja ogólna

Nadzieja warunkowa jest jednym z najważniejszych pojęć rachunku prawdopodobieństwa. Jest kilka obiektów, które określa się tym pojęciem i warto zrozumieć różnice i związki między nimi. Jak dotychczas wspomnieliśmy o wielkości \(E(Y|X=x)\) i była ona określona jako „zwykła" nadzieja rozkładu warunkowego \(P_{Y|X=x}\), ale zakładaliśmy, że \((X,Y)\) ma rozkład dyskretny albo rozkład ciągły. A gdy tak nie jest to co? To właśnie zobaczymy. Najważniejszym będzie zdefiniowanie pewnej zmiennej losowej, którą też nazwiemy nadzieją warunkową. Nie będzie to definicja konstruktywna tylko poprzez wymienienie własności, które ta zmienna losowa ma spełniać. Niedawno mówiliśmy już o tych własnościach, nazwaliśmy je (M) oraz (C) i pokazaliśmy, że istnieje obiekt, który je posiada. Więc nasza definicja nie będzie dotyczyć nieistniejących obiektów! Jednak pokażemy coś więcej, mianowicie, że w każdych okolicznościach istnieje zmienna losowa, która spełnia warunki (M), (C). I to tylko jedna z dokładnością do zbiorów miary zero! I to jest niezwykle ważne (i piękne), gdyż dzięki temu będzie można uzyskać szereg ważnych wyników. Na przykład już wkrótce powiemy, że warunkowanie obniża wariancje, co jest kolosalnie ważne w statystyce oraz w metodach Monte Carlo. A nawet wcześniej przedstawimy sposoby obliczania „zwykłej" nadziei poprzez warunkowania.

Prostą konsekwencją twierdzenia Radona-Nikodyma jest następujące:

  • Twierdzenie – 13.11 Niech \(Y\) będzie zmienną losową określoną na przestrzeni probabilistycznej (Ω, Σ, P ) , \(\a \subset \Sigma \) \(\s \)-algebrą. Zakładamy, że \(E(Y) \in \r \). Wtedy:

    Istnieje odwzorowanie \(\f :\Omega \str \r \) spełniająca warunki:

    (M) \(\f \) jest \(\a \) mierzalne.

    (C) Dla każdego \(A \in \a \) \(\int _A \f \,dP = \int _A Y\,dP\).

    Jeżeli odwzorowanie \(\psi :\Omega \str \r \) spełnia warunki (M) oraz (C), to \(\f = \psi \) prawie wszędzie (skrót p.w.), to znaczy \(P(\{\o : \in \Omega : \f (\o ) = \psi (\o )\}) = 1\).

Dowód. Można skorzystać z twierdzenie Radona-Nikodyma zastosowanego do funkcji \(\lambda \) określonej jako \(\lambda (A) = \int _A Y \,dP\) dla \(A \in \a \) (ponieważ \(E(Y) \in \r \) jest ona przeliczalnie addytywna) oraz miary \(P\).   

Powyższe twierdzenie powoduje, że następująca definicja ma sens.

  • Definicja – 13.12 (Nadzieja warunkowa względem \(\s \)-algebry.)

    \[E(Y|\a ) = \{\f :\Omega \str \r : \f \mbox { speÅĆnia warunki (M) oraz (C)} \}.\]

Poprzednie twierdzenie zapewnia, że \(E(Y|\a )\) jest zbiorem niepustym, a każde dwa jego elementy są sobie równe prawie wszędzie. Najczęściej (nieformalnie) nie rozróżnia się \(E(Y|\a )\) od jego elementów, czyli traktujemy \(E(Y|\a )\) jako odwzorowanie spełniające (M) oraz (C).

  • Przykład – 13.13 (zupełny brak informacji) Niech \(\a = \{\emptyset , \Omega \}.\) Wtedy każda funkcja stała spełnia (M).Gdy stała ta równa się \(E(Y)\), spełniony jest także warunek (C), Tak więc:

    \[E(Y|\a ) = E(Y).\]

  • Przykład – 13.14 (pełna informacja) Niech \(\a = \Sigma \). Wtedy sama zmienna losowa \(Y\) spełnia warunki (M) oraz (C).

    \[ E(Y|\a ) = Y. \]

  • Przykład – 13.15 (częściowa informacja) Niech \(A_i \in \Sigma \), \(i = 1,2,3, \dots , N\), \(N \le \infty \), będzie rozkładem \(\Omega \): \(\Omega = \bigcup _{i=1}^N A_i\), \(A_i \cap A_j = \emptyset \) dla \(i \neq j\). Zakładamy, że \(P(A_i) > 0\) dla wszystkich \(i\). Niech \(\a = \s (A_i: i =1,2,3, \dots N)\). Wtedy:

    \[ E(Y|\a )(\o ) = \frac {\int _{A_i}Y\,dP}{P(A_i)}, \mbox { dla } \o \in A_i. \]

    Wyraźnie widać, że powyższa funkcja jest stała na każdym zbiorze \(A_i\), jest więc A-mierzalna. Ponieważ każdy zbiór \(A \in \a \) jest pewną sumą rozłącznych zbiorów \(A_i\), więc warunek (C) wystarczy sprawdzić na każdym \(A_i\), co jest oczywiste (ćwiczenie).

  • Przykład – 13.16 Przypuśćmy, że wektor losowy \(X\) ma rozkład dyskretny skupiony w punktach \(x_i\), \(i = 1,2,3, ..., N, N \le \infty \). Biorąc \(A_i = X^{-}(x_i)\) mamy sytuację taką jak w poprzednim przykładzie; teraz \(\a = \s (X)\). W takim razie:

    \[ E(Y|\s (X))(\o ) = \frac {\int _{X=x_i}Y\,dP}{P(X = x_i)}, \mbox { gdy } X(\o ) = x_i. \]

    W sytuacji, gdy wektor \((X,Y)\) ma rozkład dyskretny określony przez \((\{(x_i,y_j)\},\{ p_{ij}\} )\) mamy: \(\int _{X=x_i}Y\,dP = \sum _jy_jp_{ij}\), \(P(X = x_i) = \sum _jp_{ij}\). Więc

    \[ E(Y|\s (X))(\o ) = \frac {\sum _jy_jp_{ij}}{\sum _jp_{ij}} = E(Y|X=x_i) \mbox { gdy } X(\o ) = x_i, \]

    gdzie \(E(Y|X=x_i)\) oznaczała nadzieję matematyczną rozkładu warunkowego \(P_{Y|X=x_i}\).

Nadzieja warunkowa względem zdarzenia Czasami używa się określenia: nadzieja matematyczna warunkowa \(Y\) pod warunkiem \(W \in \Sigma \) i definiuje się ją jako, zakładając jednak, że \(P(W) > 0\).

\[ E(Y|W) =\frac {\int _{W}Y\,dP}{P(W)}. \]

W sytuacji opisanej w Przykładzie 13.15 widzimy, że \(E(Y|A_i) = E(Y|\a )(\o ) \mbox { dla } \o \in A_i.\)

UWAGA. Mamy tutaj niestety pewną kolizję oznaczeń. \(E(Y|X = x)\) nie zawsze oznacza \(E(Y|\{\o :X(\o ) = x\})\). Chociaż, gdy \(X\) ma rozkład dyskretny oraz \(P(X = x_i) > 0\), to te dwie wielkości są sobie równe.

  • Definicja – 13.17 (Nadzieja warunkowa względem wektora losowego) Niech \(Y: \Omega \str \r \) będzie zmienną losową, \(E(Y) \in \r \). Niech \(X : \Omega \str \r ^k\) będzie wektorem losowym. Definiujemy:

    \[ E(Y|X) = E(Y|\s (X)). \]

Z twierdzenia 13.7 wynika następująca uwaga.

  • Uwaga – 13.18 Gdy \((X,Y)\) jest wektorem losowym określonym na przestrzeni probabilistycznej (Ω, Σ, P ) o rozkładzie dyskretnym albo ciągłym, \(E(Y) \in \r \), to

    \[ E(Y|X)(\o ) = E(Y|X=X(\o )). \]

    Inaczej:

    \[E(Y|X) = \alpha (X) = \alpha \circ X,\]

    gdzie \(\alpha (x) = E(Y|X=x)\) dla tych \(x\) dla których w tych przypadkach została zdefiniowana \(E(Y|X=x)\).

\(E(Y|X)\) jest zawsze pewną funkcją \(X \).

  • Twierdzenie – 13.19 Niech \((X,Y)\) będzie takim wektorem losowym, że \(X : \Omega \str \r ^k\), \(Y : \Omega \str \r \), \(E(Y) \in \r \). Wtedy istnieje funkcja borelowska \(\alpha : \r ^k \str \r \), taka, że \(E(Y|X) = \alpha (X)\).

Twierdzenie to jest w istocie wnioskiem z bardziej ogólnego twierdzenia.

  • Twierdzenie – 13.20 Niech \(X : \Omega \str \r ^k\) będzie wektorem losowym oraz \(Z : \Omega \str \r \). Wtedy:
    \(Z\) jest odwzorowaniem \(\s (X)\) mierzalnym. \(\rwn \)
    Istnieje taka funkcja borelowska \(\alpha : \r ^k \str \r \), że \(Z = \alpha \circ X\).

Dowód. „\(\imp \)” Rozważamy przypadki:

I. \(Z = I_A\), gdzie \(A = X^{-1}(B)\), \(B\) jest zbiorem borelowskim w \(\r ^k\). Wtedy wystarczy wziąć: \(\alpha = I_B\).

II. \(Z\) jest funkcją prostą postaci \(Z = \sum _{i=1}^n c_i I_{A_i}\), gdzie \(A_i \in \s (X)\). Wtedy bierzemy: \(\alpha = \sum _{i=1}^n c_i \alpha _i\), gdzie \(\alpha _i\) są wybrane jak w punkcie I.

III. \(Z\) jest dowolną funkcją \(\s (X)\) mierzalną. Istnieje wtedy ciąg funkcji prostych \(\s (X)\) mierzalnych taki, że dla każdego \(\o \in \Omega \) \(\lim _{n\to \infty }Z_n(\o ) = Z(\o )\). Na podstawie II istnieją funkcje borelowskie \(\alpha _n\) takie, że dla wszystkich \(n\) \(Z_n = \alpha _n \circ X\).

Definiujemy funkcję \(\alpha : \r ^k \str \r \) jako:

\begin{equation} \label {defalfa} \alpha (x) = \left \{ \begin{array}{ll} \lim _{n \to \infty } \alpha _n(x), & \mbox { gdy } x \in X(\Omega )\\ 0, & \mbox { gdy } x \notin X(\Omega ). \end {array} \right . \end{equation}

Oczywiście \(\alpha \) jet borelowska (dlaczego?). Dla \(\o \in \Omega \) zachodzi wzór:

\[ Z_n(\o ) = \lim _{n \to \infty } \alpha _n(X(\o )), \]

więc \(X(\o )\) jest punktem \(x\) w którym istnieje \(\lim _{\to \infty } \alpha _n(x)\) i jest ona równa \(Z(\o )\). Czyli:

\[ Z = \alpha \circ X. \]

„\(\Longleftarrow \)" Dla dowolnego \(B \in {\cal B}(\r )\) \(Z^{-1}(B) = (\alpha \circ X)^{-1}(B) = X^{-1}(\alpha ^{-1}(B)) \in \s (X)\).   \(\Box \)

Zauważmy, że we wzorze (13.4) można by zadać wartość \(\alpha (x)\) dla \(x \notin X(\Omega )\) na wiele różnych sposobów i nie zmieniłoby to dalszego rozumowania. Tak więc funkcja \(\alpha \) nie jest wyznaczona jednoznacznie na zbiorze \(\r ^k \setminus X(\Omega )\).

Gdy wektor losowy \((X,Y)\) ma rozkład dyskretny lub rozkład ciągły możemy w sposób naturalny mówić o nadziejach warunkowych \(E(Y|X=x)\) – tak postąpiliśmy na początku tego rozdziału. Możemy jednak rozszerzyć określenie \(E(Y|X=x)\) nie zakładając nic o rozkładach. Mianowicie możemy postawić następującą definicję:

  • Definicja – 13.21

    \[ E(Y|X=x) := \alpha (x), x \in \r ^k, \]

    gdzie \(\alpha \) jest funkcją określoną w twierdzeniu 13.19.

Ze względu na możliwą niejednoznaczność funkcji \(\alpha \) wielkość powyższa nie jest jednoznacznie określona dla wszystkich \(z \in \r ^k\). Nie ma to jednak istotnego znaczenia. Na przykład, gdy \(X\) ma rozkład dyskretny skupiony na zbiorze \(K\), to wartość funkcji \(\alpha \) poza tym zbiorem są nieistotne. Tak więc, gdy \(x \notin K\), wartości \(E(Y|X=x)\) są niejednoznacznie określone, ale nie ma to dla nas żadnego znaczenia.

Zawsze można mówić o nadziei warunkowej \(E(Y|X)\); jest to pewna zmienna losowa. Natomiast Twierdzenie 13.19 gwarantuje, że zawsze też można mówić o nadziei warunkowej \(E(Y|X=x)\); jest to liczba. W przypadku, gdy wektor losowy ma rozkład dyskretny lub rozkład ciągły pokazaliśmy, że powyższa definicja \(E(Y|X=x)\) pokrywa się z naturalną definicją postawioną w tamtych przypadkach. Także w wielu innych przypadkach można w sposób naturalny zinterpretować \(E(Y|X=x)\).

  • Przykład – 13.22 (c.d. Przykładu 13.1) \(E(Y|X)\) jest zmienną losową przyjmującą wartości \(\frac {7}{2}\), \(\frac {14}{3}\), \(\frac {14}{3}\) z prawdopodobieństwami \(\frac {1}{6}\), \(\frac {5}{12}\), \(\frac {5}{12}\). Czyli \(\alpha (0) = \frac {7}{2}\), \(\alpha (1) = \frac {14}{3}\), \(\alpha (2) = \frac {14}{3}\). Poza tymi trzema punktami możemy określać wartości \(\alpha \) jak tylko chcemy.

  • Przykład – 13.23 (c.d. Przykładu 13.2) W tamtym przykładzie wyznaczyliśmy nadzieję warunkową \(E(Y|X=x)\) dla \(0< x \le 1\). Mianowicie: \(\di E(Y|X=x) = \frac {x}{2}\). W takim razie nadzieja warunkowa \(\di E(Y|X) = \frac {X}{2}\). Tutaj \(\alpha (x) = \frac {x}{2}\) dla \(0< x \le 1\) oraz 0 dla pozostałych \(x\) (zamiast 0 mogło być na przykład 27 i nie ma to znaczenia, gdyż zmienna losowa \(X\) nie przyjmuje wartości poza \((0,1]\), końce odcinka jako zbiory miary zero mogą być uwzględniane lub nie).

    Podobnie \(\di E(X|Y=y) = \frac {1-y}{- \ln y}\) dla \(0 < y < 1\), więc \(\di E(X|Y) = \frac {1-Y}{- \ln Y}\).

Rozważa się też prawdopodobieństwo warunkowe zdarzenia względem \(\s \)-algebry, a więc także względem wektora losowego, jako szczególny przypadek nadziei warunkowej.

  • Definicja – 13.24 Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną \(\a \subset \Sigma \) \(\s \)-algebrą, \(C \in \Sigma \). Określamy prawdopodobieństwo warunkowe zbioru \(C\) względem \(\s \)-algebry \(\a \) jako:

    \[ P(C|\a ) = E(I_C|\a ). \]

Gdy \(X :\Omega \str \r ^k\) jest wektorem można więc mówić o \(P(C|X)\) oraz o \(P(C|X=x)\):

\[P(C|X) = P(C|\s (X)) = E(I_C|X) \‚\mbox { oraz } \‚P(C|X=x) = E(I_C|X=x). \]

  • Twierdzenie – 13.25 (Własności nadziei warunkowych)

    Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(\a \subset \Sigma \) – \(\s \)-algebrą, \(Y :\Omega \str \r \), \(E(Y) \in \r \). Wtedy

    • 1. \(E(c|\a ) = c\), dla \(c \in \r \).

    • 2. \(E(E(Y|\a )) = E(Y).\)

    • 3. \(Y \ge 0\) p.w. \(\imp E(Y|\a ) \ge 0\) p.w.

    • 4. \(E(Y_1 + Y_2|\a ) = E(Y_1|\a ) + E(Y_2|\a )\), o ile prawa strona istnieje.

    • 5. \(E(cY|\a ) = cE(Y|\a )\), dla \(c \in \r \).

    • 6. \(Y_1 \le Y_2 \) p.w. \(\imp E(Y_1|\a ) \le E(Y_1|\a )\) p.w.

    • 7. \({\cal B} \subset \a \) – \(\s \)-algebra \(\imp E(E(Y|\a )|{\cal B}) = E(Y|{\cal B}).\)

    • 8. \({\cal B} \subset \a \) – \(\s \)-algebra \(\imp E(E(Y|{\cal B})|\a ) = E(Y|{\cal B}).\)

    • 9. \(Y_1 \ge 0\) p.w., \(Y_n \nearrow Y\) p.w. \(\imp E(Y_n|\a ) \nearrow E(Y|\a )\) p.w.

    • 10. \(|Y_n| \le Z\), \(E(Z) \in \r \), \(Y_n \stackrel {1}{\str } Y \imp E(Y_n|\a ) \stackrel {1}{\str } E(Y|\a )\).

Dowód. Dowody wszystkich tych własności są standardowe i opierają się na definicji nadziei warunkowej i na klasycznych własnościach całek. Dla przykładu udowodnimy dwie własności.

Własność 2. Korzystając z warunku (C) oraz tego, że \(\Omega \in \a \) mamy: \(E(E(Y|\a )) = \int _\Omega E(Y|\a )\,dP = \int _\Omega Y\,dP =E(Y)\).

Własność 8. Pokażemy, że prawa strona spełnia warunki (C) oraz (M) ze względu na zmienną losową \(E(Y|{\cal B})\) oraz \(\sigma \)-algebrę \(\a \). Zmienna losowa \(E(Y|{\cal B})\) jest \(\cal B\) mierzalna, a więc też A mierzalna. Niech \(A \in \a \). Wtedy \(\int _ A E(E(Y|{\cal B})|\a )\,dP = \int _A E(Y|{\cal B})\,dP\), ale to oznacza żądany warunek (C). Prawa strona jest więc równa \(E(E(Y|{\cal B})|\a )\).   \(\Box \)

Powyższe oraz następne własności można sformułować dla nadziei warunkowych postaci \(E(Y|X=x)\).

  • Twierdzenie – 13.26 Niech \(Y\) będzie wektorem losowym, \(E(Y) \in \r \).

    • 1. Jeżeli \(X :\Omega \str \r ^k\) jest wektorem losowym takim, że \(X,Y\) są niezależne, to \(E(Y|X) =E(Y)\).

    • 2. Jeżeli \(Z\) jest \(\a \)- mierzalna oraz \(E(ZY) \in \r \), to \(E(ZY|\a ) = ZE(Y|\a )\).

    • 3. Jeżeli \(g :\r ^k \str \r \) jest funkcją borelowską, \(E(g(X)) \in \r \), to \(E(g(X)|X) = g(X)\).

    • 4. Jeżeli \(X\) jest zmienną losową, \(E(X) \in \r \), to \(E(X|X) = X\).

Dowód. Własność 1.Załóżmy najpierw, że \(Y = I_A\), gdzie \(A \in \Sigma \). Wtedy \(E(I_A) = P(A)\) jest funkcją stałą i w związku z tym jest mierzalna względem \(\s (X)\). Wtedy też zachodzi warunek (C): dla \(B = X^{-1}(D) \in \s (X)\) mamy:

\[\int _B Y \,dP = \int _A I_B\,dP = \int _{A\cap B}dP = P(Y^{-1}(\{1\})\cap X^{-1}(D) ) = \]

\[ P(Y^{-1}(\{1\})) \cdot P( X^{-1}(D) ) = P(A)P(B) = \int _B E(Y)\,dP.\]

Zachodzi więc własność 1 dla funkcji charakterystycznych \(Y\). Z liniowości zachodzi dla funkcji prostych \(Y\), a poprzez standardowe przejście graniczne dla dowolnych \(Y\).

Własność 2. Dowodzi się jak poprzednio, zaczynając od przypadku \(Z = I_A\), gdzie \(A \in \a \) (ćwiczenie).

Własność 3. Wystarczy wziąć \(Z =g(X)\), \(Y = 1\) oraz \(\a =\s (X)\) i skorzystać z własności 2.

Własność 4. Wystarczy we Własności 3 wziąć \(g(x) = x\).   

Rachunek prawdopodobieństwa — Rozklad nadziei warunkowej

(image)

Rachunek prawdopodobieństwa 1, 2

13.4 Rozkład nadziei warunkowej

Nadzieja warunkowa \(E(Y|X)\) jest zmienną losową, więc warto się pytać o jej rozkład. Nieraz odpowiedź jest prosta. Jak pamiętamy \(E(Y|X) = \alpha (X)\), \(\alpha (x) = E(Y|X=x)\). Jeżeli więc znamy rozkład \(X\) ora \(]alpha\) możemy na tej podstawie starać się wyznaczać rozkład \(E(Y|X)\). Na przykład widać, że w przypadku, gdy \(X\) ma rozkład dyskretny wyznaczony przez ciągi \(\{x_i\}, \{p_i\}\) to \(E(Y|X)\) ma rozkład dyskretny wyznaczony przez ciągi \(\{x_i\}, \{p_i\}\). Natomiast, gdy \(X\) ma rozkład ciągły, sytuacja jest bardziej skomplikowana.

  • Przykład – 13.27 Niech \(X\), \(Y\) oznaczają liczby oczek uzyskane w rzucie parą kostek. Niech \(Min = \min (X,Y)\). Wskazać rozkład \(E(X|Min)\).

    Można wyznaczyć rozkład wektora losowego \((X,Min)\), następnie dla każdego \(m = 1,...,6\) wyznaczyć \(P(Min = m)\) oraz rozkłady warunkowe \(P_{X|Min = m}\) i na tej podstawie \(E(X|Min = m)\). Zmienna losowa \(E(X|Min)\) ma rozkład skupiony w punktach \(E(X|Min = m)\) z prawdopodobieństwami \(P(Min = m)\). Są to więc ciągi \(\frac {26}{11}, \frac {28}{9}, \frac {27}{7}, \frac {23}{5}, \frac {16}{3}, 6\) oraz \(\frac {11}{36}, \frac {9}{36}, \frac {7}{36}, \frac {5}{36}, \frac {3}{36}, \frac {1}{36}\).

  • Przykład – 13.28 Zmienna losowa \(X\) ma rozkład \(U(-\pi ,\pi )\). Wskażemy rozkłady \(E(\cos X|X)\) oraz \(E(X|\cos X)\).

    Cosinus jest funkcją borelowską, więc \(\cos X\) jest \(\a \)-mierzalna, więc

    \[E(\cos X|X) = \cos X E(1|X) = \cos X.\]

    Ta zmienna losowa ma rozkład ciągły, patrz Przykład 5.30.

    Jeżeli \(\cos X = y \in (-1,1)\), to \(X\) przyjmuje dwie wartości, których średnią jest 0. Wydaje się więc, że \(E(X|\cos X)\) może być równe 0. Sprawdzamy więc czy funkcja stale równa 0 spełnia warunki (M) oraz (C) spełniane przez \(E(X|\cos X)\). (M) jest oczywisty. Weźmy teraz dowolny zbiór borelowski \(A \in \s (\cos \circ X)\). \(A\) jest więc postaci \(X^{-1}(\cos ^{-1}(B))\), gdzie \(B\) jest borelowski. Ze względu na parzystość cosinusa \(\cos ^{-1}(B))\) jest symetryczny względem 0 i wtedy \(\int _A E(X|\cos X)\,dP = \int _A X\,dP = \int _{\cos ^{-1}(B)}\frac {1}{2\pi } I_{(-(\pi ,\pi )}(x)\,dx = 0 = \int _A 0\,dP\). Jest więc spełniony warunek (C). Ostatecznie więc \(E(X|\cos X) = 0\) ma rozkład jednopunktowy.

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

13.5 Pytania

  • Pytanie 13.1 Znajdź rozkład warunkowy maksimum liczby oczek w rzucie parą symetrycznych kostek pod warunkiem, że na drugiej kostce wypadła liczba parzysta. Wyznacz jego nadzieję matematyczną.

Wskazówka. Określamy zmienne losowe \(M\) – maksimum oczek oraz \(Y\): \(Y = 0\), gdy na drugiej kostce jest liczba parzysta, \(Y=1\), gdy na drugiej kostce jest liczba nieparzysta. Interesuje nas rozkład \(P_{M|Y=0}\). Wyznaczamy najpierw „na placachżozkład wektora losowego \((Y,M)\).

\[ \begin {array}{ccccccc} $Y$\backslash $M$ & 1 & 2 & 3 & 4 & 5 & 6 \\[1mm] 0 & 0 & 2/36 & 1/36 & 5/36 & 2/36 & 8/36 \\ 1 & 1/36 & 1/36 & 4/36 & 2/36 & 7/36 & 3/36 \end {array} \]

Rozkład \(P_{M|Y=0}\):

\[ \begin {array}{ccccccc} \ \ \ & 1 & 2 & 3 & 4 & 5 & 6 \\[1mm] \ \ \ & 0 & 2/18 & 1/18 & 5/18 & 2/18 & 8/18 \end {array} \]

\(\di E(M|Y=0) = \frac {85}{18}\).

  • Pytanie 13.2 Wektor losowy \((X,Y)\) ma rozkład jednostajny na trójkącie o wierzchołkach \((-1,0)\), \((1,0)\), \((0,1)\). Wyznacz \(E(X|Y=1/2)\), \(E(Y|X=1/2)\).

Wskazówka. \(E(X|Y=1/2) = 0\), \(E(Y|X=1/2)= 1/4\).

  • Pytanie 13.3 Dana jest przestrzeń probabilistyczna \((\Omega ,\Sigma ,P)\) oraz zmienna losowa \(X : \Omega \str \r \). Czy i jakie zawierania zachodzą pomiędzy \(\sigma (X)\), \(\sigma (X^2)\) oraz \(\sigma (X^3)\): wypowiedz i udowodnij twierdzenie, podaj odpowiedni przykład jeżeli zawieranie nie zachodzi.

Wskazówka. \(\sigma (X^2) \subset \sigma (X)\), \(\sigma (X) = \sigma (X^3) \).

Dowód. Niech \(A \in \sigma (X^2)\). Wtedy istnieje taki zbiór borelowski \(B\), że \(A = X^{-2}(B) =\{\omega ; X^2(\omega ) \in B\} = \{\omega : X(\omega ) \in g^{-1}(B)\} = X^{-1}(g^{-1}(B))\), gdzie \(g(x) = x^2\). Ponieważ \(g\) jest funkcją ciągłą, więc funkcją borelowską, więc \(g^{-1}(B)\) jest borelowski, więc \(A \in \sigma (X)\), czyli \(\sigma (X^2) \subset \sigma (X)\).

Podobnie \(\sigma (X^3) \subset \sigma (X)\), tutaj \(g(x) = x^3\). Podobnie \(\sigma (X) \subset \sigma (X^3)\), tutaj \(g(x) = \sqrt [3]{x}\).

Przykład. Niech \(X\) będzie zmienną losowa o rozkładzie \(P(X = -1) = P(X=1)= 1/2\). Wtedy \(X^2\) jest stałą równą 1. \(\sigma (X)\) składa się z czterech elementów, więc nie jest zawarta w \(\sigma (X^2)\) składającej się tylko z dwóch elementów.

  • Pytanie 13.4 Przeprowadź dowód własności 7 w Twierdzeniu 13.25.

Wskazówka. Podobnie jak dowód własności 8 (po zamianie ról przez strony).

  • Pytanie 13.5 Przeprowadzić dowód własności 2 w Twierdzeniu 13.26

Wskazówka. Krok 1. Niech \(Z = I_A\), gdzie \(A \in \a \). Pokażemy, że prawa strona spełnia warunki (M) oraz (C) wymagane od lewej strony. Warunek (M) wynika z faktu, że iloczyn funkcji mierzalnych jest mierzalny. Aby sprawdzić (M) ustalmy dowolne \(B \in \a \). Ponieważ \(A\cap B \in \a \) mamy \(\int _B I_AE(Y|\a )\,dP = \int _{A\cap B}E(Y|\a )\,dP = \int _{A\cap B}Y\,dP = \int _B I_A Y\,dP\), co oznacza warunek (C).

  • Pytanie 13.6 Zakładamy, że \(E(Y)\) jest skończona. Czy zachodzi, dlaczego?. (1) Jeżeli wektor losowy \(X\) ma rozkład dyskretny, to zmienna losowa \(E(Y|X)\) ma rozkład dyskretny. (2) Jeżeli wektor losowy \(X\) ma rozkład ciągły, to zmienna losowa \(E(Y|X)\) ma rozkład ciągły.

Wskazówka. Ad (1). TAK. Wiemy, że \(E(Y|X) = \alpha \circ X\), gdzie \(\alpha \) jest funkcją borelowską. Z ałożenia istnieje zbiór \(K\) co najwyżej przeliczalny taki, że \(P(X \in K) = 1\). Oczywiście \(\alpha (K)\) jest co najwyżej przeliczalny a \(P(E(Y|X) \in \alpha (K)) \ge P(X \in K) = 1\), więc \(E(Y|X)\) ma rozkład dyskretny.

Ad (2). NIE. Na przykład, gdy \(X, Y\) są niezależne, to \(E(Y|X)\) jest stałą, więc nie ma rozkładu ciągłego

Rachunek prawdopodobieństwa — Warunkowania

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 14 Warunkowania

Wyznaczanie oczekiwanych wartości warunkowych może być w wielu przypadkach żmudne. Warto jednak pamiętać, że fakt, iż przy bardzo ogólnych założeniach one istnieją oraz spełniają pewne własności może być bardzo pomocny. Z drugiej strony, w pewnych zagadnieniach warunkowe wartości oczekiwane są w sposób oczywisty znane i wtedy mogą służyć do wyznaczania „zwykłej" nadziei oraz prawdopodobieństw zdarzeń (pamiętamy, że \(P(C) = E(I_C)\) ). Procedura ta jest uogólnieniem poznanej już wcześniej procedury wykorzystującej wzór na prawdopodobieństwo całkowite.

Wiedząc, że \(E(Y) = E(E(Y|X))\), zauważmy, iż na podstawie twierdzenia 13.19 oraz twierdzeń 6.8 i 6.11 otrzymujemy:

  • Twierdzenie – 14.1 Niech \(X: \Omega \to \r ^k\) będzie wektorem losowym, \(Y : \Omega \to \r \) zmienną losową, \(E(Y) \in \r \). Niech \(C \in \Sigma \). Wtedy:

    \[ E(Y) = \int _{\rn } E(Y|X=x)\,dP_X(x), \ \ \ P(C) = \int _{\rn } P(C|X=x)\,dP_X(x). \]

    Jeżeli \(X\) ma rozkład dyskretny zadany przez ciągi \(x_1,x_2, \dots , \in \rn \), \(p_1,p_2, \dots , \), to

    \[ E(Y) = \sum _i E(Y|X=x_i)p_i, \ \ \ P(C) = \sum _i P(C|X=x_i)p_i. \]

    Jeżeli \(X\) ma rozkład ciągły o gęstości \(f\), to

    \[ E(Y) = \int _{\rn } E(Y|X=x)f(x)\,dx, \ \ \ P(C) = \int _{\rn } P(C|X=x)f(x)\,dx. \]

14.1 Przykłady

  • Przykład – 14.2

    Rzucono dwa razy monetą symetryczną, a następnie tyle razy rzucono kostką symetryczną ile wypadło orłów. Jaka jest wartość oczekiwana sumy uzyskanych oczek?

    Niech \(X\) oznacza liczbę wyrzuconych orłów, a \(Y\) sumę oczek. Oczywiście zadanie można rozwiązać bezpośrednio wyznaczając rozkład zmiennej losowej \(Y\). Pokażemy inną metodę. Mamy:

    \(\di E(Y) = E(E(Y|X)) = \) \(\di E(Y|X = 0)P(X=0) + E(Y|X = 1)P(X=1) + E(Y|X = 2)P(X=2)\)

    Powyższe trzy nadzieje warunkowe są faktycznie znane, gdyż sprowadzają się do obliczenia ’zwykłych’ nadziei. Mamy więc:

    \(\di E(Y) = 0 \cdot \frac {1}{4} + \frac {7}{2} \cdot \frac {1}{2} + 2\cdot \frac {7}{2} \cdot \frac {1}{4} = \frac {7}{2}\).

    Takiego wyniku można się było spodziewać ze względu na symetrię: to co tracimy w przypadku braku orła, zyskujemy, gdy wypadną dwa orły.

  • Przykład – 14.3

    Z odcinka \([0,1]\) losujemy liczbę \(X\) według rozkładu jednostajnego, a następnie z odcinka \([X,1]\) liczbę \(Y\) według rozkładu jednostajnego.

    (a) Znaleźć nadzieję matematyczną \(E(Y)\). (b) Wyznaczyć \(P(Y < \frac 12)\).

    Zadanie można rozwiązać w sposób klasyczny, podobnie jak w przykładach 5.21 oraz 13.2, wyznaczając najpierw rozkład wektora \((X,Y)\), potem rozkład \(Y\), a w końcu \(E(Y)\) i \(P(Y < \frac 12)\). Można jednak rozumować inaczej, opierając się na twierdzeniu 14.1.

    Ad(a). Wiemy, że \(E(Y|X=x) = \frac {x+1}{2}\) dla \(0 < x <1\), więc:

    \[ E(Y) = \int _{\r } E(Y|X=x)f_X(x)\,dx = \int _{0}^1 \frac {x+1}{2}\,dx = \frac {3}{4}. \]

    Jeszcze szybciej można zrobić tak:

    \[ E(Y) = E(E(Y|X)) = E\left (\frac {X+1}{2}\right ) = \frac {E(X)+1}{2} = \frac {\frac {1}{2}+1}{2} = \frac {3}{4}.\]

    Ad(b). Widać, że \(P(Y < \frac 12|X = x) = \frac {\frac 12 -x}{1 - x}\) dla \(0 < x \le \frac 12\) oraz \(0\) dla innych \(x\).

    Więc \(\di P(Y < \frac 12) = \int _\r P(Y < \frac 12|X = x)I_{[0,1]}(x)\,dx = \int _0^{\frac 12} \frac {\frac 12 - x}{1 - x}\,dx = \frac 12 - \frac {\ln 2}{2} \cong 0.153 \).

  • Przykład – 14.4

    Losujemy liczbę \(p\) zgodnie z rozkładem \(U(0,1)\), a następnie wykonujemy \(n\) doświadczeń Bernoulliego z prawdopodobieństwem sukcesów w każdym doświadczeniu równym \(p\). Ilu możemy oczekiwać sukcesów?

    Niech \(X\) będzie zmienną losową o rozkładzie \(U(0,1)\). Niech \(Y_1, \dots , Y_n\) będą i.i.d o rozkładzie \((0,1,X)\) każda. \(S_n = Y_1+ \dots Y_n\). Wtedy \(E(S_n|X = p) = np\). Czyli \(E(S_n|X) = n X\). A więc \(\di E(S_n) = E(E(S_n|X)) = E(nX) = n E(X) = n\frac {1}{2} = \frac {n}{2}\).

  • Przykład – 14.5

    W przykładzie 11.27 analizowaliśmy następujące zadanie stosują aparat funkcji tworzących.

    Owad (powiedzmy mucha) składa dużo jajeczek z których mogą wykluwać się nowe owady. Zakładając, że liczba jajeczek ma rozkład Poissona o parametrze \(\lambda \), oraz, że owady wykluwają się z jajeczek niezależnie od siebie z tym samym4 prawdopodobieństwem \(p\), wyznaczyć rozkład oraz oczekiwaną wartość liczby potomków jednego owada.

    Niech \(N\) oznacza liczbę jajeczek, natomiast \(S\) liczbę potomków jednego owada. Chcemy wyznaczyć \(P(S=k)\) dla \(k = 0,1,2,3,...\). Z treści zadania wynika, że \(P(S=k|N=n) =0\) dla \(n < k\) oraz \(\binom {n}{k}p^k(1-p)^{n-k}\) dla \(n \ge k\). Mamy kolejno:

    \[ P(S=k) = \sum _{n=0}^\infty P(S=k|N=n)P(N=n) \]

    \[= \sum _{n=k}^\infty \binom {n}{k}p^k(1-p)^{n-k} e^{-\lambda } \frac {\lambda ^n}{n!} = e^{-\lambda }\frac {1}{k!}p^k(1-p)^{-k}\sum _{n=k}^\infty \frac {(\lambda (1-p))^n}{(n-k)!} \]

    \[ = e^{-\lambda }\frac {1}{k!}p^k\lambda ^k\sum _{j=0}^\infty \frac {(\lambda (1-p))^j}{j!} = e^{-\lambda }\frac {1}{k!}(p\lambda )^k e^{\lambda (1-p)} = e^{-p\lambda }\frac {(p\lambda )^k}{k!}. \]

    Więc \(S\) ma rozkład Poissona \(P_{p\lambda }\). W takim razie \(E(S) = p\lambda \). Ten ostatni wynik można było otrzymać także bezpośrednio. Mianowicie zauważmy, że \(E(S|N=n) = np\), czyli \(E(S|N) = Xp\). Stąd:

    \[E(S) = E(E(S|Np)) = E(Np) = p E(N) = p \lambda .\]

  • Przykład – 14.6 Kaja i Leon losują na chybił-trafił i niezależnie od siebie po jednej liczbie od 0 do 100. Jeżeli liczby różnią się nie więcej niż o 10, uważają, że warto pójść razem do kina. Jakie jest prawdopodobieństwo, że Kaja i Leon pójdą razem do kina?

    Zadanie to rozwiązaliśmy już stosując prawdopodobieństwo geometryczne, przykład 2.8. Pokażemy teraz inny sposób rozwiązania.

    Niech \(KL\) oznacza zdarzenie: że Kaja i Leon pójdą razem do kina. Niech \(L\) oznacza liczbę wylosowaną przez Leona. Łatwo wyznaczyć prawdopodobieństwo warunkowe \(P(KL|L = x)\). Mianowicie, gfy Leon wylosował liczbę \(x\), to aby zaszło zdarzenie \(KL\), liczba wylosowana przez Kaję musi się różnić od \(x\) o mniej niż o \(10\). Licząc prawdopodobieństwo geometryczne na odcinku \((0,100)\) otrzymujemy:

    \[ P(KL|L=x) = \left \{\begin {array}{ll} \frac {x + 10}{100} & \mbox { dla } 0 < x< 10\\[2mm] \frac {20}{100} & \mbox { dla } 10 < x< 90\\[2mm] \frac {100 -(x-10)}{100} & \mbox { dla } 90 < x< 100. \end {array} \right . \]

    Ponieważ zmienna losowa \(L\) ma rozkład \(U(0,100)\) otrzymujemy:

    \[ P(KL) = \int _0^{100}P(KL|L=x)\frac {1}{100}\,dx = \frac {19}{100}. \]

  • Przykład – 14.7 Niech \(X_1, \dots , X_n\) będzie próbką prostą z rozkładu \(B(1,p)\). Niech \(S =X_1 + \dots + X_n\). Wyznaczyć \(E(X_1|S)\).

    Zauważmy, że dla \(i = 2,\dots n\), \(E(X_i|S_n) = E(X_1|S_n)\). Korzystając z własności nadziei warunkowych kolejno mamy: \(S_n = E(S_n|S_n) = E(X_1+ \dots + X_n|S_n) = E(X_1|S_n)+ \dots + E(X_n|S_n)= n E(X_1|S_n)\). Stąd: \(\di E(X_1|S_n) = \frac {S_n}{n}\).

  • Przykład – 14.8 Punkt \((x,y)\) wylosowano z kwadratu \([0,1]^2\) zgodnie z rozkładem jednostajnym. Jaka jest oczekiwana wartość \(x\), jeżeli wiadomo, że: (a) \(x+y \le \frac 12\), (b) \(x+y = \frac 12\)?

    Ad (a). Sposób 1. Wyznaczamy rozkład zmiennej losowej \(X\), gdy wektor losowy \((X,Y)\) ma rozkład \(U(W)\) (jednostajny) na zbiorze \(W\) określonym warunkami \(x > 0, y > 0\), \(x+y \le \frac 12\) i wyznaczamy \(E(X)\). Mamy kolejno \(f_{(X,Y)} = 8 I_W\), \(f_X(x) = \int _\r f_{(X,Y)}(x,y)\,dy = \int _0^{\frac 12 -x} 8\,dx = 4 - 8 x\) dla \(0 < x < \frac 12\). \(E(X) = \int _\r xf_X(x) \,dx = \int _0^{\frac 12}x(4 -8 x)\,dx = \frac 16 \).

    Sposób 2. Korzystamy z określenia \(E(X|W)\): \(E(X|W) = \frac {\int _W X\,dP}{P(W)}\). Tutaj \(P\) jest miarą Lebesgue’a na całym kwadracie. W związku z tym \(P(W) = \frac 18\). Natomiast \(\int _W X\,dP = \int \int _W x\,d(x,y) = \int _0^\frac 12 \int _0^{\frac 12 - x}x\,dy\,dx = \int _0^{\frac 12}x(\frac 12 -x)\,dx = \frac {1}{48}\). \(E(X|W) = \frac 16\).

    Ad (b). Sposób 1. Niech \(X\), \(Y\) oznaczają odpowiednie zmienne losowe. Ze względu na symetrię mamy \(E(X|X+Y) = E(Y|X+Y)\). Z jednej strony \(E(X+Y|X+Y) = X+Y\) (własność 4 w Twierdzeniu 13.26). Z drugiej strony \(E(X+Y|X+Y) = E(X|X+Y) + E(Y|X+Y) = 2E(X|X+Y)\). Więc \(E(X|X+Y) = \frac 12(X+Y)\). \(E(X|X+Y = \frac 12) = \frac 14\).

    Sposób 2. Wyznaczamy gęstość wektora losowego \((X,X+Y)\) i następnie obliczamy wartość oczekiwaną odpowiedniego rozkładu warunkowego. Ponieważ \(f_X = I_{(0,1)}\) oraz dla każdego \(x \in (0,1)\) \(f_{X+Y|X=x} = I_{(x,x+1)}\), to ich iloczyn: \(f_{(X,X+Y)}(x,s) = 1\) dla \(0<x<1, x<s<x+1\) oraz 0 w poz. przyp. May więc:

    \[ E(X|X+Y = s) = \frac {\int _\r xf_{(X,X+Y)|X}(x,s) \,dx}{\int _\r f_{(X,X+Y)|X}(x,s) \,dx} \ \left |_{s = \frac {1}{2}} = \frac {\int _0^\frac 12 x\, dx}{\int _0^\frac 12 \,dx} =\frac 14 \right .. \]

  • Przykład – 14.9 Z przedziału \((0,1)\) losujemy punkt \(x\) oraz rzucamy niesymetryczną monetą, gdzie prawdopodobieństwo wypadnięcia orła wynosi \(p\). Jeżeli wypadła reszka, to punkt \(y\) losujemy z przedziału \((0,x)\) według rozkładu jednostajnego, gdy wypadnie orzeł punkt \(y\) losujemy według rozkładu jednostajnego z przedziału \((x,1)\). Znaleźć średnie położenie punktu \(y\).

    Niech \(X\) będzie zmienną losową odpowiadającą pierwszemu losowaniu, \(Z\) zmienną losową odpowiadającą rzutowi monetą, a \(Y\) pozycją drugiego wylosowanego punktu. Aby policzyć \(E(Y)\) zauważmy, że

    \[ E(Y) = \int _{\r \times \{0,1\}}E(Y|X = x,Z = z)\,dQ(x,z), \]

    gdzie \(Q\) jest rozkładem wektora losowego \((X,Z)\). Z treści zadania wynika, że \(X\), \(Z\) są niezależne, a więc \(Q\) jest iloczynem kartezjańskim ich rozkładów: \(Q = U(0,1) \times B(1,p)\). Zauważmy, że:

    \[ E(Y|X = x,Z = z) = \left \{\begin {array}{ll} \frac {x}{2} & \mbox { dla } 0 < x< 1, z = 0\\[2mm] \frac {x+1}{2} & \mbox { dla } 0<x<1, z = 1 \end {array} \right . \]

    Stosujemy Twierdzenie Fubniego:

    \[ E(Y) = \int _\r \left (\int _{\{0,1\}}E(Y|X = x,Z = z)\,dB(1,p)(z)\right )\,dU(0,1)(x) = \]

    \[ \int _0^1\frac {x}{2}(1-p) + \frac {x+1}{2}p\,dx = \int _0^1\frac {x+p}{2}\,dx = \frac 14 + \frac {p}{2}. \]

Rachunek prawdopodobieństwa — Nierówność Jensena i obnizanie wariancji

(image)

Rachunek prawdopodobieństwa 1, 2

14.2 Nierówność Jensena i obniżanie wariancji

Niech \(\Delta \subset \r \) będzie przedziałem. Funkcję \(g :\Delta \str \r \) nazywamy wypukłą, jeżeli dla każdych \(x,y \in \Delta \) oraz \(0\le p, q \le 1\), \(p+q=1\) zachodzi:

\[ g(px+qy) \le pg(x) + qg(y). \]

Stosując indukcję, łatwo widać (ćwiczenie), że warunek ten jest równoważny warunkowi:

\[ g(\sum _{i=1}x_ip_i) \le \sum _{i=1}g(x_i)p_i, \]

dla dowolnych skończonych ciągów \(\{x_i\}\), \(\{p_i\}\), takich, że \(p_i \ge 0\), \(\sum _{i=1}p_i =1 \). W języku probabilistyki mamy więc natychmiast:

Twierdzenie Dla dowolnej zmiennej losowej o dyskretnym, skończonym rozkładzie prawdopodobieństwa takiej, że \(P(X \in \Delta ) = 1\) i dowolnej funkcji wypukłej \(g :\Delta \str \r \) zachodzi:

\[ g(E(X)) \le E(g(X)). \]

Rezultat ten można znacznie wzmocnić.

  • Twierdzenie – 14.10 (Nierówność Jensena) Dla dowolnej zmiennej losowej o wartościach w otwartym przedziale \(\Delta \), \(E(X) \in \r \), dowolnej \(\s \)-algebry \(\a \subset \Sigma \) i dowolnej funkcji wypukłej \(g : \Delta \str \r \):

    \[ g(E(X|\a )) \le E(g(X)|\a ). \]

    W szczególności, przy powyższych założeniach:

    \[ g(E(X)) \le E(g(X)). \]

Dowód oparty jest na następującej własności funkcji wypukłej.

Dla dowolnej funkcji wypukłej \(g : \Delta \str \r \) określonej na przedziale otwartym istnieją ciągi liczb \(a_n\) oraz \(b_n\), takie, że dla każdego \(y \in \Delta \):

\[ g(y) = \sup _n\{a_ny + b_n\}. \]

Dowód. (nierówność Jensena)

Łatwo pokazać (ćwiczenie), \(E(Y|\a ) \in \Delta \) p.w.

Ponieważ \(g(y) = \sup _n\{a_ny+b_n\}\), to dla każdego \(n\)

\[g(Y) \ge a_nY + b_n.\]

Z własności nadziei warunkowej (ćwiczenia – sformułuj), dla każdego \(n\) zachodzi:

\[E(g(Y)|\a ) \ge E(a_nY + b_n|\a ) = a_nE(Y|\a ) + b_n.\]

Więc

\[E(g(Y)|\a ) \ge \sup _n\{a_nE(Y|\a ) + b_n\} = g (E(Y|\a )).\]

  \(\Box \)

W statystyce ważną rolę odgrywa następująca nierówność:

  • Twierdzenie – 14.11 Dla dowolnej zmiennej losowej o skończonej nadziei matematycznej i skończone wariancji, dowolnej \(\s \)-algebry \(\a \subset \Sigma \):

    \[ D^2(E(Y|\a )) \le D^2(Y). \]

Dowód. Biorąc funkcję wypukłą \(g : \r \ni x \str x^2 \in \r \) i stosując nierówność Jensena dostajemy:

\[ E(Y|\a )^2 \le E(Y^2|\a ). \]

Teraz:

\[ D^2(E(Y|\a )) = E(E(Y|\a )^2) - E(E(Y|\a ))^2 \le \]

\[E(E(Y^2|\a )) -E(Y)^2 = E(Y^2) -E(Y)^2 = D^2(Y). \]

  \(\Box \)

  • Przykład – 14.12

    • 1. \(D^2(E(Y|\{\emptyset ,\Sigma \})) = D^2(E(Y)) = 0 \le D^2(Y)\),

    • 2. Jeżeli \(X, Y\) są niezależne, to \(E(Y|X) = E(Y) \in \r \), więc \(D^2(E(Y|X)) = 0 \le D^2(Y)\).

    • 3. \(D^2(E(Y|Y)) = D^2(Y)\).

    • 4. Ogólniej: \(D^2(E(f(Y)|Y)) = D^2(f(Y))\) dla borelowskiej funkcji \(f\).

Metody Monte Carlo i obniżanie wariancji

Jak pamiętamy metody metody Monte Carlo mogą być używane do obliczania wielkości, które dają się interpretować jako wartości oczekiwane pewnych zmiennych losowych. Załóżmy, że chcemy obliczyć wielkość \(m = E(Y)\) i używamy do tego estymatora \(\hat {m}\). Czasem jednak warto i można wyrazić \(m\) jako nadzieję matematyczną nadziei warunkowej \(E(Y|\a )\): \(m = E(E(Y|\a ))\) i wtedy \(m\) estymujemy estymatorem \(\hat {\hat {m}}\). Wariancja \(E(Y|\a )\) może być istotnie mniejsza niż wariancja \(Y\) i okazuje się, że w pewnych przypadkach wariancja estymatora \(\hat {\hat {m}}\) też jest mniejsza od wariancji estymatora \(\hat {m}\). Ponieważ interesuje nas przedział ufności dla \(m\) musimy jeszcze brać pod uwagę koszt (np. liczbę losowań) rozważanych metod wymagany do otrzymania przedziału ufności dla \(m\).

Jako przykład naszkicujemy najprostszy wariant tak zwanej metody warstwowej obliczania całek.

Metoda 2 poznana w poprzednim rozdziale liczenia całek może być łatwo zaadaptowana do obliczania całek wielokrotnych: Dany jest zbiór borelowski \(C\) w \(\rn \) o mierze skończonej i dodatniej, \(\mu _L(C) >0\), oraz funkcja \(f: C \str \r \) sumowalna (to znaczy \(J = \int _C f\,dx \in \r \)).

Ponieważ \(J = \mu _L(C) E(f(X))\), gdzie \(X \sim U(C)\), dobrym estymatorem jest:

\[ \hat {J} = \mu _L(C)\frac {1}{N}\sum _{i=1}^Nf(X_i), \mbox { gdzie } X_1, \dots , X_N \ i.i.d., X_i \sim U(C). \]

Opiszemy Metodę 3.

Niech \(C\) będzie sumą skończoną zbiorów rozłącznych \(C_1, \dots , C_k\).

Niech \(\a = \s (A_1, \dots , A_k)\), gdzie \(A_i = X^{-1}(C_i)\). Oczywiście \(P(A_i) =P_X(C_i) =\frac {\mu _L(C_i)}{\mu _L(C)}\). Wtedy:

\[ E(f(X)) = E(E(f(X)|\a )), \ \mbox {\bf ALE } \ D^2(E(f(X)|\a )) \le D^2(f(X)). \]

Wskażemy estymator nadziei matematycznej zmiennej losowej \(W = E(f(X)|\a )\), który pozwala wyznaczyć przedział ufności dla \(J\). Zachodzi:

\(\di E(f(X)|\a )(\o ) = \frac {\int _{A_i}f(X)\,dP}{P(A_i)} = \frac {\int _{C_i}f(x)\frac {1}{\mu _L(C)}I_C(x)\,dx}{P(A_i)} = \frac {\int _{C_i}f(x)\,dx}{\mu _L(C_i)} \)
dla \(\o \in A_i\), \(i =1, \dots , k\).

Zauważmy, że: \(\int _{C_i}f(x)\,dx = \mu _L(C_i)E(f(X_i))\), gdzie \(X_i \sim U(C_i)\).

Tak więc

\[\di W = \sum _{i=1}^k E(f(X_i))I_{A_i}.\]

Ponieważ \(E(W) = \sum _{i=1}^kE(f(X_i))P(A_i)\) więc wskażemy estymatory \(\hat {m_1}, \dots , \hat {m_k}\) wielkości \(E(f(X_i))\), a jako estymator \(E(W)\) weźmiemy \(\hat {m} = \sum _{i=1}^k \hat {m_i}P(A_i)\).

Oczywiście weźmiemy średnie arytmetyczne: \(\hat {m_i} = \frac {1}{n_i} \sum _{j=1}^{n_i}f(X_{ij})\), gdzie \(X_{i1}, \dots ,W_{in}\) jest próbką prostą z rozkładu \(U(C_i)\). Więc

\[ \hat {m} = \sum _{i=1}^k\frac {1}{n_i} \sum _{j=1}^{n_i}f(X_{ij})P(A_i). \]

Estymatorem całki \(J\) jest:

\[ \hat {\hat {J}} = \mu _L(C) \hat {E} = \sum _{i=1}^k\mu _L(C_i)\frac {1}{n_i}\sum _{j=1}^{n_i}f(X_{ij}). \]

Można na wiele sposobów dobierać podział zbioru \(C\) na zbiory \(C_i\) oraz wielkości \(n_i\). Na przykład załóżmy, że \(\mu _L(C_i) = \frac {\mu _L(C)}{k}\) oraz, że \(n_1 = ... = n_k = n\). Wtedy

\[ \hat {\hat {J}} = \mu _L(C)\frac {1}{kn}\sum _{i=1}^k\sum _{j=1}^nf(X_{ij}) \]

Można pokazać, że przy tej samej liczbie losowań (czyli, gdy \(N = kn\)) przedział ufności dla \(J\) wyznaczony za pomocą \(\hat {\hat {J}}\) jest węższy od analogicznego przedziału ufności wyznaczonego za pomocą \(\hat {J}\).

  • Przykład – 14.13

    Porównamy Metodę 2 i Metodę 3 do obliczenie całki \(J= \int _{-\pi }^\pi x+\cos x + x(\cos (3x^2))^2\,dx\), o której wiadomo, że jest równa 0.

    (image)

    Powtarzamy 100 razy Metodę 2, gdzie \(N = 9000\), \(\alpha = 0.01\). Otrzymujemy średni błąd estymatora \(\hat {J} = 0.14000\) i wartość średnią promienia przedziału ufności dla \(J\) = 0.49217.

    Powtarzamy 100 razy Metodę warstwową, gdzie przedział został podzielony na 30 jednakowych przedziałów (\(k = 30\)), \(n = 300\), \(\alpha = 0.01\). Otrzymujemy średni błąd estymatora \(\hat {\hat {J}} = 0.03126\) i wartość średnią promienia przedziału ufności dla \(J\) = 0.09484.

    W poniższych histogramach stu wartości \(\hat {J}\) oraz \(\hat {\hat {J}}\) warto zwrócić uwagę na skalę osi poziomej.

    (image)
    Metoda 2

    (image)
    Metoda warstwowa

Istnieje wiele innych sposobów obniżania wariancji w metodach Monte Carlo, patrz [17], [18].

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

14.3 Pytania

  • Pytanie 14.1 Wektor losowy \((X,Y)\) ma rozkład o gęstości \(c x I_{[0,1]^2}\), gdzie \(c \in \r \). Wyznacz kolejno: \(E(X|Y)\), \(E(Y|X)\), \(D^2(X)\), \(D^2(E(X|Y))\), \(D^2(Y)\), \(D^2(E(Y|X))\).

Wskazówka. Całka \(\int _{[0,1]^2} f_{X,Y)}\,d(x,y)\) musi być równa 1, stąd \(c = 2\). Wyznaczamy rozkłady brzegowe i na tej podstawie \(D^2(X) = \frac {1}{18}\), \(D^2(Y) = \frac {1}{12} \). Wyliczamy \(E(Y|X=x) = \frac 12 \), \(E(X|Y = y) = \frac 23\). Tak więc \(E(Y|X) = \frac 12 \), \(E(X|Y) = \frac 23\) są stałymi, więc ich wariancje są równe \(0\).

  • Pytanie 14.2 Zmienna losowa \(X\) ma rozkład \(U(0,3)\). Niech \(A_i = X^{-1}((i-1,i])\) dla \(i = 1,2,3\). Oblicz \(D^2(E(X|\s (A_1,A_2,A_3)))\).

Wskazówka. \(E(X|\s (A_1,A_2,A_3))\) ma rozkład jednostajny dyskretny skupiony na zbiorze \(\{\frac 12, \frac 32, \frac 52\}\). \(D^2(E(X|\s (A_1,A_2,A_3))) = \frac 23\).

  • Pytanie 14.3 Uzupełnij dowód Twierdzenia 14.10. (a) Dlaczego \(E(Y|\a ) \in \Delta \) p.w.? (b) Dlaczego zachodzi nierówność (26)?

Wskazówka. Ad (a). Jeżeli \(X \le b\), to \(E(X|\a ) \le b\).

Ad (b). Można wziąć \(\a = \{\emptyset ,\Omega \}\).

  • Pytanie 14.4 Wektor losowy \((X,Y)\) ma rozkład jednostajny na półkolu \(x^2 +y^2 \le 1 , y\ge 0\). Znajdź: \(D^2(Y)\), \(D^2(E(Y|X))\), \(D^2(X)\), \(D^2(E(X|Y))\).

Wskazówka. . \(D^2(X) = \frac 14\), \(E(X|Y) = 0\), \(D^2(E(X|Y)) = 0\),

\(D^2(Y) = \frac 14 - \frac {16}{9\pi ^2}\), \(E(Y|X) = \frac 12 \sqrt {1 - X^2}\), \(D^2(E(Y|X)) = \frac {3}{16} - \frac {16}{9\pi ^2}\).

  • Pytanie 14.5 Wyznaczyć \(D^2(Y)\) oraz \(D^2(E(Y|(X,Z)))\) dla zmiennych losowych określonych w Przykładzie 14.9.

Wskazówka. Najpierw wyznaczamy: \(E(Y^2|X = x,Z = 0) = \frac {x^2}{3}\), \(E(Y^2|X = x,Z = 1) = \frac {x^2+x+1}{3}\). Stosując analogiczne rozumowanie jak w Przykładzie 14.9 wyliczamy \(E(Y^2)\) jako \(E(E(Y^2|(X,Z)) = \frac 19 + \frac {1}{2}p\). Mamy więc:

\[D^2(Y) = E(Y^2) - E(Y)^2 = \frac 19 + \frac {1}{2}p - \left (\frac 14 +\frac {p}{2}\right )^2 = \frac {7}{144} + \frac 14 p - \frac 14 p^2.\]

Wynik uzyskany w Przykładzie 14.9 można zapisać w formie:

\[E(Y|(X,Z)) = \frac {X}{2}I_{\{Z=0\}} + \frac {X+1}{2}I_{\{Z=1\}} \mbox { dla } 0 <x<1.\]

Możemy więc policzyć:

\[E(E(Y|(X,Z))^2) = E\left (\left (\frac {X}{2}I_{\{Z=0\}} + \frac {X+1}{2}I_{\{Z=1\}}\right )^2\right )\]

\[ = E\left ((\frac {X}{2}I_{\{Z=0\}})^2\right ) + E\left ((\frac {X+1}{2}I_{\{Z=1\}})^2\right ) + 2\cdot 0\]

\[= \frac 14 E(X^2)(1-p) + \frac 14 E((X+1)^2)p = \frac 14 \left (\frac 13 (1-p) + \frac 73 p\right ) = \frac {1}{12} + \frac 12 p.\]

\[D^2(E(Y|(X,Z))) = \frac {3}{144} +\frac 14 p - \frac 14 p^2.\]

  • Pytanie 14.6 Przy standardowych oznaczeniach i założeniu, że \(E(X) \in \r \) porównaj

    \[ E(X|\a )^+, \ E(X^+|\a ) \ \ \mbox { oraz podovnie } \ \ E(X|\a )^-, \ E(X^-|\a ). \]

Wskazówka. Stosujemy nierówność Jensena do funkcji wypukłej \(g(x) = \max (0,x)\) oraz \(g(x) = - \max (0,-x)\).

\[ E(X|\a )^+ \le E(X^+|\a ), \ \ \ E(X|\a )^- \ge E(X^-|\a ). \]

Rachunek prawdopodobieństwa — Martyngaly

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 15 Martyngały

Wykorzystując pojęcie nadziei warunkowej można badać procesy stochastyczne, czyli ciągi zmiennych losowych, zwane martyngałami, podmartyngałami (submartygałąmi) i nadmartyngałami (supmartyngałami). Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną.

15.1 Definicje i przykłady

Niech \(\{\a _n\}\) będzie ciągiem \(\s \)-algebr: \(\a _1 \subset \a _2 \subset \a _3 \subset \dots \subset \Sigma \). Częsta nazwa – filtracja.

Niech \(X_n :\Omega \str \r \) będzie ciągiem zmiennych losowych, takich, że \(E(X_n) \in \r \) oraz dla każdego \(n\) \(X_n\) jest \(\a _n\)-mierzalna..

  • Definicja – 15.1 Parę \(\left (\}X_n\}, \{\a _n\} \right )\) nazywamy:

    • 1. martyngałem \(\rwn \) dla każdego \(n\) \(E(X_{n+1}|\a _n) = X_{n}\).

    • 2. submartyngałem \(\rwn \) dla każdego \(n\) \(E(X_{n+1}|\a _n) \ge X_{n}\).

    • 3. supmartyngałem \(\rwn \) dla każdego \(n\) \(E(X_{n+1}|\a _n) \le X_{n}\).

  • Definicja – 15.2 Ciąg \(\}X_n\}\) nazywamy odpowiednio

    martyngałem, submartyngałem, supmartyngałem

    \(\rwn \) para \(\left (\{X_n\}, \{\a _n\} \right )\), gdzie \(\a _n = \sigma (X_1, \dots ,X_n)\) jest odpowiednio

    martyngałem, submartyngałem, supmartyngałem.

Często używana interpretacja.

\(X_n\) – kapitał gracza po \(n\) grach.

\(\a _n\) – dostępna informacja po \(n\) grach.

\(\a _n \subset \a _{n+1}\) – informacja wzrasta w trakcie gry.

\(E(X_{n+1}|\a _n) = X_{n}\) – gra jest sprawiedliwa.

\(E(X_{n+1}|\a _n) \ge X_{n}\) – gra jest korzystna dla gracza.

\(E(X_{n+1}|\a _n) \le X_{n}\) – gra nie jest korzystna dla gracza.

  • Uwaga – 15.3 Jeżeli para \(\left (\{X_n\}, \{\a _n\} \right )\) jest odpowiednio martyngałem, submartyngałem, supmartyngałem, to ciąg \(\{X_n\}\) jest odpowiednio martyngałem, submartyngałem, supmartyngałem.

Dowód. W przypadku martyngału dla każdego \(n\) zachodzi równość:

\[E(X_{n+1}|\a _n) = X_{n},\]

a ponieważ dla \(i \le n\) \(X_i\) jest \(\a _i\)-mierzalna, więc jest też \(\a _n\)-mierzalna i stąd wektor \((X_1, ..., X_n)\) jest \(\a _n\)-mierzalny. Tak więc \(\s (X_1, ..., X_n) \subset \a _n\) i korzystając z własności 7 w Twierdzeniu 13.25 oraz własności 4 w Twierdzeniu 13.26 z powyższej równości otrzymujemy kolejno:

\[E(E(X_{n+1}|\a _n)|\s (X_1, ..., X_n)) = E(X_{n}|\s (X_1, ..., X_n)),\]

\[E(X_{n+1}|\s (X_1, ..., X_n)) = X_{n}.\]

Pozostałe przypadki są oczywiste.   

  • Przykład – 15.4

    \(X_1, X_2, X_3, \dots \) – niezależne zmienne losowe, \(E(X_i) =0\),

    \(S_n = X_1 + X_2 + \dots + X_n\).

    Wtedy \(\left (\{S_n\}, \{\s (X_1,\dots ,X_n)\}\right )\) jest martyngałem.

    Rzeczywiście: Dla każdego \(n\) \(S_n\) jest \(\s (X_1,\dots ,X_n)\) mierzalna (ćwiczenie).

    \[ E(S_{n+1}|\s (X_1,\dots ,X_n)) = E(S_{n} + X_{n+1}|\s (X_1,\dots ,X_n))\]

    \[ = E(S_{n}|\s (X_1,\dots ,X_n))+E(X_{n+1}|\s (X_1,\dots ,X_n)) = S_n + E(X_{n+1}) = S_n.\]

    Interpretacja. Jeżeli oczekiwany zysk w pojedynczej grze równa się zeru, a gry od siebie są niezależne, to gra jest sprawiedliwa.

  • Przykład – 15.5 W przykładzie 10.23 rozpatrywaliśmy ciąg: \(x_0 = 1\), \(x_{n+1}\) – liczba wylosowana zgodnie z rozkładem \(U(0,2x_n)\), \(n = 0,1,2,3, \dots \).

    Niech \(X_n\) oznacza zmienną losową, której realizacją jest \(x_n\).

    Ciąg \(X_n\) jest martyngałem, gdyż \(X_{n}\) jest \(\s (X_1,...,X_n)\) mierzalne, a także z określenia \(x_{n+1}\) widać, że: \(E(X_{n+1}|\s (X_1,...,X_n)) = \frac {0+2X_n}{2} = X_n\).

  • Przykład – 15.6

    \(X_1,X_2,X_3, \dots .\) i.i.d. o dyskretnym rozkładzie jednostajnym skupionym na zbiorze \(\{-1,1\}\). \(S_n = X_1 + \dots + X_n\).

    Wtedy \((\{S_n^2 - n\},\{\s (X_1,\dots ,X_n)\})\) jest martyngałem.

    Rzeczywiście: Dla każdego \(n\) \(S_n^2 - n\) jest \(\s (X_1,\dots ,X_n)\) mierzalna (ćwiczenie).

    \[ E(S_{n+1}^2 -(n+1)|\s (X_1,\dots ,X_n))\]

    \[ = E((S_{n} +X_{n+1})^2|\s (X_1,\dots ,X_n)) - E(n+1|\s (X_1,\dots ,X_n))\]

    \[ = E(S_{n}^2 +2S_nX_{n+1}+X_{n+1}^2|\s (X_1,\dots ,X_n)) - n - 1 \]

    \[ = S_n^2 +2S_nE(X_{n+1}) + E(X_{n+1}^2) - n - 1 = S_{n}^2 + 2S_n\cdot 0 + 1 - n - 1 = S_n^2 - n. \]

  • Przykład – 15.7

    Niech \(\a _n\) będzie ciągiem \(\s \)-algebr: \(\a _1 \subset \a _2 \subset \a _3 \subset \dots \subset \Sigma \). \(X\) zmienna losowa, \(E(X) \in \r \). Wtedy \(\{E(X|\a _n)\}\) jest martyngałem (ćwiczenie).

Nierówność Jensena implikuje ważne twierdzenie:

  • Twierdzenie – 15.8 Jeżeli \(\left (\{X_n\}, \{\a _n\} \right )\) jest submartyngałem, \(g: \r \str \r \) funkcją rosnącą i wypukłą, to \(\left (\{g(X_n)\}, \{\a _n\} \right )\) jest submartyngałem.

Dowód. (ćwiczenie).

  • Wniosek – 15.9 Jeżeli \(\left (\{X_n\}, \{\a _n\} \right )\) jest submartyngałem, to:

    (1) \(\left (\{X_n^+\}, \{\a _n\} \right )\) jest submartyngałem

    (2) \(\left (\{X_n^2\}, \{\a _n\} \right )\) jest submartyngałem

Rachunek prawdopodobieństwa — Wybór strategii w grze

(image)

Rachunek prawdopodobieństwa 1, 2

15.2 Wybór strategii w grze

Następujące twierdzenie jest jednym z wielu wyników dotyczących martyngałów i mających interpretację w języku teorii gier.Wyobraźmy sobie, że po każdej grze gracz na podstawie znajomości dotychczasowych rezultatów może podjąć decyzję: gra w kolejnej, lub ją opuszcza. Twierdzenie orzeka, że gdy gra jest sprawiedliwa, lub korzystna, to jakakolwiek strategia tego typu nie zmieni jej charakteru.

  • Twierdzenie – 15.10 (Halmos) Niech \(\left (\{X_n\}, \{\a _n\} \right )\) będzie martyngałem (submartyngałem), \(B_n \in {\cal B}(\rn )\), dla \(n =1,2,3, \dots \).

    \[\ve _n = \left \{ \begin {array}{ll} 1 & \mbox { gdy } (X_1,\dots , X_n) \in B_n \\ 0 & \mbox { gdy } (X_1,\dots , X_n) \notin B_n. \end {array}\right . \]

    Określamy:

    \[ Y_1 = X_1, \ \ \ Y_{n+1} = Y_n + \ve _n (X_{n+1} - X_n), \ \ n \ge 1. \]

    Wtedy:

    (1) \(\left (\{Y_n\}, \{\a _n\} \right )\) jest martyngałem (submartyngałem).

    (2) \(E(Y_n) = E(X_n)\), (\(E(Y_n) \le E(X_n)\)), dla \(n \ge 1\).

Przypomnienie twierdzenia 13.26.

  • 1. Jeżeli \(X :\Omega \str \r ^k\) jest wektorem losowym takim, że \(X,Y\) są niezależne, to \(E(Y|X) =E(Y)\).

  • 2. Jeżeli \(Z\) jest \(\a \)- mierzalna oraz \(E(ZY) \in \r \), to \(E(ZY|\a ) = ZE(Y|\a )\).

  • 3. Jeżeli \(g :\r ^k \str \r \) jest funkcją borelowską, \(E(g(X)) \in \r \), to \(E(g(X)|X) = g(X)\).

  • 4. Jeżeli \(X\) jest zmienną losową, \(E(X) \in \r \), to \(E(X|X) = X\).

Dowód. Ad (1). Zmienna losowa \(\ve _n = I_{(X_,\dots ,X_n) \in B_n}\) jest \(\s (X_1,\dots ,X_n)\)-mierzalna, a więc \(\a _n\)-mierzalna. W takim razie zmienna losowa \(Y_n\) jest \(\a _n\) mierzalna.

\[E(Y_{n+1}|\a _n) = E(Y_n+\ve _n(X_{n+1} - X_n)|\a _n) = E(Y_n|\a _n) + \ve _n E(X_{n+1} - X_n|\a _n) \]

\[ = ( \ge ) Y_n + \ve _n(X_n - X_n) = Y_n. \]

Ad (2) Oczywiście \(E(Y_1) = E(X_1)\), czyli \(E(X_1 - Y_1) = 0\). Dalej mamy:

\[X_{n+1} - Y_{n+1} = X_{n+1} - Y_n - \ve _n(X_{n+1} - X_n) = \]

\[ = (1 - \ve _n) (X_{n+1} - X_n) + (X_n - Y_n).\]

Funkcja \(1 - \ve _n\) oraz funkcja \(X_n - Y_n\) są \(\a _n\)-mierzalne, więc z własności 2 z własności 3 w przypomnianym u góry twierdzeniu 13.26 otrzymujemy:

\[E(X_{n+1} - Y_{n+1}|\a _n) = (1 - \ve _n)(E(X_{n+1}|\a _n) - E(X_n|\a _n)) + X_n-Y_n. \]

Z założenia \(E(X_{n+1}|\a _n) = (\ge ) X_n \), więc

\[E(X_{n+1} - Y_{n+1}|\a _n) = ( \ge ) (1 - \ve _n) (X_n - X_n) + (X_n - Y_n) = X_n- Y_n.\]

Gdy weźmiemy nadzieję matematyczną obydwu stron i skorzystamy z założenia indukcyjnego, widzimy, że \(E(X_{n+1} - Y_{n+1}) = ( \ge ) E(X_n- Y_n)\).   \(\Box \)

  • Przykład – 15.11 Adam i Bolek zwierają następującą umowę. Bolek będzie co minutę rzucał symetryczną kostką, a przed każdym rzutem Adam będzie decydował, czy podejmuje następujące wyzwanie: wpłaca Bolkowi 3.5 złotych i otrzymuje \(x\) złotych, gdzie \(x\) jest uzyskaną liczbą oczek. Adam jednak postanawia, że jeżeli w kolejnych dwóch rzutach pojawi się „6", wtedy nie obstawi kolejnego rzutu (Bolek jednak wykona rzut), a w każdym innym przypadku podejmuje wyzwanie. Zinterpretujemy tę grę w języku Twierdzenia Halmosa.

    Niech \(Z_1, Z_2, Z_3, ...\) oznaczają liczby oczek w kolejnych rzutach wykonywanych przez Bolka. Niech \(X_n = Z_1 + ... +Z_n - 3.5n\). Jest to martyngał ze względu na filtrację \(\s (Z_1,...,Z_n)\) (ćwiczenie). Określamy zbiory borelowskie \(B_i\) w sposób następujący. \(B_1 = \r \), \(B_2 = \{(x_1,x_2 ):\ \sim ( x_1 =3.5, x_2 = 7)\}\), \(B_3 = \{(x_1,x_2,x_3): \ \sim (x_2 = x_1+3.5, x_3 = x_2+3.5)\}\) , .... Wtedy \(Y_n\) określone w Twierdzeniu Halmosa jest ciągiem wygranych Adama.

Twierdzenie Halmosa można uogólnić. Poniżej wypowiedź dla przypadku martyngałów.

  • Twierdzenie – 15.12 Niech \(\left (\{X_n\}, \{\a _n\} \right )\) będzie martyngałem, niech \(v_n\) będą \(\a _n\)-mierzalne i ograniczone, dla \(n = 0,1,2,3, ....,\).

    Określamy:

    \[ Y_1 = v_0X_1, \ \ \ Y_{n+1} = Y_n + v_n (X_{n+1} - X_n), \ \ n \ge 1. \]

    Wtedy: \(\left (\{Y_n\}, \{\a _n\} \right )_{n=1}^\infty \) jest martyngałem. \(E(Y_n) = E(v_0X_1)\) dla \(n \ge 1\).

Dowód. Powtórzenie dowodu pierwszej części Twierdzenia Halmosa. Uwaga. Założenie o ograniczoność \(v_n\) oznacza, że można skorzystać z punkt 2 Twierdzenia 13.26 i otrzymać równość: \(E(v_n(X_{n+1} - X_n)|\a _n) = v_n E(X_{n+1} - X_n|\a _n)\) (ćwiczenie).   

Gdy obserwujemy wyniki \(X_n\) kolejnych gier pewnego gracza możemy na tej podstawie robić zakłady dotyczące następnej gry i \(v_n\) może być interpretowane jako wysokość zakładu w kolejnej grze, natomiast \(Y_n\) oznacza nasz zysk (stratę). Jeżeli gra jest sprawiedliwa nasz średni zysk (strata) nie zmienia się.

Rachunek prawdopodobieństwa — Momenty stopu

(image)

Rachunek prawdopodobieństwa 1, 2

15.3 Momenty stopu

Dana jest filtracja \(\a _1 \subset \a _2 \subset \a _3 \subset \dots \subset \Sigma \) oraz funkcja \(\tau : \Omega \to \N \cup \{\infty \}\).

  • Definicja – 15.13 \(\tau \) jest momentem stopu względem filtracji \(\{\a _n\} \rwn \) dla każdego \(n \in \N \) \(\{\tau \le n\} \in \a _n\).

  • Przykład – 15.14 \(\tau = n_0\), \(n_0 \in \N \) jest momentem stopu dla każdej filtracji, \(n_0 \in \N \) ustalone.

    Niech \(X_1,X_2,X_3, ...\) będzie ciągiem zmiennych losowych, Niech \(B \subset \r \) będzie zbiorem borelowskim.

    \(\tau = \min \{k: X_k \in B\}\) jest momentem stopu dla filtracji \(\s (X_1, \dots , X_n)\).

    bo \(\{\tau \le n\} = \bigcup _{k=1}^n\{X_k \in B\} \, \in \, \s (X_1, \dots , X_n)\)

    \(\tau = \max \{k: X_k \in B\}\) na ogół nie jest momentem stopu dla filtracji \(\{s(X_1, \dots , X_n)\}\).

    bo \(\{\tau \le n\} = \bigcap _{k = n+1}^\infty \{X_k \notin B\}\) na ogół nie należy do \(\s (X_1, \dots , X_n)\)

  • Uwaga – 15.15 Przy poprzednich oznaczeniach następujące warunki są równoważne:

    • 1. dla każdego \(n \in \N \) \(\{\tau \le n\} \in \a _n\) (\(\tau \) jest momentem stopu),

    • 2. dla każdego \(n \in \N \) \(\{\tau > n\} \in \a _n\),

    • 3. dla każdego \(n \in \N \) \(\{\tau = n\} \in \a _n\).

Dowód. \(\{\tau \le n\} = \bigcup _{k=1}^n\{\tau = k\}\).

\(\{\tau = n \} = \{\tau \le n\} \setminus \{\tau \le n-1\}\)   

  • Uwaga – 15.16 Jeżeli \(\tau _1\), \(\tau _2\) są momentami stopu, to

    \(\min (\tau _1,\tau _2)\), \(\max (\tau _1,\tau _2)\) są momentami stopu.

Dowód. (ćwiczenie).   

Dla danego ciągu zmiennych losowych \(X_n\) oraz momentu stopu \(\tau \) względem filtracji \(\{\s (X_1,...X_n)\}\) takiego, że \(P(\tau < \infty ) = 1\) określamy funkcję \(X_\tau : \Omega \to \r \) wzorem

\[ X_\tau (\o ) = X_{\tau (\o )}(\o ). \]

\(X_\tau \) jest zmienną losową, gdyż dla każdego zbioru borelowskiego \(B\): \(\{X_\tau \in B\} = \bigcup _{n=1}^\infty \{\tau = n\}\cap \{X_n \in B\} \in \Sigma \).

Następujące twierdzenie Walda pozwala obliczać nadzieję matematyczną sumy losowej liczby składników zmiennych losowych i.i.d.

  • Twierdzenie – 15.17 (Tożsamość Walda) \(X_1, X_2, X_3, ...\) i.i.d., \((E(X_i) \in \r \). \(S_n = X_1+ ...+X_n\). \(\tau \) – moment stopu dla filtracji \(\{\s (X_1,...,X_n)\}\), \(E(\tau ) < \infty )\). Wtedy:

    \[ E(S_\tau ) = E(\tau )E(X_1). \]

Dowód. Wykorzystamy lemat, którego dowód jest bardzo podobny do dowodu analogicznego Lematu 10.18 (ćwiczenie).

  • Lemat – 15.18 Jeżeli \(X\) jest zmienną losową taką, że \(P(X \in \N ) = 1\), to \(E(X) = \sum _{n=1}^\infty P(X\ge n)\).

Zaważmy, że dla ustalonego \(\o \in \Omega \) \(S_{\tau (\o )}(\o ) = X_1(\o ) + ... + X_n(\o )\), gdzie \(n=\tau (\o )\).

Ponieważ \(\Omega \) jest sumą rozłącznych zbiorów \(\{\tau = n\}\), to

\[ S_\tau = X_1 I_{\{\tau \ge 1\}} + X_2 I_{\{\tau \ge 2\}} + X_3 I_{\{\tau \ge 3\}} + ... = \sum _{n=1}^\infty X_n I_{\{\tau \ge n\}}. \]

Przypadek 1. \(X_n \ge 0\) p.w. Wtedy \(\sum _{n=1}^\infty X_n I_{\{\tau \ge n\}}\) jest dobrze określona. Ponieważ \(I_{\{\tau \ge n\}} = I_{\{\tau > n-1\}}\) jest \(\s (X_1,...X_{n-1})\) mierzalna, to zmienne losowe \(X_n\) oraz \(I_{\{\tau \ge n\}}\) są niezależne. Dlatego \(E( X_n I_{\{\tau \ge n\}} ) = E(X_n) E( I_{\{\tau \ge n\}}) = E(X_1) P(\{\tau \ge n\})\). Zatem:

\[ E(S_\tau ) = \sum _{n=1}^\infty E(X_n)E(I_{\{\tau \ge n\}}) = E(X_1)\sum _{n=1}^\infty P(\{\tau \ge n\}) = E(X_1) E(\tau ). \]

Przypadek 2, sytuacja ogólna. Stosujemy Przypadek 1 do ciągów \(\{X_n^+\}\) oraz \(\{X_n^-\}\). Wtedy: \(E(|S_\tau |) = E(S_\tau ^+) + E(S_\tau ^-) = E(X_1^+) E(\tau ) + E(X_1^-) E(\tau ) = E(|X_1|)E(\tau ) < \infty \), więc \(E(X_\tau ) \in \r \) i można powtórzyć rachunki z Przypadku 1.   

  • Twierdzenie – 15.19 Niech \(\left (\{X_n\}, \{\a _n\} \right )\) będzie martyngałem (submartyngałem, supmartyngałem), \(\tau \) momentem stopu względem filtracji \(\{\a _n\}\).

    Określamy:

    \[ Y_n = X_{\min (n,\tau )}, \mbox { dla } n = 1,2,3, ... . \]

    Wtedy \(\left (\{Y_n\}, \{\a _n\} \right )\) jest martyngałem (submartyngałem, supmartyngałem)

Dowód. Ustalmy \(n\ge 1\) oraz \(\o \in \Omega \). Albo \(\tau (\o ) = k\) dla pewnego \(k \le n-1\), albo \(\tau (\o ) \ge n\). W pierwszym przypadku \(Y_n(\o ) = X_k(\o )\), w drugim \(Y_n(\o ) = X_n(\o )\). Zachodzi więc równość:

\[ Y_n = \sum _{k=1}^{n-1}X_k I_{\{\tau = k\}} + X_n I_{\{\tau > n-1\}} \]

\(Y_n\) są \(\a _n\)-mierzalne (złożenia funkcji mierzalnych).

\[ Y_{n+1} - Y_n = (X_{n+1} - X_n)I_{\{\tau > n\}}, \ \ \mbox { bo } X_nI_{\{\tau > n-1\}} = X_nI_{\{\tau = n\}} + X_nI_{\{\tau > n\}} \]

Ponieważ \(\{\tau > n\} \in \a _n\), to \(I_{\{\tau > n\}}\) jest \(\a _n\) mierzalne, więc:

\[ E(Y_{n+1} - Y_n|\a _n) = I_{\{\tau > n\}}E(X_{n+1} - X_n|\a _n), \]

więc łatwo dokończyć dowód.   

  • Przykład – 15.20 W pewnym kasynie gracz rozpoczyna serię rzutów monetą symetryczną, przy czym uzgodnił następujące warunki: Jeżeli w pierwszym rzucie wypadnie orzeł otrzyma $1000 i kończy grę. Jeżeli w pierwszym rzucie wypadnie reszka zapłaci $1000 i wykonuje następne rzuty według tych samych zasad, podwajając jednak w każdym rzucie stawkę. Gdy więc gra się kończy (po wypadnięciu orła), gracz otrzyma \(\$2^n1000\), gdzie \(n\) oznacza liczbę wykonanych rzutów. O ile gra się kiedyś skończy. Czy gra jest opłacalna?

    Rozwiązanie bezpośrednie: Jeżeli gracz wyrzuci orła w pierwszym rzucie, to otrzyma \(\$1000\) i zakończy grę. Jeżeli orzeł po raz pierwszy wypadnie w \(n\)-tym rzucie, to gracz zapłaci za \(n-1\) przegranych: \(1000 + \dots + 2^{n-2}1000 = 1000\frac {2^{n-1}-2}{2-1} = 2^{n-1}1000 - 1000\) dolarów, ale za ostatni rzut otrzyma \(\$2^{n-1}1000\). O ile orzeł wypadnie w skończonym czasie gracz zarobi \(\$1000\).

    Interpretacja w języku teorii martyngałów: Niech \(X_1, X_2, X_3, ...\) będą i.i.d. o rozkładzie \(P(X_i = -1) = P(X_i= 1) = \frac 12\), to znaczy 1 utożsamiamy z orłem, -1 z reszką. Niech \(\a _n = \s (X_1,...X_n)\). \(S_n = X_1 + \dots + X_n\).

    Wiemy, że \((\{S_n\}, \{\a _n\})\) jest martyngałem.

Niech \(v_0 = 1000\). Dla \(n = 1, 2, 3, ...\) określamy \(v_n = 2^n1000\) o ile \(X_1 = ... = X_{n-1} = -1\) oraz \(v_n = 0\) w pozostałych przypadkach.

Niech, podobnie jak w Twierdzeniu 15.12

\[ K_1 = v_0S_1, \ \ \ K_{n+1} = K_n + v_n (S_{n+1} - S_n), \ \ n \ge 1. \]

Więc \((\{K_n\},\{\s (X_1,...,X_n)\})\) jest martyngałem.

Mamy

\[K_{n} = v_0X_1 + v_1X_2 + ... +v_{n-1}X_n,\]

co oznacza stan konta gracza po \(n\) grach.

Niech \(\tau = \min (k: X_k = 1)\). Oczywiście jest to moment stopu względem filtracji \(\{\s (X_1,...,X_n)\}\). Co więcej, \(\tau \) ma rozkład geometryczny \(G_{\frac 12}\), co oznacza, że \(P(\tau < \infty ) = 1\). więc gra się kiedyś skończy.

Gdy \(\tau = 1\), to \(X_1 = 1\), to oznacza, że \(K_1 = 1000\). Ustalmy \(n > 1\). Gdy \(\tau = n\), to oznacza, że \(X_1 = ... = X_{n-1} = - 1\) oraz \(X_n = 1\). Wtedy: \(K_n = -v_0 - ...- v_{n-2} + v_{n-1} = -1000 - \dots - 2^{n-2}1000 + 2^{n-1}1000 = -1000\frac {2^{n-1}-1}{2-1} + 2^{n-1}1000 = 1000\).

Więc \(K_\tau \) jest stałą równą 1000.

Rachunek prawdopodobieństwa — Twierdzenie o zbiezności

(image)

Rachunek prawdopodobieństwa 1, 2

15.4 Twierdzenie o zbieżności

Jednym z ważniejszych twierdzeń w teorii martyngałów jest:

  • Twierdzenie – 15.21 Niech \(\left (\{X_n\}, \{\a _n\} \right )\) będzie supmartyngałem, lub submartyngałen spełniającym warunek:

    \begin{equation} \sup _n E(|X_n|) < \infty . \label {wnzbnp} \end{equation}

    Wtedy istnieje taka zmienna losowa \(X\), że \(E(X) \in \r \) oraz:

    \[X_n\stackrel {1}{\to } X. \]

Dowód. Pomijamy.

Łatwo sprawdzić (ćwiczenie)

  • Uwaga – 15.22

    W przypadku supmartyngału: Warunek (15.1) \(\rwn \sup _n E(X_n^-) < \infty \).

    W przypadku submartyngału: Warunek (15.1) \(\rwn \sup _n E(X_n^+) < \infty \).

Jako wniosek otrzymujemy:

  • Wniosek – 15.23 Niech \(\left (\{X_n\}, \{\a _n\} \right )\) będzie supmartyngałem, \(X_n \ge 0\) dla \(n =1, 2, 3, ...\).

    Wtedy istnieje taka zmienna losowa \(X\), że \(E(X) \in \r \) oraz:

    \[X_n\stackrel {1}{\to } X. \]

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

15.5 Pytania

  • Pytanie 15.1 Niech \(a > 0\). Określamy: \(X_0 = 1\). Gdy znamy już punkt \(X_n\), określamy \(X_{n+1}\) jako liczbę wylosowaną zgodnie z rozkładem \(U(0,aX_n)\). Dla jakich \(a\) powyższy ciąg jest martyngałem, podmartyngałem, nadmartyngałem.

Wskazówka. Skoro \(X_{n+1}\) jest wylosowany według rozkładu jednostajnego na określonym przedziale, to jej nadzieja matematyczna jest środkiem tego przedziału. Inaczej

\[E(X_{n+1}|\s (X_1, ...,X_n)) = \frac {aX_n}{2} = \frac {a}{2}X_n.\]

Dla \(a = 2\) mamy martyngał dla \(a <2 \) – supmartymgał, \(a > 2 \) – submartymgał.

  • Pytanie 15.2 Niech \(X_1.X_2,X_3,..., X_n\) będzie ciągiem niezależnych zmiennych losowych o rozkładzie \(B(1, p )\) każda. Niech \(S_n = X_1 + ... + X_n\).

    (a) Wskaż takie rozłączne zbiory \(A_i\) oraz liczbę \(N\), że \(\s (X_1,...,X_n) = \s (A_1,.., A_N)\).

    (b) Wykaż, że \(\s (S_n)\varsubsetneq \s (X_1,...,X_n)\) dla \(n = 2\).

    (c) Czy \(\s (X_1,...,X_n) = \s (S_1,...,S_n)\)? Odpowiedź uzasadnij.

Wskazówka. Ad (a). Niech \(n = 1\). Biorę \(A_1 = \{X_1=0\}\), \(A_2 = \{X_1=1\}\). Chociaż nie znamy \((\Omega ,\Sigma ,P)\), to widzimy, że \(A_i\) są rozłączne, a także, że \(P(A_1 \cup A_2) = 1\). Oczywiście \(\s (A_1,A_2) \subset \s (X_1)\). Dla dowolnego zbioru borelowskiego \(B \subset \r \) mamy \(X_1^{-1}(B) = X_1^{-1}(B\cap \{0,1\})\) Ten ostatni zbiór jest równy albo zbiorowi pustemu, albo \(A_1\), albo \(A_2\), albo \(\Omega \). Stąd \(\s (X_1) \subset \s (A_1,A_2)\). Dla \(n = 2\) mamy cztery zbiory: \(A_1 = \{X_1=0,X_2 = 0\}\), \(A_2 = \{X_1=0,X_2 = 1\}\), \(A_3 = \{X_1=1,X_2 = 0\}\), \(A_4 = \{X_1=1,X_2 = 1\}\). Podobnie dla większych \(n\). Formalnie można napisać. tak. Niech \(N = 2^n\). Dla \(1 \le i \le N\) niech \(\ve _1, ..., \ve _n\) będzie rozwinięciem liczby \(i - 1\) w systemie dwójkowym. Określamy: \(A_i = \{X_1 = \ve _1, ... , X_n = \ve _n\}\).

Ad (b). Ponieważ \(S_n\) jest funkcją borelowską zmiennych \(X_1, ..., X_n\), to zawieranie jest oczywiste. Niech \(n = 2\) i niech \(A = \{X_1 = 0, X_2 = 1\}\). Widzimy, że \(A \in \s (X_1,X_2)\). Natomiast \(\s (S_2) = \s (\{S_2 = 0\}, \{S_2 = 1\}, \{S_2 = 2\})\), więc nie zawiera \(A\) (nie można go przedstawić jako sumę generatorów). Podobnie jest dla większych \(n\).

Ad (c). Wektor \((S_1, ... , S_n)\) jest borelowską funkcją wektora \((X_1, ..., X_n)\). Mamy też równości: \(X_1 = S_1, X_2 = S_2 - S_1, ... , X_n = S_n - S_{n-1}\), więc wektor \((X_1, ..., X_n)\) jest borelowską funkcją \((S_1, ..., S_n)\).

  • Pytanie 15.3 Wykaż twierdzenie wypowiedziane w Przykładzie 9.43.

Wskazówka. Oznaczmy: \(X_n = E(X|\a _n)\). \(E(X_n) = E(X|\a _n) = E(X) \in \r \). Ponieważ \(\a _n \subset \a _{n+1}\), to \(E(E(X|\a _{n+1})|\a _{n }) = E(X|\a _n)\), więc \(\{E(X|\a _n)\}\) jest martyngałem względem filtracji \(\{\a _n\}\). Dla każdego \(n\) zachodzi więc równość:

\[E(X_{n+1}|\a _n) = X_{n},\]

a ponieważ dla \(i \le n\) \(X_i\) jest \(\a _i\)-mierzalna, więc jest też \(\a _n\)-mierzalna i stąd wektor \((X_1, ..., X_n)\) jest \(\a _n\)-mierzalny. Tak więc \(\s (X_1, ..., X_n) \subset \a _n\) i korzystając z poznanych już własności z powyższej równości otrzymujemy kolejno:

\[E(E(X_{n+1}|\a _n)|\s (X_1, ..., X_n)) = E(X_{n}|\s (X_1, ..., X_n)),\]

\[E(X_{n+1}|\s (X_1, ..., X_n)) = X_{n}.\]

  • Pytanie 15.4 Czy suma, różnica, iloczyn dwóch momentów stopu względem tej samej filtracji jest momentem stopu? Uzasadnić.

Wskazówka. Suma tak. \(\{\tau _1 + \tau _2 = n\} = \bigcup _{k=1}^{n-1}\{\tau _1 = k,\tau _2 = n - k\} \in \a _n\).

Iloczyn tak. Podobnie jak wyżej: \(\{\tau _1 \cdot \tau _2 = n\}\) jest sumą zbiorów postaci
\(\{\tau _1 = k,\tau _2 = l\}\), gdzie \(kl = n\).

Różnica na ogół nie. Moment stopu ma być większy niż 0.

  • Pytanie 15.5 Podaj dowód Uwagi 15.16

Wskazówka. \(\{\max (\tau _1,\tau _2) \le n\} = \{\tau _1 \le n\} \cap \{\tau _2 \le n\}\)

\(\{\min (\tau _1,\tau _2) \le n\} = \{\tau _1 \le n\} \cup \{\tau _2 \le n\}\).

  • Pytanie 15.6 Wykaż Uwagę 15.22 i Wniosek 15.23.

Wskazówka. Dowód Uwagi 15.22. Warunek (15.1) oznacza, że ciąg o wyrazach \(E(|X_n|)\) jest ograniczony. Wiemy też, że \(E(|X_n|) = E(X_n^+) + E(X_n^-)\). Ciągi o wyrazach nieujemnych \(E(X_n^+)\) oraz \(E(X_n^-)\) są więc tym bardziej ograniczone. Załóżmy teraz, ze ciąg o wyrazach \(E(X_n^+)\) jest ograniczony i, że mamy do czynienia z submartyngałem. Zachodzą więc nierówności:

\[ E(X_{n+1}|\a _n) \ge X_n \ \mbox { i stÄĚd dla kaÅijdego } n \ E(X_n) = E(X_n^+) - E(X_n^-) \ge E(X_1), \]

czyli \(E(X_n^-) \le E(X_n^+) - E(X_1)\). Stąd

\[ E(|X_n|) = E(X_n^+) + E(X_n^-) \le 2E(X_n^+) - E(X_1). \]

Zachodzi więc warunek (15.1). W przypadku supmartyngału jest podobnie.

Dowód Wniosku 15.23. Skoro \(X_n \ge 0\), to \(X_n^- = 0\) i możemy stosować pierwszą część Uwagi 15.22, są więc spełnione założenia twierdzenia 15.21 o zbieżności.

Rachunek prawdopodobieństwa — Definicja i przyklady lańcuchów Markowa

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 16 Definicja i przykłady łańcuchów Markowa

Przedstawimy jedną z najprostszych sytuacji, gdy rozważne zmienne losowe są zależne. Warto podkreślić, że łańcuchy Markowa, które będziemy za chwilę omawiać, stanowią bardzo interesujący przykład procesów stochastycznych. Ich teoria ma z kolei podstawowe znaczenie przy budowie probabilistycznych modeli wielu zjawisk przyrodniczych, technicznych, a także ekonomicznych. W szczególności, teoria procesów stochastycznych znajduje w ostatnich latach coraz większe znaczenie w wycenie instrumentów finansowych.

16.1 Jednorodny łańcuch Markowa

Niech \(M\subset \r ^d\) będzie zbiorem skończonym lub przeliczalnym i niech:
\({\P } : M \times M \to \r \), \({\p } :M \to \r \).

Będziemy myśleć o \(\P \) i \(\p \) jako o skończonej lub przeliczalnej macierzy o wyrazach \(\P (i,j)\) oraz wektorze (macierzy jedno kolumnowej) o współrzędnych \({\p }(i)\), gdzie \(i,j \in M\).

  • Definicja – 16.1 (Jednorodny łańcuch Markowa)

    Niech \(\{X_n\}\), \(n = 0,1,2, \dots \), będzie ciągiem wektorów losowych określonych na przestrzeni probabilistycznej \((\Omega , \Sigma ,P)\) i przyjmujących wartości w \(\r ^d\).

    Mówimy, że \(\{X_n\}\) jest jednorodnym łańcuchem Markowa, jeżeli spełnione są następujące warunki.

    • 1. Dla każdego \(i \in M\), \(P(X_0 = i) = {\p }(i)\).

    • 2. Dla każdego \(n \ge 0\) zachodzi

      \begin{eqnarray*} & P(X_{n+1} = i_{n+1}|(X_0 = i_0, \dots , X_n = i_n)) & = \\ & P(X_{n+1} = i_{n+1}|X_n = i_n) = {\P }(i_n,i_{n+1}), & \end{eqnarray*}

      dla każdego ciągu \(\{i_0,\dots ,i_{n+1} \} \subset M\), o ile \(P(X_0 = i_0, \dots , X_n = i_n) > 0\).

    • 3. \(\di \sum _{i \in M}{\p }(i) = 1\).

    • 4. \(\di \sum _{ j \in M}{\P }(i,j) = 1\), dla każdego \(i \in M\).

Interpretacja.

  • 1. \(M\) – zbiór wszystkich możliwych stanów pewnego systemu.

  • 2. \(X_n\) – stan, w którym znajduje się system w chwili czasowej \(n\).

  • 3. Warunek, że \(X_n\) jest zmienną losową, oznacza, że faktycznie nie znamy dokładnie tego położenia.

  • 4. Znamy rozkład prawdopodobieństwa położenia systemu w chwili zerowej,

  • 5. Prawdopodobieństwo przejścia układu z jednego stanu do innego stanu w jednostkowym odcinku czasu zależy jedynie od samych stanów, a nie zależy od historii układu ani od konkretnej chwili, w której to przejście następuje.

  • 6. Układ nigdy nie opuści swojej przestrzeni stanów \(M\), gdyż \(\di P(X_0 \in M) = \sum _{i \in M}{\p }_i = 1, \) a wzór na prawdopodobieństwo całkowite oraz warunek 4 implikują:

    \[ P(X_{n+1} \in M) = \sum _{j \in M}P(X_{n+1} = j) \]

    \[ = \sum _{j \in M} \sum _{i \in M}P(X_{n+1}= j|X_n = i)P(X_n=i) = \]

    \[ \sum _{i \in M} \sum _{j \in M}\P (i,j)P(X_n=i) = \sum _{i \in M} 1 P(X_n=i) = 1. \]

W związku z powyższą interpretacją będziemy nazywać;

\(M\) – zbiorem stanów, lub przestrzenią stanów,

\(\p \) – rozkładem początkowym,

\(\P \) – macierzą przejścia łańcucha Markowa.

Rozważa się też niejednorodne łańcuchy Markowa dopuszczając możliwość, że prawdopodobieństwo przejścia zależy od chwili w której to przejście następuje. W tym kursie nie zajmujemy się jednak takimi łańcuchami i w dalszym ciągu dla prostoty wypowiedzi opuszczamy słowo „ jednorodny".

  • Przykład – 16.2 (kontynuacja przykładu 3.2) Kaja i Leon umówili się w sprawie sprzątania, a ponieważ Kaja sprząta dokładniej niż Leon, ustalili następujące zasady. Jeżeli w pewnym dniu sprząta Leon, to rzuca kostką i jeżeli nie wyrzuci „6", to sprząta także w następnym dniu, gdy wypadnie „6śprząta Kaja. Jeżeli sprząta Kaja, to w następnym dniu nie sprząta nikt. Jeżeli w jakimś dniu nikt nie sprząta, to o sprzątaniu w następnym dniu decyduje rzut monetą. O sprzątaniu w pierwszym dniu umowy decyduje rzut monetą.

    Modelem powyższej sytuacji może być łańcuch Markowa \(\{X_n\}\), \(n = 0,1,2, ...\), w którym \(X_n\) są zmiennymi losowymi o wartościach w \(M\), gdzie:

    \[ M = \{Kaja,Leon,Nikt\}, \ \ \di \p ^T = \left [\frac 12,\frac 12,0\right ], \ \ \di \P =\left [\begin {array}{ccc} 0 & 0 & 1\\ \frac 16 & \frac 56 & 0 \\ \frac 12 & \frac 12 & 0 \end {array}\right ]\]

    .

Dyskutowaliśmy już poprzednio spacery losowe po prostej, patrz sekcja 11.4. Jak się okazuje są one łańcuchami Markowa.

  • Przykład – 16.3 (Spacery losowe po prostej) Wyobraźmy sobie cząsteczkę, która może się poruszać wzdłuż linii prostej według następujących reguł. W chwili zero cząsteczka znajduje się w punkcie o współrzędnej zero, natomiast w następnych momentach czasu \(1,2,3, \dots \) może się przesuwać o jeden w lewo lub o jeden w prawo z prawdopodobieństwami odpowiednio \(q\) oraz \(p\), przy czym \(p + q = 1\). Jeżeli \(\di p = q = \frac {1}{2}\), mówimy, że spacer losowy jest standardowy.

    Spacer losowy jest rzeczywiście łańcuchem Markowa. Mianowicie, stanami są wszystkie możliwe liczby całkowite, czyli \(M = \z \subset \r \).

    \(X_n\) oznacza pozycję cząsteczki w chwili \(n\).

    Zdefiniujmy:

    \[ \begin {array}{llc} {\p }(i) = 1 & \mbox { dla } & i = 0, \\ {\p }(i) = 0 & \mbox { dla } & i \neq 0 \end {array} \]

    oraz

    \[ \begin {array}{lll} {\P }(i,j) = q & \mbox { dla } & j = i-1, \\ {\P }(i,j) = p & \mbox { dla } & j = i+1, \\ {\P }(i,j) = 0 & \mbox { w innych przypadkach. } & \end {array} \]

    Mamy więc: \(P(X_0 = 0) = 1\), \(P(X_0 = i) = 0\) dla \(i\neq 0\),

    \(P(X_{n+1} =i-1|X_n = i) = q\), \(P(X_{n+1} =i+1|X_n = i) = p\),
    \(P(X_{n+1} = i|X_n = j) = 0\) dla \(|i-j| \neq 1\).

Określony powyżej spacer losowy może być modyfikowany na różne sposoby. Na przykład, załóżmy, że cząsteczka może nie zmieniać swojego położenia z prawdopodobieństwem \(r\). Oczywiście wtedy zakładamy, że \(p + q + r = 1\). Inną modyfikacją jest założenie o istnieniu jednej lub dwóch barier (ekranów), które ograniczają możliwość ruchu cząsteczki i są usytuowane w punktach, powiedzmy, \(A < 0 < B\).

Wtedy zbiór \(M\) składa się \(A+B+1\) stanów, a \((A+B+1)\)-wymiarowa macierz \(\P \) może być zdefiniowana na przykład tak:

\[ {\P } = \left [ \begin {array}{cccccc} sa & 1 - sa & 0 & 0 & \cdots & 0 \\ q & r & p & 0 & \ddots & \vdots \\ 0 & \ddots & \ddots & \ddots & \ddots & 0\\ 0 & \ddots & \ddots & \ddots & \ddots & 0\\ \vdots & \ddots & 0 & q & r & p \\ 0 & \cdots & 0 & 0 & 1 - sb & sb \end {array} \right ]. \]

Liczby \(sa\) oraz \(sb\) oznaczają prawdopodobieństwa tego, że cząsteczka jest pochłaniana przez barierę \(A\) lub \(B\). Dwa interesujące przypadki skrajne są wtedy, gdy liczby te są albo zerami, co oznacza pełną elastyczność barier, albo są jedynkami, co oznacza pełną absorbcję cząsteczki z chwilą jej dojścia do bariery.

  • Przykład – 16.4 Animacja pokazuje pierwszych 500 kroków wędrówki cząstki startującej z punktu 0, gdy bariery ustawione są w punktach \(A = -5\), \(B=5\), a prawdopodobieństwa wynoszą: \(p = 0.2\), \(q = 0.25\), \(r = 0.55\), \(sa = 0.1\), \(sb = 0.7\).

Można też opisać spacer losowy, używając innego podejścia.

Załóżmy, nieco ogólniej niż poprzednio, że cząsteczka startuje w chwili zero z punktu \(i\). Gdy nie uwzględniamy barier, mamy:

\[ X_0 = i, \ \mbox { oraz } \ \ X_{n} = X_{n-1} + \xi _{n}, \mbox { dla } n = 1,2,3, \dots , \]

gdzie \(\xi _1\), \(\xi _2\), \(\xi _3\), …są niezależnymi zmiennymi losowymi przyjmującymi wartości \(-1\), \(0\), \(1\) z prawdopodobieństwami odpowiednio \(q, \ r, \ p\).

Można także rozpatrywać spacery losowe na płaszczyźnie i ogólnie w przestrzeni wielowymiarowej.

  • Przykład – 16.5 Dla uproszczenia załóżmy, że \(p = q = \frac {1}{2}\), czyli także \(r = 0\). Dla \(i \in Z^d\) mamy:

    \[ X_0 = i, \ \mbox { oraz } \ \ X_{n} = X_{n-1} + \xi _{n}, \mbox { dla } n = 1,2,3, \dots \]

    Tym razem \(\xi _1\), \(\xi _2\), \(\xi _3\), …są niezależnymi wektorami losowymi przyjmującymi \(2^d\) wartości \((\ve _1, \dots , \ve _d)\), gdzie \(\ve _j = _{+}^{-} 1\), z jednakowym prawdopodobieństwem \(\di \frac {1}{2^d}\).

Zauważmy, że współrzędnymi \(d\)-wymiarowego spaceru losowego są niezależne jednowymiarowe standardowe spacery losowe.

Prezentowany powyżej mechanizm tworzenia łańcucha Markowa można istotnie uogólnić.

  • Twierdzenie – 16.6 Niech \(M \subset \r ^d\) będzie zbiorem skończonym lub przeliczalnym, \(B \subset \r ^k\) zbiorem borelowskim Załóżmy, że \(T:M\times B \to M\) jest odwzorowaniem spełniającym warunek mierzalności:

    \[ \forall \ i, j \in M \ \ \{y \in \r ^k : T(i,y) = j \} \in {\cal B}(\r ^k). \]

    Niech \(\eta ,\xi _1,\xi _2,\xi _3 \dots \) będzie ciągiem niezależnych wektorów losowych, przy czym \(\eta \) ma wartości w \(M\), a \(k\)-wymiarowe wektory \(\xi _1,\xi _2,\xi _3, \dots \) mają identyczny rozkład na zbiorze \(B\). Definiujemy:

    \[ X_0 = \eta , \ \ \ \ X_{n} = T(X_{n-1},\xi _{n}), \mbox { dla } n \ge 1. \]

    Wtedy ciąg \(\{X_n\}\) jest łańcuchem Markowa.

Dowód. Niech \(\p (i) = P(\eta = i)\) oraz \(\P (i,j) = P(T(i, \xi _n) = j )\) dla \(i, j \in M\). Wtedy:

\begin{eqnarray*} & & P(X_{n+1} = i_{n+1}|(X_0 = i_0, \dots , X_n = i_n)) = \frac {P(X_{n+1} = i_{n+1},X_0 = i_0, \dots , X_n = i_n)}{P(X_0 = i_0, \dots , X_n = i_n)}\\ & = & \frac {P(T(i_n,\xi _{n+1}) = i_{n+1},X_0 = i_0, \dots , X_n = i_n)}{P(X_0 = i_0, \dots , X_n = i_n)} \\ & = & \frac {P(T(i_n,\xi _{n+1}) = i_{n+1}) P(X_0 = i_0, \dots , X_n = i_n)}{P(X_0 = i_0, \dots , X_n = i_n)} = P(T(i_n,\xi _{n+1}) = i_{n+1}) =\P (i_n,i_{n+1}). \end{eqnarray*}

Podobnie \(\di P(X_{n+1} = i_{n+1}|X_n = i_n) = \frac {P(T(i_n,\xi _{n+1}) = i_{n+1}) P(X_n = i_n)}{P(X_n = i_n)}\) \(= \di P(T(i_n,\xi _{n+1}) = i_{n+1}) =\P (i_n,i_{n+1})\).   

  • Przykład – 16.7 (Urnowy model Bernoulliego)

    W każdej z dwóch urn umieszczono \(k\) kul, przy czym \(k\) z nich ma kolor biały, a \(k\) ma kolor czerwony. Następnie w kolejnych momentach losujemy jednocześnie po jednej kuli z każdej urny i przekładamy je do drugiej urny. Niech \(X_n\) oznacza liczbę białych kul w pierwszej urnie (więc tym samym liczbę czerwonych kul w drugiej urnie) w chwili \(n\). Widzimy, że zmienne \(X_n\) tworzą łańcuch Markowa na przestrzeni stanów \(M = \{0,1,2,...,k\}\) z macierzą przejścia \(\P \) mającej zerowe wyrazy oprócz

    \[ {\P }(i,i-1)= \left (\frac {i}{k}\right )^2, \ \ \ \‚{\P }(i,i+1) = \left (\frac {k - i}{k}\right )^2, \ \ \ \‚{\P }(i,i) = \frac {2(k-i)i}{k^2}. \]

    dla \(0< i < k\) oraz \(\P (0,1) = 1\), \(\P (k,k - 1) = 1\).

    Jeżeli na początku eksperymentu w pierwszej urnie było \(b_0\) białych kul, to \(\p (b_0) = 1\) oraz \(\p (i) = 0\) dla \(i \neq b_0\).

    \[ \P = \left [ \begin {array}{ccccc} 0&1&0&0&0\\ 1/16&3/8&{{9}/{16}}&0&0 \\ 0&1/4&1/2&1/4&0 \\ 0&0&{{9}/{16}}&3/8&1/16 \\ 0&0&0&1&0\end {array} \right ] , \ \ k = 4. \]

    Alternatywnie powyższy łańcuch można opisać tak:

    \[ X_0 = b_0, \ \ \ X_{n} = T(X_{n-1},\xi _n), n = 1,2,3, ... . \]

    \(\xi _n\) są niezależnymi wektorami losowymi mającymi rozkład jednostajny na zbirze \(\{1,...,k\}^2\), \(T : M \times \{1,...,k\}^2 \to M\) jest określone jako:

    \[ T(x,y) = \left \{\begin {array}{ccc} x - 1, & \mbox { gdy } & y_1 \le x , y_2 > k -x \\ x, & \mbox { gdy } & y_1 \le x, y_2 \le k - x \vee y_1 > x, y_2 > k -x\\ x+1, & \mbox { gdy } & y_1 > x, y_2 \le k - x. \end {array} \right . \]

    Faktycznie, przed każdym losowaniem można (można hipotetycznie) ponumerować kule w urnach w taki sposób, że białe kule w obydwóch urnach mają początkowe numery: od 1 do \(x\) w pierwszej urnie, a więc od 1 do \(k-x\) w drugiej urnie, natomiast czarne kule mają pozostałe numery: od \(x+1\) do \(k\) w pierwszej oraz od \(k - x +1\) do \(k\) w drugiej urnie.

Rachunek prawdopodobieństwa — Macierz przejścia i jej potęgi

(image)

Rachunek prawdopodobieństwa 1, 2

16.2 Macierz przejścia i jej potęgi

Wyznaczymy rozkłady zmiennych losowych \(X_n\) tworzących łańcuch Markowa.

\[ {\p }_n(j) = P(X_n = j) \]

dla wszystkich \(n \ge 1\) oraz \(j \in M\).

Stosując wzór na prawdopodobieństwo całkowite, mamy:

\[ {\p }_n(j) = P(X_n = j) = \sum _{i \in M}P(X_n = j|X_{n-1} = i)P(X_{n-1} = i) = \sum _{i \in M}{\P }(i,j){\p }_{n-1}(i). \]

Czyli

\[ {\p }_n = {\P }^T{\p }_{n-1}, \]

gdzie \({\P }^T\) oznacza transpozycje macierzy \(\P \).

Oznaczając \(n\)-tą potęgę macierzy \(\P \) przez \({\P }^n\), otrzymujemy wreszcie poszukiwany rozkład:

\[ {\p }_n = \left ({\P }^T\right )^n{\p }_0. \]

W szczególności, jeżeli wiemy, że \(X_0 = i\), czyli że łańcuch znajduje się w stanie \(i\) z prawdopodobieństwem 1, powyższy wzór implikuje:

\[ {\p }_n(j) = {\P }^n(i,j), \mbox { dla wszystkich } n, \]

co wyjaśnia znaczenie współczynników \({\P }^n(i,j)\) \(n\)-tej potęgi macierzy przejścia \(\P \).

  • Przykład – 16.8

    Antoni i Bolesław, mają kapitał odpowiednio \(A\) i \(B\) złotych. Powtarzają oni tę samą grę (może grają w szachy), przy czym przegrywający płaci wygrywającemu złotówkę. Gra kończy się wtedy, gdy jednemu z graczy skończą się pieniądze. Załóżmy, że w każdej grze prawdopodobieństwo wygrania przez Antoniego wynosi \(p\), a prawdopodobieństwo wygrania przez Bolesława \(q\). Zakładamy, że \(p+q \le 1\) i oznaczamy przez \(r\) prawdopodobieństwo remisu, \(r = 1 - p - q\). Oznaczmy kapitał Antoniego po zakończeniu \(n\)-tej gry przez \(X_n\).

    Opisana sytuacja jest faktycznie spacerem losowym startującym w punkcie o współrzędnej \(A\) i mającym bariery pochłaniające w punktach o współrzędnych \(0\) oraz \(A+B\).

    Zakładamy, że Antoni ma 8 złotych, a Bolesław 5 złotych. Bolesław gra na ogół lepiej niż Antoni: zakładamy: \(p=0.2\), \(q = 0.4\), \(r=0.4\). Grają 200 razy, chyba że jednemu z nich zabraknie wcześniej pieniędzy.

    \(X_n\) – kapitał Antoniego po rozegraniu \(n\) gier.

    \(X_0\) ma rozkład jednopunktowy \(\delta _8\),

    \(X_1\) ma rozkład dany przez: [0, 0, 0, 0, 0, 0, 0, 0.4, 0.4, 0.2, 0, 0, 0, 0], \(E(X_1) = 7.8\).

    \(X_5\) ma rozkład dany przez: [0, 0, 0, 0.102e-1, 0.512e-1, 0.128, 0.205, 0.230, 0.189, 0.115, 0.512e-1, 0.160e-1, 0.320e-2, 0.32e-3], \(E(X_3) = 7.000\)

    \(X_{20}\) ma rozkład dany przez: [0.176, 0.620e-1, 0.954e-1, 0.113, 0.118, 0.112, 0.973e-1, 0.776e-1, 0.568e-1, 0.378e-1, 0.225e-1, 0.114e-1, 0.422e-2, 0.165e-1], \(E(X_{20}) = 4.1579\)

    \(X_{200}\) ma rozkład dany przez: [0.969, 0.117e-4, 0.160e-4, 0.161e-4, 0.142e-4, 0.114e-4, 0.854e-5, 0.604e-5, 0.402e-5, 0.25e-5, 0.1430e-5, 0.7070-6, 0.2570e-6, 0.311e-1], \(E(X_{200}) = .4050783639\)

    (image) (image) (image)

    (image) (image) (image)

    (image) (image) (image)

Niech \(A\) oznacza zbiór opisany przez zmienne losowe \(X_0, \dots X_{n-1}\), czyli \(A\) ma postać:

\[ A = \bigcup \{X_0 = i_0, \dots ,X_{n-1} = i_{n-1} \}, \]

gdzie suma jest brana po pewnym zbiorze, powiedzmy \(B\), indeksów \(i_0, \dots ,\) \(i_{n-1}\). Mamy wtedy:

  • Twierdzenie – 16.9

    \[ P(X_{n+1} = j|(X_{n} = i \mbox { oraz } A)) = {\P }(i,j) \]

Dowód. Zauważmy najpierw, że:

\[ P(X_{n+1} = j|(X_{n} = i \mbox { oraz } A)) = \frac {P(X_{n+1} = j,X_{n} = i, A)}{P(X_{n} = i, A)} \]

\[ = \frac {\sum P(X_{n+1} = j,X_{n} = i, X_{n-1} = i_{n-1}, \dots X_0 = i_0) }{\sum P(X_{n} = i, X_{n-1} = i_{n-1}, \dots X_0 = i_0)}, \]

gdzie obie sumy brane są po zbiorze \(B\).

Z własności 2 w definicji łańcucha Markowa mamy:

\begin{eqnarray*} P(X_{n+1} = j,X_{n} = i, X_{n-1} = i_{n-1}, \dots X_0 = i_0) & = & \\ P(X_{n+1} = j|(X_{n} = i, X_{n-1} = i_{n-1}, \dots X_0 = i_0)) \cdot & & \\ P(X_{n} = i, X_{n-1} = i_{n-1}, \dots X_0 = i_0) & = &\\ P(X_{n+1} = j|X_{n} = i) P(X_{n} = i, X_{n-1} = i_{n-1}, \dots X_0 = i_0) & = &\\ {\P }(i,j)P(X_{n} = i, X_{n-1} = i_{n-1}, \dots X_0 = i_0), & & \end{eqnarray*}

więc

\[ P(X_{n+1} = j|(X_{n} = i \mbox { oraz } A)) = {\P }(i,j). \]

  \(\Box \)

Następne twierdzenie daje inną, bardziej ogólną, interpretację współczynników \({\P }^k(i,j)\) macierzy \({\P }^k\) jako prawdopodobieństw przejścia w \(k\) krokach ze stanu \(i\) do stanu \(j\).

  • Twierdzenie – 16.10 Dla każdego \(k \ge 1\) oraz \(i, j \in M\) mamy

    \[ P(X_{n+k} = j|X_n = i) = {\P }^k(i,j). \]

Dowód. Dla \(k = 1\) formuła jest konsekwencją własności 2 w definicji łańcuchu Markowa.

Załóżmy dla przeprowadzenia kroku indukcyjnego, że zachodzi powyższy wzór dla pewnego \(k\). Wykażemy go dla \(k +1\). Mamy:

\[ P(X_{n+k+1} = j|X_n = i) = \frac {P(X_{n+k+1} = j,X_n = i)}{P(X_n = i)} \]

\[ = \frac {\sum _{l \in M}P(X_{n+k+1} = j,X_{n+k} = l,X_n = i)}{P(X_n = i)} \]

\[ = \frac {\sum _{l \in M}P(X_{n+k+1} = j|X_{n+k} = l,X_n = i) P(X_{n+k} = l,X_n = i)}{P(X_n = i)}. \]

Założenie indukcyjne oraz poprzednie Twierdzenie daje:

\[ P(X_{n+k+1} = j|X_n = i) \]

\[ = \frac {\sum _{l \in M}P(X_{n+k+1} = j|X_{n+k} = l) P(X_{n+k} = l|X_n = i)P(X_n = i)}{P(X_n = i)} \]

\[ =\sum _{l \in M}{\P }(l,j){\P }^k(i,l) = {\P }^{k+1}(i,j). \]

  \(\Box \)

Tak więc \({\P }^k(i,j)\) jest prawdopodobieństwem przejścia w \(k\) krokach ze stanu \(i\) do stanu \(j\).

Warunek \({\P }^k(i,j) > 0\) oznacza, że takie przejście jest możliwe.

Zauważmy dalej, że dla każdych trzech stanów \(i, j, k\):

\[ {\P }^{m+n}(i,j) = \sum _{l\in M}{\P }^m(i,l){\P }^n(l,j) \ge {\P }^m(i,k){\P }^n(k,j). \]

Odpowiada to naszej intuicji, która podpowiada, że jeżeli jest możliwe przejście ze stanu \(i\) od stanu \(k\) oraz ze stanu \(k\) do stanu \(j\), to możliwe jest także przejście ze stanu \(i\) od \(j\).

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

16.3 Pytania

  • Pytanie 16.1 Na początku w urnie są trzy białe kule. Co minutę losujemy z urny jedną kulę i jeżeli jest czerwona, to wrzucamy ją z powrotem, a jeżeli jest biała, to z takim samym prawdopodobieństwem wrzucamy tę kulę do urny albo zamiast niej wrzucamy kulę czerwoną. Niech \(C_n\) oznacza liczbę czerwonych kul w urnie po upływie \(n\) minut. Wskaż rozkład prawdopodobieństwa zmiennej losowej \(C_3\).

Wskazówka. Można wyliczyć bezpośrednio sosując twierdzenie o prawdopodobieństwie całkowitym.

\(P(C_3 =0) = \frac {9}{72}\), \(P(C_3 =1) = \frac {37}{72}\), \(P(C_3 =2) = \frac {24}{72}\), \(P(C_3 =3) = \frac {2}{72}\).

Warto było rozważyć łańcuch Markowa na \(M = \{0,1,2,3\}\) z parametrami:

\[ \p = \left [\begin {array}{c} 1 \\ 0 \\ 0 \\ 0 \end {array} \right ], \ \ \‚\P = \left [\begin {array}{cccc} 1/2 & 1/2 & 0 & 0\\ 0 & 2/3 & 1/3 & 0 \\ 0 & 0 & 5/6 & 1/6 \\ 0 & 0 & 0 & 1 \end {array} \right ]. \]

i wyznaczyć \(\P ^3\).

  • Pytanie 16.2 Kontynuując Przykład 16.2.

    (1) Oblicz prawdopodobieństwo tego, że w trzecim dniu umowy: sprząta Kaja, sprząta Leon.

    (2) Używając komputera oblicz prawdopodobieństwo tego, że Leon sprząta: w dziesiątym dniu umowy, w setnym dniu umowy.

Wskazówka. Ad (1). \(\frac {23}{72}\), \(\frac {43}{72}\).

Ad (2). Rozkład łańcucha w chwili \(t\) można otrzymać za pomocą \(t\)-tej potęgi macierzy przejścia. Odpowiedzi to: \(\frac {12024881}{20155392} \approx 0.5966086395 \) oraz \(\approx 0. 4 6000000000\).

  • Pytanie 16.3 Uzupełnij lukę w dowodzie Twierdzenia 16.6.

Wskazówka. \(\sum _i\p (i) = \sum _iP(\eta =i) = P(\bigcup _i\{\eta = i\}) = P(\eta \in M) = P(\Omega ) = 1.\)

\(\sum _j\P (i,j) = \sum _jP(T(i,\xi _n) = j) = P(\bigcup _j\{T(i,\xi _n) = j\}) = P(T(i,\xi _n) \in M) = P(\Omega ) = 1\).

  • Pytanie 16.4 Niech ciąg \((X_0,X_1,X_2,X_3, ... )\) będzie łańcuchem Markowa, Wykaż, że podciąg \((X_1,X_3,X_5, ... )\) oraz podciąg \((X_2,X_4,X_6, ... )\) są łańcuchami Markowa o odpowiednich parametrach.

Wskazówka. Niech \(\p \) oraz \(\P \) będą danymi parametrami naszego łańcucha. Wtedy z Twierdzenia 16.10 wynika, że:

parametrami łańcucha \((X_1,X_3,X_5, ... )\) są \(\P ^T\p \) oraz \(\P ^2\),

parametrami łańcucha \((X_2,X_4,X_6, ... )\) są \((\P ^2)^T\p \) oraz \(\P ^2\).

  • Pytanie 16.5 Niech \(\{X_t\}\) będzie ciągiem wektorów losowych określonych przez Algorytm PRS. Zakładając, że \(A\) jest zbiorem skończonym wykaż, że ciąg ten jest łańcuchem Markowa: wskaż macierz przejścia.

Wskazówka. Oznaczenia ze strony (página for ?? 12.18). Określamy \(X_0= Y_0\), \(X_t = T(X_{t-1},Y_t)\), \(t =1,2,3,...\), gdzie \(Y_0,Y_1,Y_2,...\) i.i.d. o rozkładzie \(U(A)\),

\[ T(x,y) = \left \{\begin {array}{l} x, \mbox { gdy } f(x) \le f(y)\\ y, \mbox { gdy } f(x) > f(y) \end {array} \right . \]

\[ \P (x,y) = P(Y_t \in A: T(x,Y_t) = y) = \left \{\begin {array}{cl} \frac {\sharp \{z\in A: f(z) \ge f(x)\}}{\sharp A}, & \mbox { gdy } y = x \\[2mm] \frac {1}{\sharp A}, & \mbox { gdy } y \neq x, \ f(x) > f(y) \\[2mm] 0 , & \mbox { gdy } y \neq x, \ f(x) \le f(y) \end {array} \right . . \]

  • Pytanie 16.6 Wskaż taki ciąg zmiennych losowych \(X_t\), \(t = 0,1,2,3, ...\) o wartościach w zbiorze co najwyżej przeliczanym \(M\), że:

    (1) \(\{X_t\}\) jest martyngałem, \(\{X_t\}\) jest łańcuchem Markowa.

    (2) \(\{X_t\}\) jest martyngałem, \(\{X_t\}\) nie jest łańcuchem Markowa.

    (3) \(\{X_t\}\) nie jest martyngałem, \(\{X_t\}\) łańcuchem Markowa.

    (4) \(\{X_t\}\) nie jest martyngałem, \(\{X_t\}\) jest nie łańcuchem Markowa.

Wskazówka. Ad (1). Standardowy spacer losowy.

Ad (2). \(X_0 = 0\), \(X_{t+1} = X_t+Z_{t+1}\) dla \(t = 0,1,2,...\), gdzie \(Z_1,Z_2,Z_3,...\) – niezależne zmienne losowe przyjmujące wartości całkowite o wspólnej nadziei matematycznej \(m =0\). \(X_t\) tworzą martyngał.

\[ E(X_{t+1}|\s (X_1,...,X_t)) = E(X_{t}|\s (X_1,...,X_t))+E(Z_{t+1}|\s (X_1,...,X_t)) = X_t+E(Z_{t+1}) = X_t. \]

Gdy rozkłady \(Z_i\) się zmieniają, to \(X_t\) nie tworzą łańcucha Markowa (jednorodnego):

\[ P(X_{t+1} =j|X_t=i) = P(Z_{t+1} =j -i) = P_{Z_{t+1}}(j-i) \]

zależy od \(t\).

Ad (3). Spacer losowy po prostej, gdy \(p \neq q\).

Ad (4). Podobnie jak (2), tylko z różnymi nadziejami.

Rachunek prawdopodobieństwa — Nieredukowalne lańcuchy Markowa

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 17 Nieredukowalne łańcuchy Markowa

  • Definicja – 17.1 Łańcuch Markowa jest nieredukowalny \(\rwn \) dla każdych dwóch stanów \(i\) oraz \(j\) prawdopodobieństwo przejścia \(P^k(i,j)\) jest dodatnie dla pewnego \(k = k(i,j)\).

Większość łańcuchów Markowa spotykanych w zastosowaniach jest nieredukowalna, jakkolwiek łatwo pokazać przykłady łańcuchów, które nie spełniają tej własności.

Spacer losowy z ekranami pochłaniającymi nie jest nieredukowalny, gdyż prawdopodobieństwo przejścia z jednego do drugiego ekranu jest równe zeru.

17.1 Powracanie

Dla nieredukowalnego łańcucha Markowa oznaczmy prawdopodobieństwo pierwszego powrotu do stanu \(i\) dokładnie w \(n\) krokach przez \(f_n(i)\), czyli

\[ f_n(i) = P(X_n = i,X_{n-1} \neq i, \dots , X_1 \neq i|X_0 = i). \]

Określmy \(F(i)\) jako \(\di F(i) = \sum _{n=1}^\infty f_n(i). \) Jest to więc prawdopodobieństwo pierwszego powrotu do stanu \(i\) w czasie skończonym.

Jako prawdopodobieństwo, \(F(i)\) jest nie większe niż \(1\). Będziemy mówić, że stan \(i\) jest powracający, jeżeli \(F(i) = 1\) i niepowracający, jeżeli \(F(i) < 1\).

Następujące twierdzenie jest prostym uogólnieniem twierdzenia 11.25. Pozwala ono w wielu przypadkach stwierdzić, czy stan łańcucha Markowa jest powracający, czy niepowracający. Oznaczmy:

\[ \P (i) = \sum _{n = 1}^\infty {\P }^n(i,i). \]

  • Twierdzenie – 17.2 Niech \(i \in M\) będzie ustalonym stanem nieredukowalnego łańcucha Markowa. Wtedy:

    1. Stan \(i\) jest powracający, wtedy i tylko wtedy, gdy \(\P (i) = \infty \).

    2. Jeżeli \(i\) jest stanem niepowracającym, to \(\di F(i) = \frac {\P (i)}{1+\P (i)}\).

Dowód. Dowód polega na powtórzenia rozumowania zastosowanego w uzasadnieniu twierdzenia 11.25, które dotyczyło szczególnego łańcucha Markowa. Zauważmy, że zdefiniowane tam prawdopodobieństwa \(a_n\) oraz \(f_n\) są szczególnymi przypadkami \(\P ^n(i,i)\) oraz \(f_n(i)\). Szczegóły pozostawiamy Czytelnikowi (ćwiczenie).   

Wykażemy, że albo wszystkie stany są powracające, albo wszystkie stany są niepowracające. W związku z tym mówimy, że łańcuch Markowa (nieredukowalny) jest odpowiednio powracający albo niepowracający.

  • Lemat – 17.3 Niech \(i, j \in M\) będą stanami nieredukowalnego łańcucha Markowa. Wtedy:

    \[\sum _{n = 1}^\infty {\P }^n(i,i) < \infty \ \ \rwn \ \ \sum _{n = 1}^\infty {\P }^n(j,j) < \infty . \]

Dowód. Istnieją takie liczby \(s, t\), że \(\P ^s(i,j) > 0\) oraz \(\P ^t(j,i) > 0\). Oznaczmy te dwie ostatnie wielkości odpowiednio przez \(c\) oraz \(d\). Wybierzmy dowolną liczbę naturalną \(n\). Wtedy

\[ \P ^{n+t+s}(i,i) \ge \P ^s(i,j)\P ^n(j,j)\P ^t(j,i) = cd \P ^n(j,j). \]

Jeżeli szereg \(\sum _{n = 1}^\infty {\P }^n(i,i)\) jest zbieżny, to oczywiście \(\sum _{n = 1}^\infty {\P }^{n+t+s}(i,i)\) jest zbieżny i stosując kryterium porównawcze zbieżności szeregów widzimy, że \(\sum _{n = 1}^\infty {\P }^n(j,j)\) też jest zbieżny. Rozumowanie symetryczne kończy dowód.   

Liczby \(\P (i)\) mają także nieco inną interpretację. Oznaczmy przez \(r_i\) liczbę wszystkich powrotów do stanu \(i\).

  • Twierdzenie – 17.4 Dla każdego \(i \in M\), \(\di E\left (r_i\right ) = \P (i)\).

Dowód. Załóżmy, że w chwili \(0\) system znajdował się w stanie \(i\). W takim razie \({\p }(i) = 1\) oraz \({\p }(j) = 0\) dla \(j \neq i\). Mamy więc

\[ P(X_n = i) = P(X_n = i|X_0 = i) = {\P }^n(i,i). \]

Wiemy, że wartość oczekiwana funkcji charakterystycznej \(I_{\{X_n = i\}}\) wynosi \({\P }^n(i,i)\). Mamy też: \(\di r_i = \sum _{n=1}^\infty I_{\{X_n = i\}}\), co właśnie oznacza tezę.   \(\Box \)

Stosując twierdzenie 11.25 wykazaliśmy, że standardowy spacer losowy po prostej jest łańcuchem powracającym. Co więcej, okazało się w istocie, że dla dowolnego stanu \(i \in \Z \): \(\P ^n(i,i) = 0\) dla nieparzystych \(n\) oraz \(\P ^{2k}(i,i) = a_{2k} \cong \frac {1}{\sqrt {\pi k}}\) dla dużych \(k\).

  • Przykład – 17.5 Rozważmy spacer losowy \(d\)-wymiarowy opisany w przykładzie 16.5, \(d \ge 2\).

    Niech \({\P }_d\) oznacza macierz przejścia naszego łańcucha Markowa. Ustalmy stan \(i = (i_1, \dots , i_d) \in \z ^d\). Bez straty ogólności można założyć, że \(i = (0, ..., 0)\). Widzimy teraz, że przejście w \(n\) krokach ze stanu \(i\) z powrotem do tego stanu podczas \(d\)-wymiarowego spaceru losowego jest równoważne przejściom ze stanów \(i_j\) do \(i_j\) w \(n\) krokach podczas jednowymiarowych spacerów losowych niezależnych od siebie. Właśnie korzystając z tej niezależności, mamy:

    \[ {\P }_d^n(i,i) = {\P }^n(i_1,i_1)\cdot \dots \cdot {\P }^n(i_d,i_d) = \left ({\P }^n(0,0)\right )^d. \]

    Mamy więc, że \({\P }_2^n(i,i) = \P ^n(0,0)^2 \cong \left (\frac {1}{\sqrt {\pi k}} \right )^2 = \frac {1}{\pi k}\), gdy \(n = 2k\), \({\P }_2^n(i,i) = 0\), gdy \(n = 2k-1\). Tak więc szereg \(\sum _{n=1}^\infty {\P }_2^n(i,i) = \infty \), a więc również dwuwymiarowy spacer losowy jest powracający.

    Zauważmy, że dla \(d \ge 3\) \({\P }_d^n(i,i) = \P ^n(0,0)^d \cong \left (\frac {1}{\sqrt {\pi k}} \right )^d = \frac {1}{\sqrt {\pi ^d} k^{\frac {d}{2}} } \), dla \(= 2k\). więc szereg \(\sum _{n=1}^\infty {\P }_d^n(i,i) < \infty \) i dlatego łańcuch nie jest powracający.

    Wiedząc, że jest on zbieżny możemy obliczyć przybliżoną wartość sumy dla \(d = 3,4,5,6\). Wielkości te wynoszą: \(0.35742\), \(0.11763\), \(0.046788\), \(0.020459\).

    Możemy więc obliczać prawdopodobieństwa powrotu \(F(i)\). Wynoszą one odpowiednio: \(0.263308\), \(0.10524\), \(0.044696\), \(0.0200488\).

Rachunek prawdopodobieństwa — Okresowość i ergodyczność

(image)

Rachunek prawdopodobieństwa 1, 2

17.2 Okresowość i ergodyczność

Rozważmy nieredukowalny łańcuch Markowa i ustalmy pewien jego stan \(i \in M\). Określamy:

\[ N_i = \{n: {\P }^n(i,i)> 0\}. \]

Ponieważ \(i\) komunikuje się z samym sobą, to \(N_i \neq \emptyset \).

Jeżeli \(m,n\in N_i\), to także \(m + n \in N_i\), gdyż \({\P }^{m+n}(i,i) \ge {\P }^m(i,i){\P }^n(i,i) >0.\)

  • Definicja – 17.6

    Stan \(i\) jest okresowy, jeżeli \(\nu _i := NWD(N_i) > 1\). Wtedy liczbę \(\nu _i\) nazywamy okresem stanu \(i\).

  • Lemat – 17.7 Dla każdych stanów \(i, j \in M\) \(\nu _i = \nu _j\).

Dowód. Ponieważ łańcuch jest nieredukowalny, to istnieją takie liczby \(n, m\), że \(\P ^n(i,j) > 0\) oraz \(\P ^m(j,i) > 0\). W takim razie \(\P ^{n+m}(i,i) \ge \P ^n(i,j)\P ^m(j,i) > 0\), a więc \(n+m \in N_i\). Podobnie \(n+m \in N_j\). Niech \(t\in N_i\). Wtedy \(P^{n+t+m}(j,j) \ge \P ^n(i,j)\P ^t(i,i)\P ^m(j,i) >0\), a więc \(n+t+m \in N_j\). Więc \(\nu _j\) dzieli zarówno \(n+t+m\) jak i \(n+m\), czyli \(\nu _j\) dzieli \(t\). Ponieważ \(\nu _i\) jest największym wspólnym dzielnikiem \(N_i\), to \(\nu _j \ge \nu _i\). Podobnie dowodzimy, że \(\nu _i \ge \nu _j\).   

Wykazaliśmy więc, że w nieredukowalnym łańcuchu Markowa: albo wszystkie stany są okresowe i mają wspólny okres, albo żaden ze stanów nie jest okresowy. W pierwszym z tych przypadków mówimy, że łańcuch Markowa jest okresowy, a jego okresem jest okres każdego jego stanu. W drugim przypadku mówimy, że łańcuch jest nieokresowy.

Standardowy spacer losowy po prostej jest okresowy a jego okres wynosi 2. Natomiast spacer losowy, dla którego \(p + q < 1\) i który nie posiada ekranów, nie jest okresowy. Nawet istnienie ekranów wraz z warunkiem \(p + q = 1\) nie gwarantuje okresowości.

Gdy \(k > 1\) urnowy model Bernoulliego, Przykład 16.7, jest nieokresowy.

  • Twierdzenie – 17.8 Załóżmy, że przestrzeń stanów \(M\) nieredukowalnego łańcucha Markowa jest skończona. Wtedy następujące warunki są równoważne.

    • 1. łańcuch jest nieokresowy.

    • 2. istnieje takie \(n_0\), że dla każdego \(n \ge n_0\) oraz każdych \(i, j \in M\) \({\P }^n(i,j) > 0\).

Najpierw udowodnimy lemat.

  • Lemat – 17.9 \(n_1,...,n_r \in \N \), \(NWD(n_1,...,n_r) = 1 \imp \di \exists n_0 \ \forall n \ge n_0 \ \exists x_1,...,x_r \in \N \ n = \sum _{i=1}^rx_in_i\).

Dowód lematu. Miech \(f : \z ^r \ni x \to \sum _{i=1}^rx_in_i \in \z \). Istnieje więc takie \(x^0 \in \z ^r\), że \(f(x^0)\) jest najmniejszą wartością w zbiorze \(\{f(x): x \in \z ^r, f(x) \ge 1\}\). Zauważmy, że \(d = f(x^0)\) dzieli wszystkie liczby \(f(x)\) (piszemy \(d|f(x)\)). Mianowicie, dla ustalonego \(x\) mamy \(f(x) = kd + \vr \), \(0 \le \vr < d\), \(k \in \z \). Wtedy \(f(x - k x^0) = f(x) - kf(x^0) = \vr < f(x^0)\), więc zachodzi \(\vr = 0\). W szczególności \(d = f(x^0)\) dzieli wszystkie liczby \(n_1,...,n_r\), więc \(d = 1\).

Niech \(\mathbf {1} = (1,...,1)\) i niech \(n \ge 1\). Niech \(\vr \) będzie resztą z dzielenia \(n\) przez \(f(\mathbf {1})\). Stąd \(n = kf(\mathbf {1}) + \vr = kf(\mathbf {1}) + \vr f(x^0) = f(k \mathbf {1} + \vr x^0)\). Gdy \(n\) dąży do nieskończoności, także \(k\) dąży do nieskończoności, a dla dużych \(k\) wektor \(k \mathbf {1} + \vr x^0 \in \N ^r\).   .

Dowód twierdzenia. (1) \(\imp \) (2). Ustalmy stany \(i, j \in M\). Ponieważ \(i\) nie jest okresowy istnieją takie liczby \(n_1,...,n_r \in N_i\), że \(NWD(n_1,...,n_r) = 1\). Z udowodnionego lematu i z własności zbioru \(N_i\) wnioskujemy, że wszystkie dostatecznie duże \(n \in N_i\), czyli dla takich \(n\) mamy \({\P }^n(i,i) > 0\). Niech \(k = k(i,j)\ge 1\) będzie takie, że \({\P }^k(i,j) > 0\). Wtedy \({\P }^{n+k}(i,j) \ge {\P }^n(i,i){\P }^k(i,j) > 0\) dla odpowiednio dużych \(n\), powiedzmy dla \(n \ge n(i,j)\). Ponieważ jednak zbiór stanów \(M\) jest skończony, to biorąc \(n_0 = \max \{n(i,j): i,j \in M\}\) mamy tezę.

(3) \(\imp \) (1). Oczywiste.   

W pewnych okolicznościach możemy być zainteresowani w zachowaniu się łańcucha Markowa po upływie długiego czasu. W szczególności, warto się pytać o asymptotyczny rozkład wektorów \(X_n\). Poniższe twierdzenie opisuje właśnie taką sytuację w najprostszym szczególnym przypadku. Znane są jednak wyniki dużo ogólniejsze.

  • Twierdzenie – 17.10 (Twierdzenie ergodyczne) Rozważamy nieredukowalny łańcuch Markowa określony na skończonej przestrzeni stanów \(M\), \(\sharp M = k\). Jeżeli łańcuch jest nieokresowy, to istnieje wektor \(\pi \) o współrzędnych \(\pi _1\), …, \(\pi _k\) taki, że

    • 1. \(\pi _i > 0\) dla wszystkich \(i \in M\),

    • 2. Dla każdych \(i, j \in M\),

      \[ \lim _{n \rightarrow \infty }{\P }^n(i,j) = \pi _j. \]

      Wtedy też

    • 3. Wektor \(\pi \) jest jedynym rozwiązaniem równania

      \[ {\P }^T x = x \]

      spełniającym warunek \(\sum _{i\in M}x_i = 1\).

      Wektor ten nazywa się rozkładem stacjonarnym.

    • 4. Dla każdego \(i \in M\) \(\di \lim _{n\to \infty } P(X_n=i) = \pi _i\).

Ergodyczność Jeżeli łańcuch jest nieokresowy, to dla dużych \(n\) prawdopodobieństwo przejścia ze stanu \(i\) do stanu \(j\) w \(n\) krokach jest dodatnie i faktycznie zależy od stanu końcowego \(j\) oraz nie zależy od stanu początkowego \(i\). Prawdopodobieństwa te można otrzymać, rozwiązując odpowiedni układ równań liniowych. Taka lub podobna własność nazywa się ergodycznością. Często wtedy mówimy, że łańcuch jest ergodyczny.

Dowód. Wykorzystamy wnioski z Twierdzenie Frobeniusa-Perrona1.

Zauważmy jednak najpierw, że macierz przejścia dowolnego łańcucha Markowa ma wartość własną \(\lambda _1 =1\), a wektorem własnym macierzy odpowiadającym \(\lambda _1\) jest \(\mathbf {1} = (1,...,1)^T\), co łatwo wynika z faktu, że \(\sum _{j \in M}\P (i,j) = 1\) dla każdego \(i \in M\) (ćwiczenie). Oczywiście \(\lambda _1\) jest także wartością własną macierzy \(\P ^T\), a więc istnieje taki niezerowy wektor \(\pi \), \(\P ^T\pi = \pi \).

Ponieważ łańcuch jest nieokresowy, więc na podstawie Twierdzenie 17.8 wiemy, że istnieje potęga \({\P }^n\) macierzy \(\P \) mająca wszystkie wyrazy dodatnie. Twierdzenie Frobeniusa-Perrona gwarantuje wtedy, że wszystkie pozostałe wartości własne macierzy \(\P \) są na moduł mniejsze niż 1 oraz, że wektor \(\pi \) ma wszystkie współrzędne dodatnie. Można założyć (dzieląc przez odpowiednią stałą), że \(\pi _1 + ... + \pi _k = 1\). Wiadomo także, że wtedy:

\[ \lim _{n\to \infty } \P ^n = \frac {\mathbf {1}\pi ^T}{\pi ^T \mathbf {1}} = \left [ \begin {array}{ccccc} \pi _1 & \pi _2 & \cdots & \cdots & \pi _k \\ \pi _1 & \pi _2 & \cdots & \cdots & \pi _k \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ \pi _1 & \pi _2 & \cdots & \cdots & \pi _k \end {array} \right ], \]

co oznacza, że \(\di \lim _{n \rightarrow \infty }{\P }^n(i,j) = \pi _j\).

\(P(X_n = i) = \p _n(i) = \sum _{j=1}^k \P ^n(j,i)\p (j) \to \sum _{j=1}^k \pi _i\p (j) = \pi _i\) dla \(n \to \infty \).   

  • Przykład – 17.11

    Syzyf wtacza kamień na górę wysokości 4000 m. Pod koniec każdego dnia, z równymi prawdopodobieństwami: udało mu się pokonać kolejne 1000 m, lub kamień wysunął mu się z rąk i stoczył do stóp góry. Jednakże w chwili, gdy ma już dotrzeć do szczytu, złośliwy Zeus zawsze strąca mu kamień na dół. Oszacować prawdopodobieństwo, ze po 10 000 dniach pracy Syzyf będzie znajdował się dokładnie w połowie góry.

    Pracę Syzyfa opisuje łańcuch Markowa \(X_n\) przyjmujący wartości w przestrzeni stanów \(M = \{0, 1, 2, 3\}\). Początkowy rozkład zmiennej \(X_0\), \(\p _0\), jest jednopunktowy = \(\delta _0\). Natomiast macierz przejścia ma postać:

    \[ \P = \left [ \begin {array}{cccc} \frac {1}{2} & \frac {1}{2} & 0 & 0\\[1mm] \frac {1}{2} & 0 & \frac {1}{2} & 0\\[1mm] \frac {1}{2} & 0 & 0 & \frac {1}{2}\\[1mm] 1 & 0 & 0 & 0 \end {array} \right ]. \]

    Jak widać, każde dwa stany się komunikują; z dowolnego stanu można z dodatnim prawdopodobieństwem przejść do każdego innego stanu. Widać też, że stan 0 nie jest okresowy (bo można w nim pozostać), więc łańcuch nie jest okresowy.

    Zachodzi więc warunek 2 w Twierdzeniu Ergodycznym. Należy więc teraz rozwiązać układ równań liniowych: 5 równań o 4 niewiadomych.

    \[ \P ^Tx = x, \ \ x_1+x_2+x_3+x_4 =1, \]

    mamy pewność, że ma on rozwiązanie i to dokładnie jedno. Łatwo się przekonać, że jest nim układ:

    \[ x_1 = \frac {8}{15}, \ x_2 = \frac {4}{15}, \ x_3 = \frac {2}{15}, x_4 = \frac {1}{15}. \]

    To oznacza, że dla dużych \(t\), w szczególności dla \(t = 10\,000\), macierz \(\P ^t\) ma w przybliżeniu postać.

    \[ \P ^t \cong \left [ \begin {array}{cccc} \frac {8}{15} & \frac {4}{15} & \frac {2}{15} & \frac {1}{15}\\[1mm] \frac {8}{15} & \frac {4}{15} & \frac {2}{15} & \frac {1}{15}\\[1mm] \frac {8}{15} & \frac {4}{15} & \frac {2}{15} & \frac {1}{15}\\[1mm] \frac {8}{15} & \frac {4}{15} & \frac {2}{15} & \frac {1}{15} \end {array} \right ]. \]

    Tak więc odpowiedź na pytanie brzmi: \(\di P^{10000}(i,2) = \frac {2}{15}\).

Zgodnie z Twierdzeniem Frobeniusa-Perrona macierz przejścia ergodycznego łańcucha Markowa ma wartość własną równą 1, a pozostałe wartości własne mają moduły mniejsze od 1.

Na przykład, dla powyższej macierzy wynoszą one: \(1, -\frac 12, \frac {i}{2}, -\frac {i}{2}\).

Dla modelu urnowego Bernoulliego, Przykład 16.7:

k = 4: \(1, -\frac 18, \frac 12, \frac 18, -\frac 14\).

k= 10: \(1, 1/10, 1/5, 31/50, 23/50, -2/25, 1/50, -1/25, 4/5, -1/10, 8/25\).

Dla łańcucha (nie jest nieredukowalny) z przykładu 16.8:

\(-.149, .949, .901, -.101, -.0234, .823, .332, .468, .199, .601, .721, .0787, 1., 1.\)

  • Przykład – 17.12 (Kontynuacja przykładów 3.2 oraz 16.2.) Wyraźnie widać, że łańcuch określony w przykładzie 16.2 jest ergodyczny, a jego stan stacjonarny

    \[\pi = \left [\begin {array}{c} 1/5 \\ 3/5 \\ 1/5 \end {array} \right ].\]

    Tak więc po dłuższym okresie obowiązywania umowy Leon będzie sprzątał w danym dniu z prawdopodobieństwem bliskim \(\frac 35\). Ćwiczenie 3.1 wskazują, że okres ten wynosi około 10 dni.

Powracanie i ergodyczność Gdy spełnione są założenia twierdzenia ergodycznego to dla każdego \(i \in M\) mamy \(\P ^n(i,i) \approx \pi _i > 0\) dla dużych \(n\), więc \(\P (i) = \sum _{i=1}^\infty \P ^n(i,i) = \infty \), więc na podstawie twierdzenia 17.2 łańcuch jest powracający.

Oznacza to też, że zmienne losowe \(\tau _i\) określające liczbę powrotów do stanu \(i\) mają nieskończone wartości oczekiwane.

1 K. Wójcik, Stosowana algebra liniowa, UJ 2018/2019, wykłady 8 – 10

Rachunek prawdopodobieństwa — Lańcuch Markowa jako graf

(image)

Rachunek prawdopodobieństwa 1, 2

17.3 Łańcuch Markowa jako graf

Łańcuch Markowa można opisać za pomocą grafu skierowanego (digrafu) z wagami.

Niektóre spacery losowe po grafie (nieskierowanym) będące łańcuchami Markowa mają ciekawą interpretację, a także znaczenie praktyczne.

  • Definicja – 17.13 Dany jest zbiór skończony \(V = \{v_1,...,v_d\}\).

    • 1. Grafem nazywamy parę \((V,E)\), przy czym \(E\) jest pewnym zbiorem dwuelementowych podzbiorów utworzonych z elementów zbioru \(V\).

    • 2. Grafem skierowanym nazywamy parę \((V,E)\), przy czym \(E\) jest pewnym zbiorem par utworzonych z elementów zbioru \(V\) (\(E \subset V \times V\)).

    • 3. Grafem z wagami nazywamy parę \((V,W)\), przy czym \(W: V \times V \to \r \)
      (\(W\) jest pewną macierzą indeksowaną prze elementy \(V\)).

Elementy zbioru \(V\) nazywamy wierzchołkami, elementy zbioru \(E\) nazywamy krawędziami. Każdy graf z wagami \((V,W)\) indukuje graf skierowany \((V,E)\), przy czym \(E = \{(v_i,v_j): A(v_i,v_j) \neq 0 \}\). Wtedy elementy \(W(v_i,v_j)\) nazywamy wagami krawędzi \((v_i,v_j)\). Najczęściej przy zapisie krawędzi opuszczamy nawiasy. Czyli \(uv = (u,v)\) w przypadku grafu skierowanego, \(uv = \{u,v\}\) w przypadku grafu.

Bardzo często grafy interpretuje się w sposób geometryczny, co ma mocne uzasadnienie intuicyjne i w wielu sytuacjach ułatwia ich analizę. Niemniej jest to pojęcie mające niekiedy daleko szerszą interpretacje.

  • Uwaga – 17.14 Jeżeli \(\{X_n\}\) jest łańcuchem Markowa na przestrzeni stanów \(M\) i ma macierz przejścia \(\P \), to \((M,\P )\) jest grafem z wagami.

  • Przykład – 17.15 W przykładzie o Syzyfie graf z wagami może wyglądać tak:

    (image)

\(d\)-wymiarowa kostka dyskretna jako graf.

Niech \(d\) będzie ustaloną liczbą naturalną. Określamy

\[V = \{0,1\}^d = \{(\ve _1, \dots , \ve _d): \ve _i \in \{0,1\}, i = 1, \dots , d\}. \]

Niech \(E\) będzie zbiorem wszystkich takich dwuelementowych zbiorów \(\{u,v\}\) \(u, v \in V\), że \(u\), \(v\) różnią się od siebie dokładnie na jednym miejscu.

Dla \(d = 2\) mamy więc cztery wierzchołki i cztery krawędzie, które możemy interpretować jako boki kwadratu. Dla \(d = 3\) mamy 8 wierzchołków i 12 krawędzi, które możemy interpretować jako krawędzie sześcianu.

(image)

Dla \(d \ge 3\) liczba krawędzi gwałtownie wzrasta.

(image)

Rachunek prawdopodobieństwa — Spacery losowe po grafie (nieskierowanym)

(image)

Rachunek prawdopodobieństwa 1, 2

17.4 Spacery losowe po grafie (nieskierowanym)

Niech \(G = (V,E)\) będzie grafem. Dla wierzchołka \(v\) określamy jego stopień \(\deg (v)\) jako liczbę krawędzi wychodzących z \(v\), czyli liczbę sąsiadów \(v\).

Spacer losowy \(\{X_t\}\) po grafie \(G\).

Cząstka, która w chwili \(t\) znajduje się w wierzchołku \(v\), czyli \(X_t = v\), może przejść w jednym kroku do jednego z sąsiednich wierzchołków, \(X_{t+1}\), z prawdopodobieństwem \(\frac {1}{\deg (v)}\). Gdy wierzchołek nie ma sąsiadów, cząstka z prawdopodobieństwem \(1\) pozostaje w tym wierzchołku.

Następujące dwa twierdzenia są oczywiste.

  • Twierdzenie – 17.16 \(\{X_t\}\) jest łańcuchem Markowa na przestrzeni stanów \(V\) z macierzą przejścia \(\P \) określoną następująco: \(\P (u,v) = \frac {1}{\deg (u)}\), gdy \(uv \in E\), \(\P (v,v) = 1\), gdy \(v\) nie ma sąsiadów, \(\P (u,v) = 0\) w pozostałych przypadkach.

    Gdy każde dwa wierzchołki można połączyć ciągiem krawędzi (mówimy wtedy, że graf jest spójny), to \(\{X_t\}\) jest nieredukowalny.

  • Twierdzenie – 17.17 Spacer losowy po \(d\)-wymiarowej kostce \(\{0,1\}^d\) jest nieredukowalny i ma okres 2.

  • Twierdzenie – 17.18 Niech \(\{X_t\}\) oznacza taki spacer losowy po grafie \(G = (V,E)\), \(\sharp V = d\), że dla każdego \(v \in V\) \(\deg (v) > 0\) (nie ma wierzchołków izolowanych). \(n = \sharp V\).

    Określamy \(\pi _v = \frac {\deg (v)}{C}\) dla \(v \in V\), przy czym \(C = \sum _{u\in V}\deg (u)\).

    Wtedy wektor \(\pi \in \r ^d\) o współrzędnych \(\pi _v\) jest rozkładem stacjonarnym łańcucha Markowa \(X_t\), to znaczy:

    \[\P ^T\pi = \pi , \ \ \ \sum _{v\in V}\pi _v = 1, \ \ \ \pi _v > 0 \mbox { dla } v \in V.\]

Dowód. Wystarczy pokazać, że \(\sum _{u \in V}\P (u,v)\pi _u = \pi _v\) dla każdego \(v \in V\). Pamiętając, że \(\deg (v)\) oznacza \(\sharp N(v)\), przy czym \(N(v)\) jest zbiorem sąsiadów wierzchołka \(v\), i korzystając z określenia łańcucha, widzimy, że:

\[\sum _{u \in V}\P (u,v)\pi _u = \sum _{u \in N(v)}\P (u,v)\pi _u = \sum _{u \in N(v)}\frac {1}{\deg (u)}\frac {\deg (u)}{C} = \frac {\deg (v)}{C} = \pi _v.\]

  

Rachunek prawdopodobieństwa — Markowowskie metody Monte Carlo (MCMC)

(image)

Rachunek prawdopodobieństwa 1, 2

17.5 Markowowskie metody Monte Carlo (MCMC)

Idea metod Monte Carlo opartych na teorii łańcuchów Markowa (Markov Chain Monte Carlo), w skrócie MCMC, polega na tym, że chcąc losować liczby według ustalonego rozkładu dyskretnego \((\{x_i\}, \{p_i\})\), budujemy taki ergodyczny łańcuch Markowa na przestrzeni stanów, którymi są punkty \(x_i\), że jego stan stacjonarny \(\pi \) ma współrzędne \(p_i\). Symulując zachowanie się tego łańcucha, możemy mieć niemal pewność, że po odpowiedniej liczbie kroków uzyskiwane elementy będą pochodzić z rozkładu \(\pi \). Największym problemem jest tutaj dobranie odpowiedniego łańcucha. Dużą pomoc stanowi tu teoria grafów.

Jeżeli graf, po którym odbywa się spacer, jest skończony, spójny, a łańcuch Markowa jest nieokresowy, to na podstawie twierdzenia ergodycznego istnieje dokładnie jeden stan stacjonarny, a więc musi to być ten sam stan, co w Twierdzeniu 17.18 udowodnionym powyżej. Jeżeli więc dla danego rozkładu \((\{x_i\}, \{p_i\})\}\) potrafimy zbudować taki graf o wierzchołkach \(x_i\), że określone w twierdzeniu liczby \(\pi _i\) są równe liczbom \(p_i\), to podczas symulowania spaceru losowego będziemy po pewnym czasie otrzymywać punkty z rozkładu \((\{x_i\}, \{p_i\})\). Omówimy zagadnienie, tak zwany problem plecakowy, gdzie taka metoda może z powodzeniem być zastosowana.

Zagadnienie plecakowe stanowi klasyczny problem optymalizacji dyskretnej, który w sensie informatycznym jest równoważny wielu innym klasycznym zagadnieniom.

Mamy \(d\) przedmiotów, powiedzmy \(1,2,\dots , d\), i znamy wartość każdego z nich, powiedzmy \(c_1, \dots , c_d\), oraz ich wagi, powiedzmy \(w_1, \dots , w_d\). Chcemy tak załadować plecak, aby wartość zabranych przedmiotów była największa.

Problem w tym, że waga plecaka nie może przekroczyć ustalonej liczby \(B\).

Matematyczny model:

\[ V = \{v = (v_1, \dots v_d) \in \{0,1\}^d: \sum _{i = 1}^d v_i w_i \le B\} \]

oraz niech \(\di f(v) = \sum _{i=1}^d v_i c_i\) dla \(v \in V\). Szukamy \(\arg \max f\).

W dalszym ciągu będziemy zakładać, że zadanie jest nietrywialne, czyli że \(\sum _{i = 1}^d w_i > B\).

Stosujemy PRS. W tym celu chcemy generować punkty ze zbioru \(V\) według rozkładu jednostajnego. To może być bardzo duży zbiór i ciężko jest nawet ustalić liczbę jego elementów.

Aby jednak wykonać to zadanie, modyfikujemy opisany poprzednio spacer po grafie o wierzchołkach z \(V\), który jest naturalnym zacieśnieniem \(d\)-wymiarowej kostki dyskretnej.

W kolejnym kroku przechodzimy ze stanu \(v = (v_1,\dots , v_d) \in V\) do stanu sąsiedniego w sposob następujący: losujemy wskaźnik \(j\) spośród liczb \(1,2, \dots , d\) zgodnie z rozkładem jednostajnym i dokonujemy zmiany \(j\)-tej współrzędnej \(v_j\) na \(v'_j = 1- v_j\), dzięki czemu otrzymujemy wierzchołek

\[v' =(v_1, \dots , v_{i-1},v'_j, v_{j+1}, \dots , v_d).\]

Jeżeli \(v' \in V\), to przenosimy się do \(v'\).

Jeżeli \(v' \notin V\) (waga plecaka jest za duża), to pozostajemy w \(v\).

Zaczynamy w chwili 0 z pustym plecakiem (\(X_0 = 0, \dots ,0) \in V\)), generujemy w powyższy sposób kolejne wierzchołki \(X_t\)

Otrzymany w ten sposób spacer oznaczamy przez \(\{X_t\}\).

Widać, że:

  • 1. \(X_t\) jest łańcuchem Markowa.

  • 2. \(X_t\) jest nieredukowalny (bo każdy stan komunikuje się ze stanem zerowym).

  • 3. \(X_t\) jest nieokresowy, gdyż istnieją stany \(v\), w których spacer z dodatnim prawdopodobieństwem może przystanąć (gdy \(v' \notin V\)).

Istnieje więc dokładnie jeden rozkład stacjonarny \(\pi \).

Co więcej, \(\{X_t\}\) ma własność symetrii: \(\P (u,v) = \P (v,u)\) dla wszystkich \(u, v \in V\).

Ale to oznacza, że wektor \(\hat {\pi }\) o wszystkich współrzędnych równych \(\hat {\pi }_v = \frac {1}{\sharp V}\) jest rozkładem stacjonarnym Rzeczywiście:

\[\sum _{u \in V}\P (u,v)\frac {1}{\sharp V} = \sum _{u \in V}\P (v,u)\frac {1}{\sharp V} = 1 \cdot \frac {1}{\sharp V} = \frac {1}{\sharp V}.\]

Z jednoznaczności gwarantowanej przez twierdzenie ergodyczne otrzymujemy, że \(\pi = \hat {\pi }\).

Wniosek. Dla dużych \(t\) zmienne losowe \(X_t\) mają rozkład niemal identyczny co rozkład jednostajny na \(V\).

Opisana metoda jest mało efektywna. Istnieją dużo lepsze (szybsze) metody MCMC rozwiązywania problemu plecakowego oraz podobnych problemów. Wiele z nich opartych jest jednak na podobnej metodologii, co opisana powyżej.

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

17.6 Pytania

  • Pytanie 17.1 Definicje stanu powracającego i stanu okresowego można bez żadnych zmian powtórzyć w przypadku dowolnego łańcucha Markowa. Podać przykład takiego łańcucha, który ma jednocześnie: (1) stan powracający i stan niepowracający, (2) stan okresowy i stan nieokresowy.

Wskazówka. Ad (1). Łańcuch o macierzy przejścia

\[ \P = \left [\begin {array}{cccc}1/2 & 1/2 & 0 & 0\\ 2/3 & 0 & 1/3 & 0\\ 0 & 0 & 5/6 & 1/6 \\ 0 & 0 & 0 & 1 \end {array} \right ]. \]

Ad (2). Łańcuch o macierzy przejścia

\[ \P = \left [\begin {array}{cccc} 1/2 & 1/2 & 0 & 0\\ 1/3 & 2/3 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 1 & 0 \end {array} \right ]. \]

  • Pytanie 17.2 Podaj przykład wskazujący, że Uwaga 17.8 jest fałszywa w przypadku, gdy przestrzeń stanów nie jest skończona.

Wskazówka. Spacer losowy po prostej bez barier, gdy \(r >0\) jest nieokresowy, ale w Uwadze 17.8 nie zachodzi punkt 3.

  • Pytanie 17.3 (2 pkt.) Udowodnij, że jeżeli nieredukowalny łańcuch Markowa jest niepowracający, to dla każdych stanów \(i, j\) \(\lim _{n \rightarrow \infty }\P ^n(i,j) = 0\).

Wskazówka. Ponieważ łańcuch jest niepowracający, to dla każdego \(j\) szereg \(\sum _{n = 1}^\infty \P ^n(j,j)\) jest zbieżny, więc \(\lim _{n \rightarrow \infty }\P ^n(j,j) = 0\). Ustalmy teraz dwa stany \(i, j\). Ponieważ łańcuch jest nieredukowalny, to istnieje takie \(k\ge 1\), że \(\P ^k(j,i) > 0\). Dla dowolnego \(n\) mamy nierówność:

\[ \P ^{n+k}(j,j) \ge \P ^k(j,i)\P ^n(i,j), \mbox { wiÄŹc } \lim _{n \rightarrow \infty }\P ^n(i,j) = 0. \]

  • Pytanie 17.4 Rozważmy spacer losowy po prostej z barierami w punktach \(A = -1\), \(B=1\), \(p = q = 1/4\), \(sa = 9/10\), \(sb = 1/10\). Znajdź rozkład stacjonarny.

Wskazówka. . \(\pi := \left [\begin {array}{c} 45/68 \\ 18/68 \\ 5/68 \end {array} \right ].\)

  • Pytanie 17.5 Rozważmy urnowy model Bernoulliego, Przykład 10.3. Niech \(k = 3\), \(b_0 = 3\). Wyznacz oczekiwaną liczbę czerwonych kul w drugiej urnie po pierwszym, drugim, dziesiątym i trzydziestym losowaniu.

Wskazówka. \(E(X_1) = 2\), \(E(X_2) := \frac 53\), \(E(X_{10})= \frac {29525}{19683}\), \(E(X_{30}) = \frac {102945566047325}{68630377364883} \cong 1.5000000000000072854\).

  • Pytanie 17.6 (2 pkt.) Wyznacz macierz przejścia spaceru losowego po grafie.

    (image)

    (1) Czy łańcuch jest okresowy?

    (2) Naszkicuj graf skierowany tego łańcucha.

    (3) Wskaż rozkład stacjonarny tego łańcucha.

Wskazówka.

\[ \P = \left [\begin {array}{ccccc} 0 & 0 & 1/3 & 1/3 & 1/3\\ 0 & 0 & 1 & 0 & 0\\ 1/4 & 1/4 & 0 & 1/4 & 1/4\\ 1/2 & 0 & 1/2 & 0 & 0\\ 1/2 & 0 & 1/2 & 0 & 0 \end {array} \right ]. \]

Ad (1). Nie jest okresowy.

Ad (2)

(image)

Ad (3).

\[ \pi = \left [\begin {array}{c} \frac {3}{12} \\[1mm] \frac {1}{12} \\[1mm] \frac {4}{12} \\[1mm] \frac {2}{12} \\[1mm] \frac {2}{12} \end {array} \right ]. \]

Powyższy wynik można było uzyskać dwoma sposobami.

Rachunek prawdopodobieństwa — Rozklady wielowymiarowe

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 18 Rozkłady wielowymiarowe

W poprzednich rozdziałach mieliśmy już, raczej incydentalnie, do czynienia z wektorami losowymi i ich rozkładami. Obecnie zajmiemy się tą sprawą bardziej dokładnie. Naszym głównym celem jest omówinie podstawowych własność rozkładu normalnego. Wspomnimy też o problemie regresji, który w przypadku rozkładów anormalnych sprowadza się do projektu regresji liniowej.

18.1 Macierze symetryczne dodatnio określone

Nasze rozważania poprzedzimy przypomnieniem przydatnych faktów z algebry liniowej.

Niech \(M(m,n)\) oznacza zbiór macierzy rzeczywistych o \(m\) wierszach i \(n\) kolumnach.

Rozważamy macierze kwadratowe stopnia \(n\), \(M(n) = M(n,n)\).

Macierz \(C\in M(n)\) jest symetryczna, gdy \(C^T = C\).

Macierz symetryczna \(C\) jest nieujemnie (dodatnio) określona, gdy

\[\forall x \in \rn \setminus \{0\} \ x^TCx = \sum _{i,j}c_{ij}x_ix_j \ge 0 \ \ \ \ (x^TCx > 0).\]

Piszemy wtedy \(C \ge 0\) (\(C > 0\)).

\[\s (C) = \{\lambda \in \C : \exists \ z \in \C ^n \setminus \{0\}: \ Cz = \lambda z \}.\]

jest zbiorem wszystkich wartości własnych macierzy \(C\).

Łatwo wykazać:

  • Twierdzenie – 18.1 Jeżeli \(C\in M(n)\), \(C = C^T\), to \(\s (C) \subset \r \).

Jednym z ważniejszych twierdzeń leżących u podstaw matematyki stosowanej jest:

  • Twierdzenie – 18.2 (o diagonalizacji macierzy symetrycznej) Jeżeli \(C\in M(n)\), \(C = C^T\), to istnieje macierz \(P \in M(n)\), \(PP^T =I\), taka że \(\di C = P\,diag(\lambda _1, \dots , \lambda _n)\,P^T\), gdzie \(\lambda _1, \dots , \lambda _n \in \r \).

    Wtedy

    \[\s (C) =\{\lambda _1, \dots , \lambda _n\}.\]

Łatwo widać, że jeżeli \(C \ge 0\) (\(C > 0\)), to również \(diag(\lambda _1, \dots , \lambda _n) \ge 0\) (\(C > 0\)), co z kolei jest równoważne temu, że wszystkie wartości własne \(\lambda _i\) są nieujemne (dodatnie).

  • Wniosek – 18.3 Jeżeli \(C \ge 0\), to \(\det C \ge 0\) oraz wtedy:

    \(C > 0 \rwn \det C > 0 \rwn C\) jest nieosobliwa.

W takich przypadkach można rozważać macierz \(B = P\,diag(\sqrt {\lambda _1}, \dots , \sqrt {\lambda _n})\,P^T\). Łatwo sprawdzić, że \(B^2 = C\). Będziemy używać oznaczenia \(C^{\frac {1}{2}} := B\).

Rachunek prawdopodobieństwa — Nadzieja matematyczna i macierz kowariancji

(image)

Rachunek prawdopodobieństwa 1, 2

18.2 Nadzieja matematyczna i macierz kowariancji

Niech \(X:\Omega \str \rn \) będzie wektorem losowym. Czyli

\[ X = \left [\begin {array}{l} X_1\\ X_2 \\ \vdots \\X_n \end {array} \right ], \]

gdzie \(X_i\) są zmiennymi losowymi.

Określamy nadzieję matematyczną oraz kowariancję wektora losowego:

  • Definicja – 18.4

    \[ \mu = E(X) = \left [\begin {array}{l} E(X_1)\\ E(X_2) \\ \vdots \\ E(X_n) \end {array} \right ], \ \ \Sigma = cov(X) = \left [\begin {array}{lll} cov(X_1,X_1) & \dots & cov(X_1,X_n) \\ \dots & \dots & \dots \\ \dots & \dots & \dots \\ cov(X_n,X_1) & \dots & cov(X_n,X_n) \end {array} \right ]. \]

Przypominamy: \(\di cov(X_i,X_j) = E((X_i - E(X_i))\cdot (X_j- E(X_j)))\). Mamy więc natychmiast:

\[ \Sigma = \Sigma ^T. \]

  • Twierdzenie – 18.5 \(A \in M(m,n), b \in \r ^m,\ \ W = AX +b \imp \)

    \[ E(W) = AE(X) + b, \ \ \ \ \ cov(W) = A\,cov(X)\,A^T.\]

Dowód. (ćwiczenie).   

  • Twierdzenie – 18.6 Dla każdego \(a \in \rn \) \(a^Tcov(X) a\ge 0\), czyli \(cov(X) \ge 0\).

Dowód. Niech \(a \in \rn \). Określamy zmienną losową: \(W = a^TX\).

Jej wariancja \(D^2(W) \ge 0\). Ale: \(D^2(W) = cov(W) = a^Tcov(X)a\).   \(\Box \)

  • Twierdzenie – 18.7 Jeżeli \(X\) ma rozkład ciągły, to dla każdego \(a \in \rn \setminus \{0\} \) \(a^Tcov(X) a > 0\), czyli \(cov(X) > 0\).

Dowód. Nie wprost.

Niech \(a \in \rn \setminus \{0\}\) będzie takie, że \(a^T cov(X) a = 0\). Niech jak poprzednio \(W = a^TX\).

Ponieważ \(D^2(W) = 0\), to \(W\) jest stała p.w. Czyli istnieje \(c \in \rn \), takie, że \(P(W= c) =1\). Wtedy jednak \(P(a^TX = c) = 1\). Czyli \(P(X \in M) =1\), gdzie \(M = \{y \in \rn : a^Ty = c\}\) jest przestrzenią afiniczną, dim \(M = n-1\). Ale to prawdopodobieństwo można też inaczej obliczyć, gdyż \(X\) ma gęstość, powiedzmy \(f: \rn \str \r \). Mianowicie:

\(\di P(X \in M) = \int _M f\,dx = 0\), gdyż miara Lebesgue’a każdej właściwej podprzestrzeni afinicznej równa się zeru.   \(\Box \)

Rachunek prawdopodobieństwa — Funkcje generujące momenty.

(image)

Rachunek prawdopodobieństwa 1, 2

18.3 Funkcje generujące momenty.

Pamiętamy, że dla każdego rozkładu, powiedzmy \(Q\), istnieje funkcja charakterystyczna \(h_Q: \r \str \C \):

\[h_Q(u) = \int _{\r } e^{iux}\,dQ(x). \]

  • Definicja – 18.8 Niech \(Q\) będzie \(n\)-wymiarowym rozkładem. Funkcja \(M_Q : \rn \str \r \) nazywamy funkcją generującą momenty \(\rwn \)

    \[ M_Q(t) = \int _{\rn } e^{t^Ty}dQ(y). \]

    Niech \(X\) będzie wektorem losowym.

    \[ M_X(t) := M_{P_X}(t) = E(e^{t^TX}). \]

Ponieważ dla niektórych \(t \in \rn \) \(E(e^{t^TX})\) może być nieskończona, funkcja generująca momenty może nie istnieć! Jest to jej podstawowa wada w porównaniu do funkcji charakterystycznych.

Podajemy bez dowodu następujące twierdzenie będące odpowiednikiem twierdzenia 11.14

  • Twierdzenie – 18.9 Jeżeli \(M_{Q_1}(t) = M_{Q_2}(t) \) dla \(t \in G\), gdzie \(G \subset \rn \) jest zbiorem otwartym, to \(Q_1 = Q_2\).

Łatwo udowodnić (ćwiczenie) następujące:

  • Twierdzenie – 18.10 \(A \in M(m,n), b \in \r ^m,\ \ W = AX +b \imp \)

    \[M_W(t) = e^{b^Tt}M_X(A^Tt).\]

  • Twierdzenie – 18.11 Niech \(X = \left [\begin {array}{l} X_1\\ X_2 \end {array} \right ].\) Wtedy:
    \(X_1, X_2\) są niezależne \(\rwn \)

    \[ \forall t = \left [\begin {array}{l} t_1\\ t_2 \end {array} \right ] \ \‚M_X\left ( \left [\begin {array}{l} t_1\\ t_2 \end {array} \right ]\right ) = M_{X_1}(t_1) \cdot M_{X_2}(t_2). \]

Dowód. „\(\imp \)” Z niezależności \(X_1\), \(X_2\) wynika niezależność \(e^{t_1^TX_1}\), \(e^{t_2^TX_2}\) dla wszystkich \(t_1, t_2\). Stąd:
\(\di M_X(t) = E(e^{t^TX}) = E(e^{t_1^TX_1+t_2^TX_2}) =\)
\(\di E(e^{t_1^TX_1}e^{t_2^XX_2}) = E(e^{t_1^TX_1})E(e^{t_2^XX_2}) = M_{X_1}(t_1)M_{X_2}(t_2) \).

„\(\Longleftarrow \)" Chcemy pokazać, że: \(P_X = P_{X_1}\times P_{X_2}\). Wystarczy więc pokazać, że \(M_{P_X} = M_{P_{X_1}\times P_{X_2}}\). Dla \(t \in \rn \) mamy:

\(\di M_{P_{X_1}\times P_{X_2}}(t) = \int _{\rn }e^{t^Ty}d(P_{X_1} \times P_{X_2})(y) = \) \(\di \int _{\rn }e^{t_1^Ty_1+t_2^Ty_2}d(P_{X_1} \times P_{X_2})(y_1,y_2) =\) \(\di \int _{\r ^{n_1}}e^{t_1^Ty_1}dP_{X_1}(y_1)\int _{\r ^{n_2}}e^{t_2^Ty_2}dP_{X_2}(y_2) = M_{P_{X_1}}(t_1) M_{P_{X_2}}(t_2) = M_{P_X}(t) \).   \(\Box \)

  • Przykład – 18.12 (funkcja generująca momenty dla rozkładu \(N(0,1)\))

    Niech \(Z\) będzie zmienną losową o rozkładzie \(N(0,1)\).

    \(\di M_Z(t) = E(e^{tZ}) = \int _\r e^{tz} \frac {1}{\sqrt {2 \pi }} e^{-\frac {1}{2}z^2}dz = \frac {1}{\sqrt {2 \pi }} \int _\r e^{tz - \frac {1}{2}z^2} dz = \)

    \(\di \frac {1}{\sqrt {2 \pi }} \int _\r e^{- \frac {1}{2}(z^2 - 2tz + t^2)} e^{\frac {1}{2}t^2} dz = e^{\frac {1}{2}t^2} \frac {1}{\sqrt {2 \pi }} \int _\r e^{- \frac {1}{2}(z-t)^2} dz = e^{\frac {1}{2}t^2}\).

  • Przykład – 18.13 (funkcja generująca momenty dla i.i.d. \(\sim N(0,1)\))

    Niech \((Z_1, \dots Z_n)\) będzie ciągiem i.i.d. o wspólnym rozkładzie \(N(0,1)\). Obliczymy \(M_Z\) dla:

    \[ Z = \left [\begin {array}{l} Z_1 \\ \vdots \\ Z_n \end {array} \right ], \]

    Na podstawie poprzedniego twierdzenia: \(M_Z(t) = M_{Z_1}(t_1) \cdot \dots \cdot M_{Z_n}(t_n) = e^{\frac {1}{2}t_1^2} \cdot \dots \cdot e^{\frac {1}{2}t_n^2} = e^{\frac {1}{2}(t_1^2 + \dots + t_n^2) } = e^{\frac {1}{2}\| t \|^2 } = e^{\frac {1}{2}t^Tt } \). Przy okazji zauważmy, że: \(E(Z) = 0\), \(cov(Z) = I_n\) – macierz identycznościowa.

  • Przykład – 18.14

    Rozważmy wektor \(X = AZ + \mu \), gdzie wektor losowy \(Z\) jest taki jak w poprzednim przykładzie, \(A \in M(m,n)\) oraz \(\mu \in \r ^m\).

    Policzymy jego nadzieję matematyczną, kowariancję oraz funkcję generującą momenty. Ponieważ \(E(Z) = 0\), \(cov(Z) = I_n\), więc \(E(X) = \mu \), \(\Sigma = cov(X) = AA^T\).

    \[\di \di M_X(t) = e^{\mu ^Tt}M_Z(A^T t) = e^{\mu ^T t} e^{\frac {1}{2}(A^Tt)^TA^Tt } = e^{\mu ^Tt + \frac {1}{2}t^TAA^Tt}\]

    \[= e^{\mu ^Tt + \frac {1}{2}t^T\Sigma t}.\]

Powyższy przykład okaże się punktem wyjścia do definicji wielowymiarowego rozkładu normalnego.

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

18.4 Pytania

  • Pytanie 18.1 Znaleźć \(\Sigma ^{\frac {1}{2}}\), gdy \(\Sigma = \left [\begin {array}{cc} 1 & 2 \\ 2 & 4\end {array}\right ]\).

Wskazówka. \(\Sigma = \left [\begin {array}{cc} 1/\sqrt {5} & 2/\sqrt {5} \\ 2/\sqrt {5} & 4/\sqrt {5}\end {array}\right ]\).

  • Pytanie 18.2 (1 pkt.) Udowodnić Twierdzenie 18.5.

Wskazówka. Po rozpisaniu wzoru na \(cov(Y_i,Y_j)\) otrzymujemy:

\[ cov(W_i,W_j) = \sum _ka_{ik}\left (\sum _l cov(Y_k,Y_l)a_{jl}\right ). \]

W nawiasie jest \((k,j)\)-ty wyraz macierzy \(cov(Y) A^T\).

  • Pytanie 18.3 Udowodnić Twierdzenie 18.10.

Wskazówka.

\[ M_W(t) = E\left (e^{t^T(AY + b)}\right ) = e^{t^Tb} E\left (e^{(A^Tt)^TY}\right ) = e^{t^Tb}M_W(A^Tt). \]

  • Pytanie 18.4 Wyznacz funkcję generującą momenty dla rozkładu Poisson \(P_{\lambda }\).

Wskazówka.

\[ M_X(t) = E(e^{tX}) = \sum _{k = 0}^\infty e^{tk} e^{-\lambda }\frac {\lambda ^k}{k!} = e^{-\lambda } \sum _{k = 0}^\infty \frac {(\lambda e^t)^k}{k!} = e^{\lambda (e^t-1)}. \]

  • Pytanie 18.5 Znajdź macierz kowariancji wektora losowego \(X\) mającego rozkład o gęstości:

    (a) \(f(x,y) = c e^{-x^2 - 4y^2}\), gdzie \(c\) jest odpowiednio dobraną stałą.

    (b) \(f(x,y) = c e^{-x^2 - 4y^2+2xy-2x}\), gdzie \(c\) jest odpowiednio dobraną stałą.

Wskazówka. Ad (a). \(\di c = \frac {1}{\int _{\r ^2} f(x,y)\,d(x,y)} = \frac {\pi }{2}\), \(\di \Sigma = \left [\begin {array}{cc} 1/2 & 0\\ 0 & 1/8 \end {array}\right ].\)

Ad (b). \(\di c = \frac {1}{\int _{\r ^2} f(x,y)\,d(x,y)} \), \(\di \Sigma = \left [\begin {array}{cc} 2/3 & 1/6\\ 1/6 & 1/6 \end {array}\right ].\)

  • Pytanie 18.6 Znajdź macierz kowariancji wektora losowego \(X\) mającego rozkład o gęstości \(f = c\cdot g\cdot I_K\), gdzie \(K\) jest trójkątem o wierzchołkach \((0,0)\), \((0,1)\), \((1,1)\), \(g(x,y) = x^2\), a \(c\) jest odpowiednią stałą.

Wskazówka. \(c = 4\), \(\di \Sigma = \left [\begin {array}{cc} 2/75 & 1/75\\ 1/75 & 14/225 \end {array}\right ].\)

Rachunek prawdopodobieństwa — Rozklad normalny wielowymiarowy

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 19 Rozkład normalny wielowymiarowy

19.1 Definicja i własności

Przykład 18.14 stanowi motywacją do następującej definicji.

  • Definicja – 19.1 (Rozkład normalny \(N_n(\mu ,\Sigma )\)) Dane są: \(\mu \in \rn \) oraz \(\Sigma \in M(n)\), \(\Sigma = \Sigma ^T\), \(\Sigma \ge 0\).

    Rozkład \(Q\) nazywamy normalnym i oznaczamy \(N_n(\mu ,\Sigma )\), jeżeli

    \[ M_Q(t) = e^{\mu ^Tt + \frac {1}{2}t^T\Sigma t}. \]

Poprzedni przykład pokazuje, że dla dowolnych \(\mu \) oraz symetrycznej \(\Sigma \ge 0\) istnieje taki rozkład. Wystarczy wziąć \(A = \Sigma ^{\frac {1}{2}}\). Wtedy rozkład \(P_X = N_n(\mu ,\Sigma )\).

  • Uwaga – 19.2 Gdy \(n= 1\), \(\Sigma = \s ^2 > 0\). Wtedy \(N_1(\mu ,\s ^2) = N(\mu ,\sigma )\).

    \(N_1(\mu ,0) = \delta _\mu \) .

Podana poprzednio definicja rozkładu normalnego może wydawać się trochę nienaturalna, niemniej ma szereg korzyści. Jedną z nich jest następujące:

  • Twierdzenie – 19.3 (1) Jeżeli wektor losowy \(X\) ma rozkład normalny \(N_n(\mu , \Sigma )\), to

    \[E(X) = \mu , \ \ \ \ cov(X) = \Sigma . \]

    (2) Jeżeli ponadto \(W = AX + b\), \(A \in M(m,n)\), \(b \in \r ^m\),
    to \(W\) ma rozkład

    \[N_m(A\mu +b, A\Sigma A^T). \]

Dowód. Ad (1). Jakikolwiek wektor losowy o rozkładzie \(N_n(\mu , \Sigma )\) ma taki sam rozkład jak wektor \(X\) otrzymany w przykładzie 18.14, a więc ich parametry są takie same.

Ad (2). \(\di M_W(t) = e^{b^Tt}M_X(A^Tt) = e^{b^Tt}e^{\mu ^TA^Tt + \frac {1}{2}(A^Tt)^T\Sigma A^Tt} = \) \(\di e^{(A\mu +b)^Tt +\frac {1}{2}t^TA\Sigma A^Tt }\). \(\di M_W(t)\) jest więc funkcją generującą momenty dla rozkładu \(N_m(A\mu +b, A\Sigma A^T)\).   \(\Box \)

  • Twierdzenie – 19.4 Niech wektor losowy \(X\) ma rozkład normalny \(N_n(\mu , \Sigma )\),

    \[ X = \left [\begin {array}{l} X_1\\ X_2 \end {array} \right ], \ \ \ \mu = \left [\begin {array}{l} \mu _1\\ \mu _2 \end {array} \right ], \ \ \ \‚\Sigma = \left [\begin {array}{ll} \Sigma _{11} & \Sigma _{12}\\ \Sigma _{21} & \Sigma _{22} \end {array} \right ]. \]

    Wtedy:

    (1) \(X_i\) ma rozkład normalny \(N_{n_i}(\mu _i,\Sigma _{ii})\), \(i = 1, 2\)

    (2) \(X_1\), \(X_2\) są niezależne \(\rwn \Sigma _{12} = \Sigma _{21}^T = 0\).

Dowód. Ad (1) \(X_1 = [I_{n_1}, 0]X\), \(X_2 = [0,I_{n_2}, 0]X\), gdzie \(I_{n_i} \in M(n_i)\) jest macierzą identycznościową. Stosujemy poprzednie twierdzenie.

Ad (2) \(M_X(t) = M_X \left [\begin {array}{l} t_1\\ t_2 \end {array} \right ] = \)

\[\exp \left ( \left [\begin {array}{l} \mu _1\\ \mu _2 \end {array} \right ]^T \left [\begin {array}{l} t_1\\ t_2 \end {array} \right ] + \frac {1}{2}[t_1^T,t_2^T] \left [\begin {array}{ll} \Sigma _{11} & \Sigma _{12}\\ \Sigma _{21} & \Sigma _{22} \end {array} \right ]\left [\begin {array}{l} t_1\\ t_2 \end {array} \right ]\right ) = \]

\[ \exp \left (\mu _1^Tt_1+ \mu _2^Tt_2 + \frac {1}{2}[t_1^T,t_2^T] \left [\begin {array}{l} \Sigma _{11}t_1 + \Sigma _{12}t_2\\ \Sigma _{21}t_1 + \Sigma _{22}t_2 \end {array} \right ] \right ) = \]

\[\exp \left (\mu _1^Tt_1+ \mu _2^Tt_2 + \frac {1}{2}(t_1^T\Sigma _{11}t_1 +t_1^T\Sigma _{12}t_2+ t_2^T\Sigma _{21}t_1 +t_2^T\Sigma _{22}t_2 )\right ). \]

Z drugiej strony:

\[ M_{X_1}(t_1) = \exp \left (\mu _1^Tt_1 + \frac {1}{2}t_1^T\Sigma _{11} t_1\right ), \ \‚M_{X_2}(t_2) = \exp \left (\mu _2^Tt_2 + \frac {1}{2}t_2^T\Sigma _{22} t_2\right ). \]

Widać, że warunkiem równoważnym warunkowi \(\di M_X(t) = M_{X_1}(t_1)M_{X_2}(t_2)\) jest:

\[ \forall \ t_1, t_2 \ \ t_1^T\Sigma _{12}t_2+ t_2^T\Sigma _{21}t_1 = 0. \]

Po lewej stronie występują dwie liczby, które są sobie równe, gdyż \(\Sigma _{12}^T = \Sigma _{21}\).

A więc ostatni warunek brzmi:

\[ \forall \ t_1, t_2 \ \ t_2^T\Sigma _{21}t_1 = 0, \]

co z kolei jest równoważne warunkowi \(\Sigma _{21} = 0\).   \(\Box \)

  • Twierdzenie – 19.5 (o istnieniu gęstości) Niech wektor losowy \(X\) ma rozkład \(N_n(\mu , \Sigma )\). Zachodzi równoważność:

    \(X\) ma rozkład ciągły \(\rwn \Sigma \) jest nieosobliwa.

    Wtedy gęstość \(f_X\) wyraża się wzorem:

    \[ f_X(x) = \frac {1}{(2\pi )^\frac {n}{2}\sqrt {\det \Sigma }}e^{-\frac {1}{2}(x-\mu )^T\Sigma ^{-1}(x - \mu )}. \]

    W przeciwnym przypadku istnieje taka właściwa podprzestrzeń afiniczna \(M \subset \rn \), że \(P(X \in M) = 1\).

Dowód. Twierdzenie udowodnimy dla szczególnie dobranego wektora \(X\) mającego rozkład \(N_n(\mu , \Sigma )\), co nie zmniejsza ogólności. Niech wektor losowy \(Z\) ma współrzędne \(Z_1,\dots ,Z_n\), które są i.i.d. o rozkładzie normalnym standardowym każda. \(Z\) ma więc gęstość, która jest iloczynem gęstości zmiennych losowych \(Z_i\).

\[ f_Z(z) = \frac {1}{\sqrt {2 \pi }} e^{-\frac {1}{2}z_1^2} \cdot \ \dots \ \cdot \frac {1}{\sqrt {2 \pi }} e^{-\frac {1}{2}z_n^2} = \]

\[ \frac {1}{(\sqrt {2 \pi })^n} e^{-\frac {1}{2}\sum _{i=1}^nz_i^2} = \frac {1}{(\sqrt {2 \pi })^n} e^{-\frac {1}{2}z^Tz}. \]

Niech \(X = \Sigma ^{\frac {1}{2}}Z+ \mu \). W przypadku, gdy \(\Sigma \) jest nieosobliwa, odwzorowanie \(\f (z) = \Sigma ^{\frac {1}{2}}z+ \mu \) jest dyfeomorfizmem, a więc na podstawie twierdzenia 5.33:

\[ f_X(x) = \frac {1}{\det \Sigma ^{\frac {1}{2}} } f_Z\left ((\Sigma ^{\frac {1}{2}})^{-1}(x-\mu )\right ) = \frac {1}{(2\pi )^\frac {n}{2}\sqrt {\det \Sigma }}e^{-\frac {1}{2}(x-\mu )^T\Sigma ^{-1}(x- \mu )}. \]

Gdy \(\Sigma \) jest osobliwa, także \(\Sigma ^{\frac {1}{2}}\) jest osobliwa, a więc jej rząd \(k\) jest mniejszy niż \(n\). Więc \(\dim M = k < n\), gdzie \(M = \{\Sigma ^{\frac {1}{2}} z + \mu : z \in \rn \}\) jest przestrzenią afiniczną zawierającą wszystkie wartości \(X\).   \(\Box \)

Rachunek prawdopodobieństwa — Rozklad normalny na plaszczyźnie

(image)

Rachunek prawdopodobieństwa 1, 2

19.2 Rozkład normalny na płaszczyźnie

Rozpatrzymy teraz rozkład normalny dwuwymiarowy, bardzo ważny w zastosowaniach. Załóżmy, że \(X = (\xi ,\eta )\) jest wektorem o rozkładzie \(N_2(\mu ,\Sigma )\). Rozkład ten zależy od pięciu parametrów:

\begin{equation} \mu = \left [\begin{array}{l} m_\xi \\ m_\eta \end {array} \right ], \ \ \Sigma = \left [\begin{array}{cc} \sigma _\xi ^2 & \varrho \, \sigma _\xi \sigma _\eta \\ \varrho \, \sigma _\xi \sigma _\eta & \sigma _\eta ^2 \end {array} \right ], \end{equation}

gdzie \(\varrho \) jest współczynnikiem korelacji.

Widać, że: \(\Sigma > 0 \rwn |\varrho | \neq 1\), gdyż:

\[\det \Sigma = \sigma _\xi ^2\sigma _\eta ^2(1 - \varrho ^2), \ \ \ \‚\Sigma ^{-1} = \left [\begin {array}{cc} \frac {1}{\sigma _\xi ^2(1 - \varrho ^2)} & - \frac {\varrho }{\sigma _\xi \sigma _\eta (1 - \varrho ^2)} \\ - \frac {\varrho }{\sigma _\xi \sigma _\eta (1 - \varrho ^2)} & \frac {1}{\sigma _\eta ^2(1 - \varrho ^2)} \end {array} \right ].\]

Twierdzenia 19.4 (2) oraz 19.5 zyskują teraz prostą interpretację.

  • Wniosek – 19.6 \(\xi \), \(\eta \) są niezależne \(\rwn \varrho = 0\).

    Istnieje prosta \(M\), \(P((\xi ,\eta ) \in M) = 1 \rwn |\varrho | = 1\).

Wzór na gęstość ma postać (ćwiczenie):

\begin{equation} f(x,y) = {\frac {1}{2\pi \,{\it \sigma _\xi }\,{\it \sigma _\eta }\,\sqrt {1-{\varrho }^{2}} }} {e^{ -\frac {1}{2(1 - \varrho ^2)}\left ({\frac {(x-{\it m_\xi })^{2}}{{{\it \sigma _\xi }}^{2}}}-2\,{\frac {\varrho \, (x-{\it m_\xi } )(y-{ \it m_\eta })}{{\it \sigma _\xi }\,{\it \sigma _\eta }}}+{\frac {(y- m_\eta )^{2}}{{{\it \sigma _\eta }}^{2}}}\right )}}. \end{equation}

Wszystkie parametry mają ciekawą interpretację geometryczną, którą można łatwo zrozumieć analizując powyższy wzór oraz wykres gęstości.

\(m_\xi = 10\), \(m_\eta = 20\), \(\sigma _\xi = 1\), \(\sigma _\eta = 2\), oraz \(\varrho := -0.7\).

(image)

(image)

(image)

Zmień \(\sigma _\xi \) Zmień \(\sigma _\eta \) Zmień \(\rho \)

Rachunek prawdopodobieństwa — Warunkowanie rozkladów normalnych

(image)

Rachunek prawdopodobieństwa 1, 2

19.3 Warunkowanie rozkładów normalnych

  • Twierdzenie – 19.7 Niech wektor losowy \(X\) ma rozkład normalny \(N_n(\mu , \Sigma )\), \(n = n_1+n_2\).

    \[ X = \left [\begin {array}{l} X_1\\ X_2 \end {array} \right ], \ \ \ \mu = \left [\begin {array}{l} \mu _1\\ \mu _2 \end {array} \right ], \ \ \ \‚\Sigma = \left [\begin {array}{ll} \Sigma _{11} & \Sigma _{12}\\ \Sigma _{21} & \Sigma _{22} \end {array} \right ]. \]

    Jeżeli macierz \(\Sigma _{22}\) jest nieosobliwa, to:

    • 1. Dla każdego \(x_2 \in \r ^{n_2}\) rozkład warunkowy \(P_{X_1|X_2 = x_2}\) jest rozkładem normalnym \(N_{n_1}(\mu ^\star ,\‚\Sigma ^\star )\), gdzie

      \[\mu ^\star = \mu _1 + \Sigma _{12}\Sigma _{22}^{-1}(y_2 - \mu _2), \ \ \ \ \Sigma ^\star = \Sigma _{11} - \Sigma _{12}\Sigma _{22}^{-1} \Sigma _{21}.\]

    • 2. \(E(X_1|X_2) = \mu _1 + \Sigma _{12}\Sigma _{22}^{-1}(X_2 - \mu _2)\).

Dowód. Ad 1. Zdefiniujmy wektor losowy:

\[ Y = X_1 - \Sigma _{12}\Sigma _{22}^{-1}X_2. \]

Zauważmy, że (ćwiczenie):

\[\left [\begin {array}{c} Y\\ X_2 \end {array} \right ] = \left [\begin {array}{cc} I & -\Sigma _{12}\Sigma _{22}^{-1}\\ 0 & I \end {array} \right ] \cdot \left [\begin {array}{l} X_1\\ X_2 \end {array} \right ], \]

więc na podstawie twierdzenia 18.5 wektor \(\left [\begin {array}{c} Y\\ X_2 \end {array} \right ]\) ma rozkład (ćwiczenie):

\[ N_n\left (\left [\begin {array}{c} \mu _1 - \Sigma _{12}\Sigma _{22}^{-1} \mu _2\\ \mu _2 \end {array} \right ], \left [\begin {array}{cc} \Sigma _{11} - \Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21} & 0 \\ 0 & \Sigma _{22} \end {array} \right ] \right ). \]

To oznacza, że wektory \(Y\) oraz \(X_2\) są niezależne, a także \(Y\) ma rozkład \(N_{n_1}(\mu _1 - \Sigma _{12}\Sigma _{22}^{-1} \mu _2, \Sigma _{11} - \Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21} ) \).

Z niezależności \(Y\) oraz \(X_2\) wynika, że \(P_{Y|X_2 = x_2} = P_Y\) dla dowolnego \(x_2\).

Ponieważ \(X_1 = Y + \Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}X_2\), więc gdy \(X_2 = x_2\), \(P_{X_1|X_2 = x_2}\) jest rozkładem wektora \(X_1 = Y + \Sigma _{12}\Sigma _{22}^{-1}\Sigma _{21}x_2\), co na mocy twierdzenia 18.5 oznacza tezę.

Ad 2. \(E(X_1|X_2 =x_2)\) jest nadzieją rozkładu \(P_{X_1|X_2 = x_2}\), więc z punktu 1 \(E(X_1|X_2 = x_2) = \mu ^\star = \mu _1 + \Sigma _{12}\Sigma _{22}^{-1}(x_2 - \mu _2)\).

A więc \(E(X_1|X_2) = \mu _1 + \Sigma _{12}\Sigma _{22}^{-1}(X_2 - \mu _2)\)  \(\Box \)

Rozkład normalny na płaszczyźnie c. d.

Przypominamy, że roozważamy wektor \(X = (\xi ,\eta )\) o rozkładzie \(N_2(\mu ,\Sigma )\), przy czym.

\begin{equation} \mu = \left [\begin{array}{l} m_\xi \\ m_\eta \end {array} \right ], \ \ \Sigma = \left [\begin{array}{cc} \sigma _\xi ^2 & \varrho \, \sigma _\xi \sigma _\eta \\ \varrho \, \sigma _\xi \sigma _\eta & \sigma _\eta ^2 \end {array} \right ], \end{equation}

Załóżmy, że \(|\varrho | < 1\). Wtedy \(X\) ma gęstość:

\begin{equation} f(x,y) = {\frac {1}{2\pi \,{\it \sigma _\xi }\,{\it \sigma _\eta }\,\sqrt {1-{\varrho }^{2}} }} {e^{ -\frac {1}{2(1 - \varrho ^2)}\left ({\frac {(x-{\it m_\xi })^{2}}{{{\it \sigma _\xi }}^{2}}}-2\,{\frac {\varrho \, (x-{\it m_\xi } )(y-{ \it m_\eta })}{{\it \sigma _\xi }\,{\it \sigma _\eta }}}+{\frac {(y- m_\eta )^{2}}{{{\it \sigma _\eta }}^{2}}}\right )}}. \end{equation}

Bezpośrednie znalezienie (przez całkowanie) gęstości rozkładów brzegowych i warunkowych nie jest oczywiste. Wiemy jednak z poprzednich twierdzeń, że:

Rozkłady brzegowe to:

\(\di P_\xi = N(m_\xi ,\sigma _\xi )\),

\(\di P_\eta = N(m_\eta ,\sigma _\eta )\)

(image)

Rozkłady warunkowe to:

\[\di P_{\eta |\xi =x} = N(m_\eta +\rho \frac {\s _\eta }{\s _\xi }(x-m_\xi ),\s _\xi ^2(1-\rho ^2)),\]

o ile \(\s _\xi > 0\),

\[\di P_{\xi |\eta =y} = N(m_\xi +\rho \frac {\s _\xi }{\s _\eta }(y-m_\eta ),\s _\eta ^2(1-\rho ^2)),\]

o ile \(\s _\eta > 0\).

(image)

Znamy też nadzieje warunkowe:

\(\di E(\eta |\xi =x ) = m_\eta +\varrho \frac {\sigma _\eta }{\sigma _\xi }(x - m_\xi )\),

\(\di E(\xi |\eta = y) = m_\xi +\varrho \frac {\sigma _\xi }{\sigma _\eta }(y - m_\eta )\).

Więc;

\(\di E(\eta |\xi ) = m_\eta +\varrho \frac {\sigma _\eta }{\sigma _\xi }(\xi - m_\xi )\), o ile \(\sigma _\xi > 0\),

\(\di E(\xi |\eta ) = m_\xi +\varrho \frac {\sigma _\xi }{\sigma _\eta }(\eta - m_\eta )\), o ile \(\sigma _\eta > 0\).

Zauważmy, że znamy rozkłady tych zmiennych losowych. Mianowicie:

\(\di E(\eta |\xi ) \sim N(m_\eta ,|\varrho |\s _\eta )\), \(\di E(\xi |\eta ) \sim N(m_\xi ,|\varrho |\s _\xi )\).

Inaczej. Przy powyższych założeniach:

\(E(\eta |\xi ) = h(\xi )\), gdzie \(\di h(x) = m_\eta +\varrho \frac {\sigma _\eta }{\sigma _\xi }(x - m_\xi )\),

\(E(\xi |\eta ) = g(\eta )\), gdzie \(\di g(y) = m_\xi +\varrho \frac {\sigma _\xi }{\sigma _\eta }(y - m_\eta )\).

\(h\), \(g\) nazywane są funkcjami regresji. Ich wykresami są proste. W następnym punkcie omówimy problem regresji wyjaśniając podstawowe znaczenie funkcji regresji.

  • Przykład – 19.8 Zinterpretujemy geometrycznie funkcje regresji

    \(\di h(x) = m_\eta +\varrho \frac {\sigma _\eta }{\sigma _\xi }(x - m_\xi )\), \(\di g(y) = m_\xi +\varrho \frac {\sigma _\xi }{\sigma _\eta }(y - m_\eta )\).
    dla rozkładu normalnego o parametrach

    \(m_\xi = 30\), \(m_\eta = 20\), \(\sigma _\xi = 2\), \(\sigma _\eta = 1\),

(image)
\(\varrho := -0.1\)

(image)
\(\varrho := 0.8\)

  • Przykład – 19.9 Znaleźć \(E(2X + Y|X+Y-2Z)\), gdzie \(X\), \(Y\), \(Z\) są niezależnymi zmiennymi losowymi o rozkładzie \(N(0,1)\) każda.

    Wektor \(\left [ \begin {array}{c}X \\ Y \\ Z \end {array}\right ] \) ma rozkład \(N_3\left ( \left [ \begin {array}{c}0 \\ 0 \\ 0 \end {array}\right ] , \left [ \begin {array}{ccc}1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end {array}\right ] \right )\).

    Znajdujemy najpierw rozkład wektora losowego \(\left [ \begin {array}{c}2X + Y\\ X+Y - 2Z \end {array}\right ] \). Znając jego parametry \(\mu \) oraz \(\Sigma \) stosujemy twierdzenie 19.7. Mamy:

    \[ \left [ \begin {array}{c}2X + Y\\ X+Y - 2Z \end {array}\right ] = A \left [ \begin {array}{c}X \\ Y\\ Z \end {array}\right ],\]

    gdzie \(A = \left [ \begin {array}{ccc}2 & 1 & 0\\ 1& 1& -2 \end {array}\right ]. \)

    \(\mu = \left [ \begin {array}{c}0 \\ 0 \\ 0 \end {array}\right ] \), \(\Sigma = AI_3A^T = \left [ \begin {array}{ccc}2 & 1 & 0\\ 1& 1& -2 \end {array}\right ] \left [ \begin {array}{cc}2 & 1 \\ 1 & 1 \\ 0 & -2 \end {array}\right ] = \left [ \begin {array}{cc} 5 & 3 \\ 3 & 6 \end {array}\right ] \).

    \(E(2X + Y|X+Y-2Z) = 0 + 3\frac 16 (X+Y-2Z - 0) = \frac 12 (X+Y-2Z )\).

Rachunek prawdopodobieństwa — Wnioskowanie bayesowskie.

(image)

Rachunek prawdopodobieństwa 1, 2

19.4 Wnioskowanie bayesowskie.

Podamy przykład typowej sytuacji, w której mamy do czynienia z warunkowaniem.

  • Przykład – 19.10 Analityk pracujący dla partii ABC ma określić przedział, w którym zawiera się średnie poparcie dla tej partii. W momencie przystąpienia do pracy dostał wiadomość, że różne sondaże i inne badania wskazują, że zawiera się ono mniej więcej w przedziale od 20% do 25%. Otrzymał także nowe wyniki: na 1070 ankietowanych osób 199 opowiedziało się za partią ABC. Jak analityk powinien wykorzystać obydwie otrzymane informacje, aby rozwiązać postawione przed nim zadanie?

    Na podstawie otrzymanych za pomocą sondażu wielkości łatwo, korzystając z CTG, estymować wartość oczekiwaną oraz jej przedział ufności. Mamy: \(\hat {m} = x = 199/1070 = 0.18598\), \(s = \sqrt {x(1-x)/1070} = 0.011895\) estymuje odchylenie standardowe \(\sigma \), więc przedział ufności na poziomie ufności 0.95 = \([\hat {m} -1.96s, \hat {m} +1.96s] = [0.162674, 0.20930]\). Aby jednak wykorzystać całą dostępną informacje analityk stosuje tak zwane:

    Podejście bayesowskie Poparcie (frakcja osób popierających) dla partii ABC jest zmienną losową \(X\) o rozkładzie \(N(M,\sigma )\), przy czym analityk zakłada, że parametr \(M\) też jest zmienną losową o rozkładzie \(N(m_0,\sigma _0)\), gdzie parametry \(m_0\), \(\s _0\) są ustalone na podstawie wstępnych informacji (a priori). Szukamy rozkładu łącznego wektora losowego \((M,X)\), a następnie rozkład warunkowy \(P_{M|X=x}\), co następnie pozwoli mu wykonać zadanie.

    Na podstawie wstępnej informacji ustalmy parametry rozkładu \(N(m_0,\sigma _0)\). Przyjmujemy \(m_0 = 0.225\), \(\sigma _0 = 0.0225/1.96 = 0.01276\). Rozkład ten nazywamy rozkładem a priori parametru \(M\), a przedział \([0.2, 0.25] = [m_0 - 1.96\sigma _0, m_0 + 1.96\sigma _0] \) przedziałem ufności a priori.

    Wyznaczamy kolejno:

    \[ f_{(M,X)}(m,x) = f_{X|M=m}(x) \cdot f_M(m) = \frac {1}{\sqrt {2\pi }\s }e^{-\frac 12 (\frac {x-m}{\s })^2} \frac {1}{\sqrt {2\pi }\s _0}e^{-\frac 12 (\frac {m-m_0}{\s _0})^2} \]

    \[ f_X(x) = \int _\r f_{(M,X)}(m,x)\,dm, \]

    \[f_{M|X=x}(m) = \frac {f_{(M,X)}(m,x)}{f_X(x)} = \frac {1}{\sqrt {2\pi }\s _1}e^{-\frac 12 (\frac {m-m_1}{\s _1})^2}, \]

    gdzie (ćwiczenie)

    \[ m_1 = \frac {m_0\sigma ^2 + \sigma _0^2x}{\sigma ^2+\sigma _0^2}, \ \ \sigma _1 = \sqrt {\frac {\sigma \sigma _0}{\sigma ^2+\sigma _0^2}}. \]

    Otrzymujemy wartości: \(m_1 = 0.20413\), \(\sigma _1 = 0.00870\).

    Znamy więc dokładnie rozkład \(P_{M|X=x}\). Nazywamy go rozkładem a posteriori parametru \(M\). Ponieważ wiemy, że \(X=x\), to \(M\) – średnie poparcie dla partii \(ABC\) – zawiera się z prawdopodobieństwem \(0.95\) w przedziale \([m_1 - 1.96\s _1,m_1 + 1.96\s _1]\) \(= [0.18708, 0.22118]\). Jest on nazywany a posteriori przedziałem ufności lub bayesowskim przedziałem ufności.

    Zauważmy, że przedział a posteriori jest znacznie węższy niż przedział a priori oraz węższy niż tradycyjny przedział ufności. Jego środek jest średnią ważoną średniej \(m_1\) oraz \(x\).

    (image)
    Gęstość rozkładu \(M\): a priori oraz a posteriori

Rachunek prawdopodobieństwa — Liczby pseudo-losowe z rozkladu normalnego

(image)

Rachunek prawdopodobieństwa 1, 2

19.5 Liczby pseudo-losowe z rozkładu normalnego

W wielu sytuacjach używamy liczb pseudo-losowych z rozkładu normalnego jedno i wielowymiarowego. Jak wiemy już, przykład 12.4, w przypadku rozkładu ciągłego, a takim rozkładem jest \(N(m,\s )\) można je otrzymywać generując liczby pseudo-losowe \(u_1,u_2,u_3,...\) z rozkładu \(U(0,1)\) i biorąc \(\Phi _{m,\s }^{-1}(u_1), \Phi _{m,\s }^{-1}(u_2), \Phi _{m,\s }^{-1}(u_3),...\). Można też brać liczny \(z_i = \Phi ^{-1}(u_i)\) z rozkładu \(N(0,1)\) oraz \(x_i = m + \s z_i\), \(i = 1,2,3, ...\). Obydwa sposoby wymagają jednak wyznaczania wartości \(\Phi ^{-1}\), co jest numerycznie dość uciążliwym zadaniem. Istnieją jednak szybsze metody. Opiszemy jedną z nich.

Metoda Boxa-Mullera

Losujemy niezależnie od siebie dwie liczby \(u_1\), \(u_2\) z rozkładu \(U(0,1)\) i obliczamy

\[z_1 = \sqrt { -2\ln u_1}\cos (2\pi u_2), \ \ z_2 = \sqrt { -2\ln u_1}\sin (2\pi u_2).\]

Liczby \(z_1, z_2\) reprezentują dwie niezależne zmienne losowe o rozkładach \(N(0,1)\).

Niech \(Z = h(g(U))\), przy czym \(P_U = U([0,1]^2)\) (więc \(f_U = I_{[0,1]^2}\)) oraz określamy \(g(u_1,u_2) = (\sqrt {- 2 \ln u_1}, 2\pi u_2)\), \(h(r,\theta ) = (r\cos \theta , r \sin \theta )\).

Mamy kolejno:

\[f_{g(U)}(w) = |Jac_w g^{-1}|f_U(g^{-1}(w)) = \frac {1}{2\pi }e^{-\frac 12 w_1^2 }w_1, \ \ w_1 > 0, \ 0 <w_2 < 2\pi .\]

\[f_Z(z) = f_{h(g(U))}(z) = |Jac_z h^{-1}|f_{g(U)}(h^{-1}(z)) = \frac {1}{\sqrt {z_1^2+z_2^2}} \frac {1}{2\pi }e^{-\frac 12 (z_1^2+z_2^2) }\sqrt {z_1^2+z_2^2}.\]

\[ f_Z(z) = \frac {1}{2\pi }e^{-\frac 12 (z_1^2+z_2^2) }. \]

\(X\) ma więc rozkład \(N_2(0,I_2)\), gdzie \(I_2\) jest macierzą identycznościową. Więc \(Z_1\) oraz \(Z_2\) są niezależne i mają rozkłady normalne \(N(0,1)\).   \(\Box \)

Mając do dyspozycji ciąg o długości \(d\) liczb pseudo-losowych \(z_1,...,z_d\) z rozkładu \(N(0,1)\) wiemy, że stanowi on wektor pseudo-losowy \(z\) z rozkładu \(N_d(0,I_d)\). Wtedy też \(x = \mu +\Sigma ^{\frac 12}z\) jest wektorem pseudo-losowym z rozkładu \(N_d(\mu ,\Sigma )\).

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

19.6 Pytania

  • Pytanie 19.1 Czy można tak dobrać stałą \(c\), że funkcja \(f\): \(f(x,y) = ce^{-2^2 - 3y^2 + 2x}\) jest gęstością rozkładu normalnego? Uzasadnij.

Wskazówka. Tak. Dla \(\di c = \frac {1}{\int _{\r ^2}f(x,y)\,d(x,y)}\) (jest dodatnia) \(f\) jest gęstością pewnego rozkładu \(Q\). Obliczamy \(\di M_Q(t) = e^{\frac {1}{2}t_1 + \frac 18 t_1^2 + \frac {1}{12}t_2^2}\). Widać, że jest to funkcja tworząca momenty rozkładu normalnego o parametrach \(\di \mu = \left [\begin {array}{c} 1/2 \\ 0 \end {array}\right ]\), \(\Sigma = \left [\begin {array}{cc} 1/8 & 0 \\ 0 & 1/12\end {array}\right ]\). Warto użyć Maple.

  • Pytanie 19.2 Wektor losowy o współrzędnych \(S\), \(T\) ma rozkład jednostajny na kwadracie \([0,1]^2\).

    (1) Wskaż dwoma sposobami nadzieję matematyczną oraz macierz kowariancji wektora o współrzędnych \(S+T\), \(S-T\).

    (2) Czy zmienne losowe \(S+T\), \(S-T\) są niezależne?

Wskazówka. Ad (1) Sposób 1. Poprzez Twierdzenie 11.20 otrzymujemy gęstość wektora o współrzędnych \(S+T\), \(S-T\) (rozkład jednostajny na kwadracie \((0,0), (1,-1), (2,0), (1,1)\)) i całkując wyznaczamy wszystkie parametry.

Sposób 2. Twierdzenie 11.5 – dużo szybszy.

\[ \mu = \left [\begin {array}{c} 0 \\ 0 \end {array}\right ], \ \ \ \Sigma = \left [\begin {array}{cc} \frac 16 & 0 \\ 0 & \frac 16 \end {array}\right ]. \]

Sposób 3 (na siłę). Można bezpośrednio wyliczyć sześć powyższych cg parametrów.

Sposób 4. Wyznaczając funkcje generujące momenty.

\[ \mu = \left [\begin {array}{c} 1 \\ 0 \end {array}\right ], \ \ \ \Sigma = \left [\begin {array}{cc} \frac 16 & 0 \\ 0 & \frac 16 \end {array}\right ]. \]

Ad. (2) Są zależne. \(\{S+T > 1.5\}\) oraz \(\{S-T < 0.5\}\) są rozłączne i mają dodatnie prawdopodobieństwa.

  • Pytanie 19.3 Wskaż rozkład wektora \((X,Y)\) oraz rozkład warunkowy \(P_{X|Y=y}\), gdy wiemy, że \(P_X = N(m,\s )\) oraz \(P_{Y|X=x} = N(x,\s _x)\), gdzie \(m\), \(\s > 0\), \(\s _x > 0\) są znane.

Wskazówka. Jest to w istocie Przykład 11.26 z innymi oznaczeniami.

\[ P_{\left [\begin {array}{c} X \\ Y \end {array}\right ]} = M_2\left (\left [\begin {array}{c} m \\ m \end {array}\right ], \left [\begin {array}{cc} \sigma ^2 & \sigma ^2 \\ \sigma ^2 & \sigma ^2 +\sigma _x^2 \end {array}\right ]\right ), \]

\[ P_{X|Y=y} = N\left (\frac {m\s _x^2 + y \s ^2}{\s ^2+\s _x^2},\ \frac {\s _x \s }{\sqrt {\s ^2+\s _x^2}} \right ). \]

  • Pytanie 19.4 Wektor losowy \(Y\) ma rozkład normalny \(N_n(\s I_n)\), gdzie \(\s > 0\) jest dane, a \(I_n\) jest macierzą identycznościową. Wykaż, że wektor \(W = AY\) ma też rozkład \(N_n(m,\s I_n)\), gdy \(A\) jest macierzą izometrii.

Wskazówka. Jako macierz izometrii \(A\) spełnia warunek \(AA^T = I_n\).

  • Pytanie 19.5 Niech wektor \(X\) o współrzędnych \(\xi ,\eta \) ma rozkład ciągły normalny. Wykaż, że proste regresji są prostopadłe, wtedy i tylko wtedy, gdy \(\xi \), \(\eta \) są niezależne.

Wskazówka. Po rozpisaniu równań prostych regresji \(y = h(x)\), \(x = g(y)\) otrzymujemy wzór na iloczyn skalarny wektorów do nich prostopadłych: \((\s _{\xi }^2+\s _{\eta }^2)\varrho \), co kończy dowód, gdyż obydwa wtunko są równoważne warunkowi \(\varrho = 0\).

  • Pytanie 19.6 Znaleźć \(E(X + Y +Z|X - 2Y)\), gdzie \(X\), \(Y\), \(Z\) są niezależnymi zmiennymi losowymi o rozkładzie \(N(m,1)\) każda, \(m \in \r \).

Wskazówka. \(E(X + Y +Z|X - 2Y) = E(X + Y|X - 2Y) + E(Z|X - 2Y)\). Z niezależności drugi składnik \(= E(Z) = m\). Wyznaczamy pierwszy składnik.

Wektor \(\left [ \begin {array}{c}X \\ Y \end {array}\right ] \) ma rozkład \(N_3\left ( \left [ \begin {array}{c}m \\ m \end {array}\right ] , \left [ \begin {array}{cc}1 & 0 \\ 0 & 1 \end {array}\right ] \right )\).

Wektor losowy \(\left [ \begin {array}{c}X + Y\\ X -2Y \end {array}\right ] = A\left [ \begin {array}{c}X \\ Y\end {array}\right ]\), gdzie \(A = \left [ \begin {array}{cc}1 & 1\\ 1& -2 \end {array}\right ]. \) Mamy więc:

\(\mu = A\left [ \begin {array}{c}m \\ m \end {array}\right ] \left [ \begin {array}{c}2m \\ -m \end {array}\right ] , \ \ \ \Sigma = AI_2A^T = \left [ \begin {array}{cc}1 & 1\\ 1& -2 \end {array}\right ] \left [ \begin {array}{cc}1 & 1 \\ 1 & -2 \end {array}\right ] = \left [ \begin {array}{cc} 2 & -1 \\ -1 & 5 \end {array}\right ] \).

Zgodnie z Twierdzeniem 19.7:

\(E(X + Y|X-2Y) = 2m + \frac 15 (X-2Y +m) \).

W końcu: \(E(X + Y+Z|X-2Y) = \frac {14}{5}m -\frac 15 (X-2Y) \).

Rachunek prawdopodobieństwa — Regresja

(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 20 Regresja

Problem regresji pojawia się w różnych kontekstach i ma różne interpretacje i sposoby rozwiązywania. Ogólnie rzecz biorąc można niezbyt formalnie powiedzieć, że mając dwie wielkości, powiedzmy \(x\) oraz \(y\) zależne od wspólnego parametru chcemy ustalić czy i jak bardzo \(y\) zależy od \(x\). Inaczej, czy istnieje taka funkcja \(h\), że \(y \cong h(x)\), przy czym przybliżenie \(y\) za pomocą \(h(x)\) powinno być możliwie jak najlepsze. Czasami też żądamy, aby sama funkcja \(h\) była możliwie prosta, na przykład, aby była liniowa, wykładnicza, lub innej wygodnej dla nas postaci. Poniżej sformułujemy i rozwiążemy problem regresji w przypadku, gdy wielkości \(x\) ora \(y\) mają charakter losowy.

20.1 Ogólny problem regresji

Niech \(X\) będzie \(k\)-wymiarowym wektorem losowym, \(Y\) zmienną losową określoną na tej samej przestrzeni probabilistycznej (Ω, Σ, P ) . Chcemy wskazać funkcję \(h : \r ^k \to \r \), taką, że:

\begin{equation} Y = h(X) + \ve , \end{equation}

gdzie \(\ve \) jest „możliwie małe".

Taka funkcja \(h\) nazywana jest funkcją regresji \(Y\) względem \(X\).

Frazę „możliwie małe"można rozumieć na różne sposoby. Bardzo często żąda się, żeby \(E(\ve ) = 0\) oraz żeby wielkość \(E^2(\ve ) = D^2(\ve )\) byłą najmniejsza. Problem polega więc na wskazaniu takiej funkcji \(h : \r ^k \to \r \), że \(E((Y - h(X))^2)\) osiąga możliwie najmniejszą wartość. Zadanie to ma rozwiązanie przy całkiem naturalnych założeniach.

Poszukiwanie funkcji regresji w oparciu o powyższe kryterium jest dość ogólną wersją tak zwanej metody najmniejszych kwadratów. Mniej ogólną wersję poznamy później przy omawianiu problemu regresji liniowej.

  • Twierdzenie – 20.1 Przy powyższych oznaczeniach załóżmy, że \(E(Y^2) < \infty \). Niech

    \[ h(x) = E(Y|X=x), \mbox { dla }x \in \r ^k. \]

    Wtedy dla każdej funkcji borelowskiej \(g:\r ^k \to \r \), takiej, że \(\int _{\r ^k}g^2\,dP_X < \infty \)

    \[ E((Y - h(X))^2) \le E((Y - g(X))^2). \]

Twierdzenie to jest prostym wnioskiem z twierdzenia 20.7, które będzie wykazane w następnym punkcie.

W kilku przykładach wyznaczaliśmy już nadzieje warunkowe. Przykłady te znajdują teraz dodatkową interpretację, gdyż bez trudu możemy wypisać w każdym z nich funkcję regresji. Przypomnijmy tylko, strona (página for seção 13.3), że nadzieja warunkowa \(E(Y|X=x)\), a więc i funkcja regresji, jest jednoznacznie określona jedynie w punktach \(x\), które mogą być przyjęte przez zmienną \(X\).

W przykładzie 13.1 funkcja regresji \(Y\) względem \(X\) przyjmuje istotne wartości w trzech punktach: \(h(0) = \frac 72\), \(h(1) = \frac {14}{3}\), \(h(2) = \frac {14}{3}\). Natomiast funkcja regresji \(X\) względem \(Y\) przyjmuje istotne wartości w sześciu punktach, np. \(h(1) = 0\), \(h(4) = \frac {10}{7}\)

W przykładzie 13.2 funkcja regresji \(Y\) względem \(X\) jest okreśłona jako \(h(x) = \frac {x}{2}\) dla \(0 < x< 1\), natomiast funkcja regresji \(X\) względem \(Y\) jest dana jako \(h(y) = \frac {1-y}{- \ln y}.\) dla \(0 < y < 1\).

W przykładzie 14.2 funkcja regresji \(Y\) względem \(X\) jest dana jako \(h(0) = 0\), \(h(1) = \frac 72\), \(h(2) = 7\).

W przykładzie 14.9 funkcja regresji \(Y\) względem wektora \((X,Z)^T\) określona jest wzorem:

\[ h(x, z) = \left \{\begin {array}{ll} \frac {x}{2} & \mbox { dla } 0 < x< 1, z = 0\\[2mm] \frac {x+1}{2} & \mbox { dla } 0<x<1, z = 1 \end {array} \right . \]

Podamy kilka dalszych przykładów funkcji regresji.

  • Przykład – 20.2 Ten dość trywialny przykład uwypukla znaczenie warunkowania dla problemu regresji. Niech \(X\) będzie wektorem losowym, \(Y\) zmienną losową, \(E(Y) \in \r \). Załóżmy, że istnieje taka funkcja borekowska \(h\), że \(Y = h(X)\). Wtedy oczywiście \(h\) jest funkcją regresji. Ale z powyższego twierdzenia wynika, że \(E(Y|X) = E(h(X)|X) = h(X)\). Ta ostatnia równość jest Własnością 3 w twierdzeniu 13.26.

  • Przykład – 20.3 Niech \((X,Y)\) będzie wektorem losowym o rozkładzie jednostajnym na półkolu \(x^2+y^2 \le 1, y \ge 0\). Wtedy dla każdego \(x \in [-1,1]\) rozkład warunkowy \(P_{Y|X=x}\) jest rozkładem jednostajnym na odcinku \((0,\sqrt {1 - x^2})\) (ćwiczenie), więc \(E(Y|X=x) = \frac {1}{2}\sqrt {1 - x^2}\). Funkcja \(h(x) = \frac {1}{2}\sqrt {1 - x^2}\) dla \(|x| < 1\) oraz \(h(x) = 0\) dla \(|x| \ge 1\).

(image)

Następne wykresy mogą pomóc wyobrazić sobie przebieg funkcji regresji dla różnych rozkładów ciągłych.

(image)

(image)

(image)

(image)

Jak widzimy w niektórych sytuacjach funkcja regresji jest funkcją afiniczną. Tak zawsze jest w przypadku rozkładów normalnych. Możemy mianowicie przeformułować twierdzenie 19.7,3,

  • Twierdzenie – 20.4 Niech \(\left [\begin {array}{c} X \\ Y \end {array} \right ]\) ma rozkład normalny, \(\Sigma _X > 0\). Wtedy funkcja regresji, \(h\), jest funkcją afiniczną.

    \[ h(x) = E(Y|X = x) = \mu _Y + \Sigma _{YX}\Sigma _{X}^{-1}(X - \mu _X). \]

Tak więc nazwa „funkcja regresji"użyta w przypadku rozkładu normalnego na płaszczyźnie okazuje się szczególnym przypadkiem ogólnej definicji.

Rachunek prawdopodobieństwa — Nadzieja warunkowa jako rzutowanie

(image)

Rachunek prawdopodobieństwa 1, 2

20.2 Nadzieja warunkowa jako rzutowanie

Niech \((\Omega ,\Sigma ,P)\) będzie przestrzenią probabilistyczną. W zbiorze zmiennych losowych \(\Omega \to \r \) wprowadzamy relację równoważności utożsamiającą \(X\) i \(Y\), gdy \(P(X=Y) = 1\). Pisząc \(X\) rozumiemy klasę równoważności \(X\). Niech \(\a \subset \Sigma \) będzie \(\s \)-algebrą. Definiujemy

\[\h _{\a } = L^2(\Omega , \a ,P) = \{X: X \mbox { jest } \a \mbox {-mieralne, } E(X^2) < \infty \}.\]

Oznaczamy, \(\h = \h _{\Sigma }\).

Każdy zbiór \(\h _{\a }\) wraz z dodawaniem i mnożeniem przez liczby jest przestrzenią wektorową. Wynika to natychmiast z elementarnej nierówności \((x+y)^2 \le 2(x^2+y^2)\). Faktycznie \(\h _{\a }\) jest podprzestrzenią wektorową \(\h \).

Definiujemy iloczyn skalarny na H wzorem:

\[ \f (X,Y) = E(X\cdot Y). \]

Iloczyn skalarny dyktuje normę na \(\h \) w standardowy sposób:

\[ \|X\| = \sqrt {\f (X,X)} \]

oraz metrykę \(d\):

\[ d(X,Y) = \|X - Y\|. \]

Dowodzi się, że dla każdej \(\s \)-algebry A przestrzeń \(\h _{\a }\) wraz z metryką \(d\) jest przestrzenią zupełną, to znaczy \(\h _{\a }\) jest tak zwaną przestrzenią Hilberta. W szczególności \(\h _{\a }\) jest zbiorem domkniętym w \(\h \).

Należy wspomnieć, że można mówić o zbieżności zwanej zbieżnością średnio kwadratową i oznaczaną \(\stackrel {L^2}{\to }\). W szczególności: \(X_n \stackrel {L^2}{\to } X \rwn E((X_n -X)^2) \to 0\), dla \(n \to \infty \).

Określa się prostopadłość wektorów: \(X\perp Y \rwn \ \f (X,Y) = 0\). Dla każdej podprzestrzeni wektorowej domkniętej \({\cal G} \subset \h \) określa się zbiór

\[{\cal G}^\perp = \{X \in \h : \forall \, Y \in {\cal G} \ \ X\perp Y \}.\]

Dowodzi się, że \(\h = {\cal G} \oplus {\cal G}^\perp \). Przez \(P_{\cal G}\) oznaczamy rzutowanie prostopadłe na \(\cal G\).

Mamy więc: dla każdego \(Y \in \h \):

\[Y = P_{\cal G}Y + P_{{\cal G}^\perp } Y, \ \ \ \|Y\|^2 = \|P_{\cal G}Y\|^2 + \|P_{{\cal G}^\perp } Y\|^2. \]

Przypominamy, że odległość \(Y\) od \(\cal G\) określa się następująco:

\[\di d(Y,{\cal G}) \stackrel {def}{=} \inf \{\|Y - Z\|: Z \in {\cal G}\}.\]

Korzystając w twierdzenia Pitagorasa w formie:

\[ \|Y-Z\|^2 = \|Z - P_{\cal G}Y\|^2 + \|P_{{\cal G}\perp } Y\|^2, \mbox { dla } Y \in \h , \ Z \in {\cal G}. \]

widzimy, że wektor \(P_{\cal G}Y\) realizuje odległość \(Y\) od \(\cal G\), która wynosi \(\|P_{{\cal G}\perp } Y\|\).

  • Twierdzenie – 20.5 Niech \(\a \subset \Sigma \) będzie \(\s \)-algebrą. Niech \(\pi = P_{\h _{\a }}\) będzie rzutowaniem prostopadłym na \(\h _{\a }\).Wtedy dla każdego \(Y \in \h \):

    \[ E(Y|\a ) = \pi Y, \ \ \ \ \ D^2(Y) = D^2(E(Y|\a )) + E((Y - E(Y|\a ))^2). \]

Dowód. Wiemy już, że \(\h _{\a }\) jest podprzestrzenią wektorową domkniętą.

Dla \(Y \in \h \) \(\pi Y\), z definicji \(\pi \), jest zmienną losową \(\a \)-mierzalną.

Dla dowolnego zbioru \(A \in \a \) funkcja charakterystyczna \(I_A \in \h _{\a }\), więc otrzymujemy \(\f (Y - \pi Y, I_A) = 0.\) Inaczej:

\(0 = E((Y-\pi Y) \cdot I_A) = \di \int _\Omega (Y-\pi Y) \cdot I_A \,dP = \) \(\di \int _A Y- \pi Y \,dP\) = \(\di \int _A Y\,dP - \int _A \pi Y\,dP\).

Czyli \(\pi Y\) spełnia warunek: \(\di \int _A Y\,dP = \int _A \pi Y \,dP\). Są więc spełnione warunki (C) i (M) w definicji nadziei warunkowej, definicja 13.12, Z jednoznaczności nadziei warunkowej otrzymujemy pierwszą żądaną równość.

Dla dowodu drugiej równości zauważmy, że:

\[ D^2(Y) = E(Y^2) - E(Y)^2 = \|Y\|^2 - E(Y)^2 = \|\pi Y\|^2 + \|Y - \pi Y\|^2 - E(Y)^2 = \]

\[ E(E(Y|\a )^2) - E(E(Y|\a ))^2 + E((Y - E(Y|\a ))^2) = \]

\[ D^2(E(Y|\a )) + E((Y - E(Y|\a ))^2). \ \ \ \‚\]

  

  • Uwaga – 20.6 Powyższe twierdzenie wzmacnia twierdzenie 14.11 o obniżaniu wariancji. Dodatkowo mówi nam jak duża jest różnica między wariancjami przed i po warunkowaniu. Różnica ta wynosi \(E((Y - E(Y|\a ))^2) \), co można także zapisać jako \(D^2(Y - E(Y|\a ))\).

Przy warunkowaniu różnica wariancji równa jest wariancji różnicy.

Ustalmy teraz wektor losowy \(X: \Omega \to \r ^k\). Na podstawie twierdzenia 13.19

\[\h _{\s (X)} = \{Z : \Omega \to \r : Z = \alpha (X), \alpha : \r ^k \to \r \mbox { jest borelowskie, } \int _{\r ^k}\alpha ^2\,dP_X < \infty \}. \]

Jako wniosek z twierdzenia 20.5 otrzymujemy:

  • Twierdzenie – 20.7 Dla dowolnego wektora losowego \(X: \Omega \to \r ^k\) oraz zmiennej losowej \(Y: \Omega \to \r \) takiej, że \(E(Y^2) < \infty \) odwzorowanie:

    \[ L^2(\r ^k,{\cal B}(\r ^k),P_X) \ni \alpha \to E((Y - \alpha (X))^2) \in \r \]

    przyjmuje wartość najmniejszą gdy \(\alpha (x) = E(Y|X=x)\).

Jest to równoważne sformułowanie twierdzenia 20.1.

Rachunek prawdopodobieństwa — Regresja liniowa

(image)

Rachunek prawdopodobieństwa 1, 2

20.3 Regresja liniowa

W pewnych przypadkach zamiast ogólnego problemu regresji rozpatruje się zagadnienie, w którym na funkcję regresji nakłada się dodatkowe ograniczenia. Takie podejście może być podyktowane różnymi względami. Jednym z nich może być trudność w analitycznym (lub nawet numerycznym) wyznaczeniu funkcji regresji. Czasem, funkcja regresji jest jednoznacznie wyznaczona tylko w skończonej liczbie punktów: – tak jest w przypadku rozkładów dyskretnych na zbiorze skończonym – co niekiedy utrudnia jej interpretację. Poniżej omawiamy problem regresji liniowej.

Niech \(X\) będzie \(k\)-wymiarowym wektorem losowym, \(Y\) zmienną losową określoną na tej samej przestrzeni probabilistycznej (Ω, Σ, P ) , \(E(Y^2) < \infty \). Chcemy wskazać funkcję afiniczną \(h : \r ^k \to \r \), taką, że:

\begin{equation} Y = h(X) + \ve , \end{equation}

gdzie \(\ve \) jest możliwie małe. \(h\) – funkcja regresji liniowej \(Y\) względem \(X\).

Zauważmy, że w przypadku, gdy wektor \((X,Y)^T\) ma rozkład normalny powyższy problem jest tożsamy z ogólnym problemem regresji. W niektórych innych przypadkach też tak się może zdarzyć.

Jak jednak wskazują poznane dotychczas przykłady, nie zawsze tak jest.

Aby rozpatrzyć przypadek regresji liniowej dla dowolnych rozkładów skoncentrujemy się na sytuacji dwuwymiarowej. Niech \(\xi \), \(\eta \) będą zmiennymi losowymi. Często wiemy, że zmienne \(\xi \), \(\eta \) są mocno skorelowane to znaczy ich współczynnik korelacji \(\varrho \) jest na moduł bliski \(1\), ich wspólny rozkład \(P_{(\xi ,\eta )}\) może być skupiony na zbiorze leżącym blisko pewnej prostej. Powstaje wtedy problem znalezienia tej prostej. Nawet, gdy \(\varrho \) jest bliski zeru, poszukiwanie takiej prostej ma pewien sens. Jeżeli jest to prosta o równaniu \(y =ax +b\), możemy napisać:

\[ \eta = a \xi + b + \ve , \]

gdzie \(\ve \) jest zmienną losową reprezentującą popełniany błąd.Funkcją regresji liniowej jest funkcja \(h\), \(h(x) = ax + b\) dla \(x \in \r \). Powyższą prostą nazywa się prostą regresji liniowej.

Współczynniki \(a\) oraz \(b\) znajdziemy elementarną metodą najmniejszych kwadratów zastosowaną już w przypadku ogólnym.

Metoda najmniejszych kwadratów. Szukamy takich \(a\), \(b\), że wielkość

\[ E((\eta - (a\xi +b))^2). \]

jest najmniejsza.

  • Twierdzenie – 20.8 Załóżmy, że wariancje zmiennych \(\xi \) oraz \(\eta \) istnieją oraz \(\sigma ^2_\xi > 0\). Wtedy istnieje dokładnie jedna para liczb \(a,\ b\) taka, że funkcja \(E((\eta - (a\xi +b))^2)\) ma w punkcie \(a, \ b\) wartość najmniejszą. Wielkości te wynoszą:

    \begin{equation} a= \varrho \frac {\sigma _\eta }{\sigma _\xi },\ \ \ \ \ \ b = m_\eta - \frac {\varrho \sigma _\eta m_\xi }{\sigma _\xi }. \label {eq:regrl3} \end{equation}

Dowód. Oznaczmy:

\[ f(a,b) = E((\eta - (a\xi +b))^2). \]

Skorzystamy z warunku koniecznego na ekstremum powyższej funkcji dwóch zmiennych. Policzymy w tym celu pochodne cząstkowe funkcji \(f\) i znajdziemy punkt, w którym są one równe \(0\).

\[ \frac {\partial f}{\partial a} = E\left (\frac {\partial }{\partial a}(\eta - a \xi - b)^2 \right ) = E((2(\eta - a \xi - b)(-\xi )) \]

\[ =- 2 E(\xi \eta ) + 2 E(\xi ^2) a + 2 E(\xi ) b. \]

\[ \frac {\partial f}{\partial b} = E\left (\frac {\partial }{\partial b}(\eta - a \xi - b)^2 \right ) = E((2(\eta - a \xi - b)(-1)) \]

\[ = -2 E(\eta ) +2 E(\xi ) a + 2b. \]

Mamy więc układ równań liniowych ze względu na \(a,\ b\):

\[ \left \{\begin {array}{lll} E(\xi ^2)a + E(\xi ) b& = & E(\xi \eta )\\ E(\xi ) a + b &= & E(\eta ) \end {array} \right . \]

Wyznacznik tego układu wynosi \(E(\xi ^2) - E(\xi )^2\), która to wielkość jest wariancją \(\sigma _\xi ^2\). Z założenia jest ona różna od \(0\), a więc nasz układ ma dokładnie jedno rozwiązanie.

Wyraża się ono właśnie wzorami (20.3) (ćwiczenie).

Dla kompletności dowodu trzeba uzasadnić, że funkcja \(f\) jest rzeczywiście różniczkowalna, że można „wchodzićź pochodną pod znak nadziei matematycznej oraz że w wyliczonym punkcie \((a,b)\) funkcja \(f\) osiąga wartość najmniejszą. Dwa pierwsze punkty wynikają z ogólnych twierdzeń o różniczkowaniu pod znakiem całki. Trzeci punkt może być uzasadniony na różne sposoby – na przykład za pomocą standardowego warunku wystarczającego na ekstremum (ćwiczenie).   

Prosta regresji ma więc równanie :

\[y = ax + b = \varrho \frac {\sigma _\eta }{\sigma _\xi }x + m_\eta - \frac {\varrho \sigma _\eta m_\xi }{\sigma _\xi } = \varrho \frac {\sigma _\eta }{\sigma _\xi }(x - m_\xi )+ m_\eta . \]

Jak już wiemy, gdy \((\xi ,\eta )\) ma rozkład normalny funkcja regresji liniowej pokrywa się z funkcją regresji.

  • Przykład – 20.9 Rozkład wektora losowego \((X,Y)\) skupiony jest na trójkącie \(D\) o wierzchołkach \((0,0)\), \((0,1)\), \((1,0)\) i ma gęstość proporcjonalną go funkcji \(g\): \(g(x,y) = x + 2y^2\). Znajdziemy funkcję regresji i funkcję regresji liniowej \(Y\) względem \(X\).

Mamy kolejno:

\[f_{X,Y)}(x,y) = \frac {g(x,y)}{\int _D g(x,y)\,d(x,y)}= 3x+6y^2\]

dla \((x,y) \in D\).

\[f_X(x) = \int _0^{1-x} f(x,y)\,dy,\]

\[f_{Y|X=x}(y) = \frac {f(x,y)}{f_X(x)},\]

\[E(Y|X=x) = \int _{0}^{1-x}yf_{Y|X=x}(y)\,dy\]

\[= {\frac {3 \left ( {x}^{2}-x+1 \right ) \left (1-x \right ) }{4\,{x}^{2}-2x+4}} .\]

\[E(X) = \int _0^1xf_X(x)\,dx = 0.35,\]

\[E(Y) = \int _0^1yf_Y(y)\,dy = 0.425,\]

\[D^2(X) = \int _0^1x^2f_X(x)\,dx - E(X)^2 = 0.061,\]

\[D^2(Y) = \int _0^1y^2f_Y(y)\,dy - E(Y)^2 = 0.069,\]

\[cov(X,Y)= \]

\[\int _D xyf_{(X,Y)}(x,y)\,d(x,y) - E(X)E(Y) = -0.047,\]

\[\rho = \frac {cov(X,Y)}{\sqrt {D^2(X)D^2(Y)}} = -0.705.\]

\[y = ax + b,\]

gdzie \(a = \frac {cov(X,Y)}{D^2(X)D^2(Y)} = -0.801\), \(b = E(Y) - aE(X) = 0.705\).

(image)
Funkcja regresji i funkcja regresji liniowej

Zauważmy, że gdy wektor \((X, Y)\) ma rozkład dyskretny to funkcja \(h\), regresji \(Y\) względem \(X\), jest istotnie określona tylko w punktach \(x_i\) takich, że \(P(X=x_i) >0\). Natomiast funkcja regresji liniowej jest określona dla wszystkich \(x\).

Rachunek prawdopodobieństwa — Regresja jako narzędzie statystyczne

(image)

Rachunek prawdopodobieństwa 1, 2

20.4 Regresja jako narzędzie statystyczne

Pojęcie regresji odgrywa niezmiernie ważną rolę w badaniach statystycznych. Jakkolwiek występujące tam idee są podobne do tych przestawionych powyżej, to warto wyjaśnić nieco inny kontekst w którym są stosowane. Przedstawimy jedno ze występujących w statystyce podejść do problemu regresji.

Rozpatruje się \(k\) wielkości \(X_1, ..., X_k\) (tak zwanych zmiennych niezależnych – niekoniecznie zmiennych losowych) oraz wielkość \(Y\) (zwaną zmienną zależną). Chcemy ustalić związek \(Y\) oraz \(X_1, ..., X_k\) postaci \(Y = H(X_1,...,X_k) + \ve \), gdzie \(H\) jest funkcją, a \(\ve \) zmienną losową „możliwie małą". Jednak w statystyce nie znamy na ogół rozkładów rozpatrywanych wektorów losowych. Co więcej nie zawsze zakłada się, że są to wektory losowe. Zamiast tego dane są obserwacje \((x_1,y_1), ..., (x_n,y_n)\), gdzie każde \(x_i =(x_{i1},...,x_{ik}) \in \r ^k\) reprezentuje wielkości \(X_1, ..., X_k\), natomiast \(y_i\) reprezentuje odpowiadającą im w określony sposób wielkość \(Y\). Można teraz sformalizować – na różne sposoby – problem regresji. Oto jeden z nich:

Znaleźć taką funkcję \(H: \r ^k \str \r \), że dla każdego \(i = 1, ... , n\)

\[ y_i = H(x_i) +\ve _i, \]

przy czym \(\ve _1, ... , \ve _n\) są niezależnymi zmiennymi losowymi o rozkładzie \(N(0,\sigma )\) każda, a wielkość \(\sigma \) jest minimalna.

Zazwyczaj zakłada się szczególną postać funkcji \(H\) (np. afiniczność) lub własności (np. różniczkowalność). Założenie o normalności \(\ve _1, ... , \ve _n\) nie jest niezbędne, niemniej w wielu przypadkach jest naturalne, a także korzystne ze względów technicznych. Istnieje wiele metod rozwiązywania powyższego zagadnienia regresji. Na przykład, przy założeniu, że funkcja \(H\) jest afiniczna stosuje się często metodę najmniejszych kwadratów, która okazuje się tożsama z omówioną przez nas metodą zastosowaną do przypadku rozkładu dyskretnego (najczęściej jednostajnego) gdyby był on skupiony dokładnie na punktach \((x_1,y_1), ..., (x_n,y_n)\). W przypadku dwuwymiarowym zachodzi wtedy odpowiednik twierdzenia 20.8, przy czym występujące tam parametry rozkładów wyznaczone są na podstawie obserwacji. Podobnie jest w wyższych wymiarach.

Poniżej podamy przykład tak zwanej metody nieparametrycznej, która pozwala wyznaczać funkcję, która do pewnego stopnia odpowiada ogólnej funkcji regresji.

Niech \((x_1,y_1), ..., (x_n,y_n)\) będzie danym ciągiem punktów płaszczyzny. Dla danego punktu \(x\in \r \) określamy wartość \(H(x)\) wzorem:

\begin{equation} H(x) = \frac {\sum _{i=1}^n y_iw_i}{\sum _{i=1}^n w_i}, \end{equation}

gdzie \(w_i\) są nieujemnymi wagami. Chcemy je dobrać tak, aby na wartość \(H(x)\) największy wpływ miały te punkty, których współrzędne \(x\)-owe są blisko \(x\).

Jednym ze sposobów dobrania wag jest tak zwana metoda jądrowa. Wybieramy funkcję \(K\) zwaną jądrem, która spełnia następujące własności: (1) jest gęstością, (2) przyjmuje wartość największą dla \(x= 0\), (3) \(K(-x) = K(x)\) dla każdego \(x\). Na przykład:

(image)
\(K_1(x) = \frac {3}{4\sqrt {5}} (1 - \frac {x^2}{5})I_{(-\sqrt {5},\sqrt {5})}(x)\)

(image)
\(K_2(x) = \frac {1}{\sqrt {2\pi }} e^{-\frac 12 x^2}\)

Ustala się też parametr (szerokość pasmo) \(h > 0\). Jako wagi bierze się:

\[ w_i = K\left (\frac {x-x_i}{h}\right ). \]

Otrzymujemy więc dla każdego wielkość \(x \in \r \):

\begin{equation} H(x) = \frac {\sum _{i=1}^ny_i K\left (\frac {x-x_i}{h}\right )}{\sum _{i=1}^n K\left (\frac {x-x_i}{h}\right )}, \end{equation}

zwaną estymatorem Nadarayi-Watsona.

Istnieje bogata literatura, patrz [9], która daje wskazówki jak optymalnie dobrać jądro \(K\) oraz – co ważniejsze – szerokość pasma \(h\). Gdy \(h\) jest bliskie zeru, wpływ na wartość \(H(x)\) mają praktycznie tylko punkty leżące najbliżej. Duża wartość \(h\) oznacza większą gładkość wykresu \(H\).

  • Przykład – 20.10 Aby zademonstrować działanie metody jądrowej Nadarayi-Watsona rozważmy wielkości \(X\) oraz \(Y\) określone następująco. \(X\) jest zmienną losową o rozkładzie jednostajnym na przedziale \((a,b)\), \(Y\) jest zmienną losową określoną jako \(Y = h(X) + \ve \), gdzie \(h\) jest zadaną przez nas funkcją, a \(\ve \) ma rozkład normalny \(N(0,\sigma )\). Losujemy próbkę prostą \(x_1, ..., x_{n}\) reprezentującą \(X\), próbkę prostą \(\ve _1, ..., \ve _{n}\) reprezentującą \(\ve \) oraz obliczamy \(y_i = h(x_i) =\ve _i\) dla \(i =1, ..., n\).

    Zauważmy, że \(E(Y|X=x) = E(h(X)|X=x) +E(\ve |X = x) = h(x) + 0 = h(x)\).

    Korzystając z wybranych punktów obliczamy wartości estymatora \(H\).

    Na wspólnym rysunku porównujemy na tle naszych punktów wykresy funkcji \(h\) oraz \(H\). Przyjęliśmy \(a = 5\), \(b = 50\), \(n = 100\), \(h(x) = x + 10 x e^{-0.1x}\), \(\sigma = 1\), jądro \(K_2\) i szerokość pasma \(h = 1.8\).

    (image)

    Zmień \(h\) Porównaj z Ćwiczeniem 20.3.D.

Rachunek prawdopodobieństwa — Pytania

(image)

Rachunek prawdopodobieństwa 1, 2

20.5 Pytania

  • Pytanie 20.1 Dane są obserwacje \((x_1,y_1), ..., (x_n,y_n)\), gdzie każde \(x_i =(x_{i1},...,x_{ik}) \in \r ^k\) reprezentuje określone wielkości \(X_1, ..., X_k\), natomiast \(y_i\) reprezentuje odpowiadające im w pewien określony sposób wielkości \(Y_i\). Na podstawie tych danych należy wyznaczyć takie liczby \(\hat {\beta }_1,..., \hat {\beta }_k\), że sumy \(\sum _{j=1}^k\hat {\beta }_i x_{ij}\) możliwie najlepiej przybliżają wielkości \(y_i\) dla \(i = 1,...,n\) w sensie kryterium najmniejszych kwadratów. Zaproponować metodę rozwiązania tego problemu.

Wskazówka. Niech \(X = [x_{ij}]\), \(i = 1,...,n\), \(j = 1,...,k\) i niech \(y \in \rn \) będzie wektorem kolumnowym o współrzędnych \(y_i\). Wtedy nasz problem można sformułować tak:

Wskazać taki wektor \(\hat {\beta } \in \r ^k\), że dla każdego \(\beta \in \r ^k\)

\begin{equation} \|X\hat {\beta } - y\| \le \|X\beta - y\| \ \mbox { czyli } \ \|X\hat {\beta } - y\|^2 \le \|X\beta - y\|^2. \label {zreglin} \end{equation}

  • Pytanie 20.2 Przy powyższych oznaczeniach, załóżmy, że \(k < n\) oraz, że rząd \(X = k\). Wyznaczyć rzutowanie prostopadłe na podprzestrzeń wektorową \(V = \)Im\(X\).

Wskazówka. Rozważmy macierz \(X^TX\). Jest to macierz symetryczna nieujemnie określona, a ponieważ rząd \(X\) jest maksymalny, to \(X^TX\) jest dodatnio określona, a więc jest nieosobliwa. Dla \(y \in \rn \) określamy wektor \(v\) wzorem:

\[ v = X(X^TX)^{-1}y. \]

Zauważmy, że \(v \in V\). Natomiast \(y - v \in V^{\perp }\), gdyż dla każdego \(w \in V\) kolejno mamy: \(w = Xz\) dla pewnego \(z\) i wtedy

\[ \langle w,y-v\rangle = \langle Xz, y-v\rangle = \langle z,X^Ty - X^Tv\rangle \]

\[= \langle z,X^Ty - X^TX(X^TX)^{-1}X^Ty \rangle = \langle z, X^Ty-X^Ty \rangle = 0. \]

Oznacza to, że rzutowanie prostopadłe na \(V\) jest dane wzorem:

\[ P_Vy = X(X^TX)^{-1}X^Ty, \ \ y \in \rn . \]

  • Pytanie 20.3 Rozwiąż problem sformułowany w Pytaniu 20.1 wykorzystując powyższy wynik.

Wskazówka. Niech \(\hat {y} = P_Vy = X(X^TX)^{-1}X^Ty \). Z Twierdzenia Pitagorasa wiemy, że dla każdego \(\mu \in V\) zachodzi nierówność \(\|y - \hat {y}\|^2 \le \|y - \mu \|^2\). Ponieważ rząd macierzy \(X\) jest maksymalny, to dla każdego \(\mu \in V\) istnieje dokładnie jeden wektor \(\beta \in \r ^k\) taki, że \(\mu = X\beta \). Niech \(\hat {\beta }\) będzie tym elementem, który odpowiada \(\hat {y}\). Mamy więc żądaną nierówność (20.6). Mnożąc lewostronnie przez \(X^T\) z równości \(\hat {\mu } = X\hat {\beta }\) otrzymujemy \(X^T\hat {y} = X^TX\hat {\beta }\), więc w końcu:

\[ \hat {\beta } = (X^TX)^{-1}X^T\hat {y} = (X^TX)^{-1}X^TX(X^TX)^{-1}X^Ty = (X^TX)^{-1}X^Ty. \]

Odpowiedź:

\begin{equation} \hat {\beta } = (X^TX)^{-1}X^Ty. \label {wzornabeta} \end{equation}

  • Pytanie 20.4 Dla danego ciągu punktów płaszczyzny \((x_1,y_1),...,(x_n,y_n)\) wskaż takie liczby \(a,b\), że \(\di \sum _{i=1}^n(y_i-(ax_i + b))^2\) jest najmniejsza.

Wskazówka. Jest to szczególny przypadek poprzedniego problemu. Tutaj macierz \(X\) ma postać:

\[ X = \left [\begin {array}{cc} 1 & x_1\\ \vdots & \vdots \\ 1 & z_n \end {array} \right ]. \]

Musimy założyć, że rząd \(X = 2\), co jest równoważne temu, że nie wszystkie punkty \(x_i\) są sobie równe. Wielkości \(a, b\) wyliczamy korzystając ze wzoru (20.7) na \(\hat {\beta }\). Mianowicie:

\[ \left [\begin {array}{c} b \\ a \end {array} \right ] = \left ( \left [\begin {array}{ccc} 1 & \dots & 1\\ x_1 & \dots & x_n \end {array} \right ] \left [\begin {array}{cc} 1 & x_1\\ \vdots & \vdots \\ 1 & z_n \end {array} \right ] \right )^{-1} \left [\begin {array}{ccc} 1 & \dots & 1\\ x_1 & \dots & x_n \end {array} \right ]\left [\begin {array}{c} y_1 \\ \vdots \\ y_n \end {array} \right ]. \]

Wprowadźmy standardowo używane oznaczenia: \(\overline {x} = \frac {1}{n} \sum _ix_i\), \(\overline {xy} = \frac {1}{n} \sum _ix_iy_i\), \(\overline {x^2} = \frac {1}{n} \sum _ix_i^2\). Po wykonaniu mnożenie i odwracania macierzy otrzymujemy.

\[ \left [\begin {array}{c} b \\ a \end {array} \right ] = \frac {1}{\overline {x^2} - \overline {x}^2} \left [ \begin {array}{c} \overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x} \\ \overline {xy} - \overline {x}\cdot \overline {y} \end {array} \right ]. \]

Odpowiedź:

\begin{equation} a = \frac {\overline {xy} - \overline {x}\cdot \overline {y}}{\overline {x^2} - \overline {x}^2} \ \ \ \ b = \frac {\overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x}}{\overline {x^2} - \overline {x}^2}. \end{equation}

  • Pytanie 20.5 Dla danego ciągu punktów płaszczyzny \((x_1,y_1),...,(x_n,y_n)\) wskaż takie liczby \(a, b\) obliczone na podstawie Twierdzenia 20.8 przy założeniu, że twierdzenie to stosuje się to wektora losowego \((\xi ,\eta )\) mającego rozkład jednostajny na zbiorze \(\{(x_1,y_1),...,(x_n,y_n)\}\).

Wskazówka. Stosując oznaczenia z poprzedniego Pytania łatwo stwierdzić, że:

\[ m_\xi = \overline {x}, \ m_\eta = \overline {y}, \ \s _\xi ^2 = \overline {x^2} - \overline {x}\cdot \overline {x}, \ \s _\eta ^2 = \overline {y^2} - \overline {y}\cdot \overline {y},\‚cov(\xi ,\eta ) = \overline {xy} - \overline {x}\cdot \overline {y}. \]

Pamiętając, że \(\varrho = \frac {cov(\xi ,\eta )}{\s _\xi \s _\eta }\), na podstawie Twierdzenia 20.8 mamy:

\[ a= \varrho \frac {\sigma _\eta }{\sigma _\xi } = \frac {cov(\xi ,\eta )}{\s _\xi ^2} = \frac {\overline {xy} - \overline {x}\cdot \overline {y}}{\overline {x^2} - \overline {x}^2} \]

\[ b = m_\eta - \frac {\varrho \sigma _\eta m_\xi }{\sigma _\xi } = m_\eta - \frac {cov(\xi ,\eta ) m_\xi }{\sigma _\xi ^2} = \overline {y} - \frac {\overline {xy} \cdot \overline {x} - \overline {x}^2 \cdot \overline {y}}{\overline {x^2} - \overline {x}^2}= \frac {\overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x}}{\overline {x^2} - \overline {x}^2}. \]

  • Pytanie 20.6 Podobnie jak w Pytaniu 20.1 dane są obserwacje \((x_1,y_1)\), \(..., (x_n,y_n)\), gdzie każde \(x_i =(x_{i1},...,x_{ik}) \in \r ^k\) reprezentuje określone wielkości \(X_1, ..., X_k\), natomiast \(y_i\) reprezentuje odpowiadające im w pewien określony sposób wielkości \(Y_i\). Obecnie zakładamy, że \(Y_i\) są zmiennymi losowymi o wartościach oczekiwanych \(\mu _i\), przy czym zakładamy, że dla każdego \(i\) zachodzi związek liniowy:

    \[ \mu _i = \beta _1x_{i1} + ... + \beta _k x_{ik}, \]

    gdzie \(\beta _1, ... , \beta _k\) nie zależą od \(i\). Zbadaj własności estymatorów \(\hat {\mu }\) parametru \(\mu \) oraz \(\hat {\beta }\) parametru \(\beta \) określonych jako:

    \[ \hat {\mu } = X(X^TX)^{-1}X^TY, \ \ \ \ \hat {\beta } = (X^TX)^{-1}X^TY,\]

    gdzie \(Y\) jest wektorem losowym o współrzędnych \(Y_i\).

Wskazówka. Z naszego założenia \(E(Y) = X \beta \), więc

\[E(\hat {\beta }) = E((X^TX)^{-1}X^TY) = (X^TX)^{-1}X^TE(Y) = (X^TX)^{-1}X^TX\beta = \beta .\]

Podobnie \(E(\hat {\mu }) = \mu \). Czyli:

\(\hat {\mu }\) oraz \(\hat {\beta }\) są nieobciążonymi estymatorami parametrów \(\mu \) oraz \(\beta \).

Załóżmy dodatkowo, że zmienne losowe \(Y_1, ..., Y_n\) są niezależne i wszystkie mają wspólną wariancję \(\s ^2 < \infty \). Wtedy \(\hat {\mu }\) oraz \(\hat {\beta }\) są najlepszymi estymatorami liniowymi dla \(\mu \) oraz \(\beta \) w następującym sensie. Ustalmy \(a \in \rn \). Odwzorowanie liniowe \(S :\rn \to \r \) nazywamy najlepszym liniowym estymatorem parametru \(a^T\mu \), jeżeli \(E(S(Y)) = a^T\mu \) oraz dla każdego odwzorowania liniowego \(T :\rn \to \r \) takiego. że \(E(T(Y)) = a^T\mu \)

\[D^2(S(Y)) \le D^2(T(Y)). \]

Niech \(A \in M(m,n)\). Mówimy, że \(S : \rn \to \r ^m\) jest najlepszym liniowym estymatorem parametru \(A\mu \), jeżeli dla każdego \(i\) \(i\)-ta współrzędna \(S_i\) jest najlepszym estymatorem \((A\mu )_i\) – \(i\)-tej współrzędnej wektora \(A\mu \). Udowodnimy:

Twierdzenie Gaussa-Markowa Dla każdej macierzy \(A \in M(m,n)\) estymator \(A\hat {\mu }\) jest najlepszym liniowym estymatorem parametru \(A\mu \).

Biorąc \(A = I_n\) widzimy, że \(\hat {\mu }\) jest najlepszym liniowym estymatorem parametru \(\mu \). Biorąc \(A = (X^TX)^{-1}X^T\) widzimy, że \(\hat {\beta }\) jest najlepszym liniowym estymatorem paremetru \(\beta \).

Dowód Twierdzenia Gaussa-Markowa. Jak już wiemy \(E(\hat {\mu }) = \mu \), więc z liniowości \(E(A\hat {\mu }) = AE(\hat {\mu }) = A\mu \). Musimy więc jeszcze porównać estymator \(A\hat {\mu }\) z innymi liniowymi nieobciążonymi estymatorami parametru \(A\mu \).

Krok 1. Zakładamy, że \(A\) ma tylko jeden wiersz, powiedzmy \(a^T\), i badamy estymatory liniowe parametru \(a^T\mu \). Niech \(T\) będzie takim estymatorem, czyli \(T(y) = b^Ty\) dla pewnego \(b \in \rn \). Niech, jak w Pytaniu 20.1, \(V\) oznacza podprzestrzeń wektorową Im\(X\). Pamiętamy, że rzutowanie prostopadłe na \(V\) wyraża się wzorem \(P_Vy = X(X^TX)^{-1}X^Ty\) dla \(y \in \rn \).

Zachodzą równoważności: \(T(Y)\) jest nieobciążonym estymatorem parametru \(a^T\mu \rwn b^T\mu = a^T \mu \) dla każdego \(\mu \in V \rwn \langle b - a,\mu \rangle =0 \) dla każdego \(\mu \in V \rwn b - a \in V^\perp \rwn P_Va = P_Vb\). Dla takiego estymatora obliczamy wariancję, pamiętając, że z obecnych założeń wynika równość \(cov(Y) = \s ^2I_n\):

\[ D^2(T(Y)) = D^2(b^TY) = b^Tcov(Y)b = \s ^2b^Tb = \s ^2\|b\}^2. \]

Z Twierdzenia Pitagorasa

\[ D^2(T(Y)) = \s ^2(\|b - P_Vb\|^2 + \|P_Vb\|^2) = \s ^2(\|b - P_Va\|^2 + \|P_Va\|^2). \]

Widzimy, że \(D^2(T(Y))\) osiąga wartość najmniejszą \(\rwn b = P_Va \rwn b = X(X^TX)^{-1}X^Ta\). Wtedy też mamy:

\[T(Y) = b^TY = (X(X^TX)^{-1}X^Ta)^TY = a^TX(X^TX)^{-1}X^TY = a^T\hat {\mu }.\]

Krok 2. Wynika natychmiast z rezultatu udowodnionego w Kroku 1.   

Rachunek prawdopodobieństwa — Bibliografia

(image)

Rachunek prawdopodobieństwa 1, 2

Bibliografia

  • [1]  Aczel A., Statystyka w zarządzaniu, tłum. Z. Czerwiński, W. Latusek, PWN, Warszawa 2000.

  • [2]  Ash R..B., Doleans-Dade C., Probability and mesure theory 2nd Edition, Academic Press, New York 2000.

  • [3]  Asmussen S., Glynn P.W., Stochastic Simulation: Algorithms and Analysis, Springer, New York 2007.

  • [4]  Billingsley P., Prawdopodobieństwo i miara, tłum. K. Kizeweter, J. Roguski, PWN, Warszawa 1987.

  • [5]  Cyganowski S., Kloeden P., Ombach J., From elementary probability to stochastic differential equations with MAPLE, Springer, Berlin 2002.

  • [6]  Feller W., Wstęp do rachunku prawdopodobieństwa, t. 1, PWN, tłum. Bartoszyński R., Bielecki B., Warszawa 1977.

  • [7]  Feller W., Wstęp do rachunku prawdopodobieństwa, t. 2, tłum. Bartoszyński R., PWN, Warszawa 1978.

  • [8]  Fisz M., Rachunek prawdopodobieństwa i statystyka matematyczna, PWN, Warszawa 1969.

  • [9]  Gajek L., Kałuszka M., Wnioskowanie statystyczne. Modele i metody, Wydawnictwo Naukowo-Techniczne, Warszawa 1996.

  • [10]  Ibe O.C., Fundamentals of Applied Probability and Random Processes, Elsevier, Lowell MA 2014.

  • [11]  Iosifescu M., Skończone procesy Markowa i ich zastosowania, tłum. Wesołowski J., PWN, Warszawa 1996.

  • [12]  Jakubowski J., Sztencel R., Rachunek prawdopodobieństwa dla prawie każdego, Script, Warszawa 2006.

  • [13]  Jakubowski J., Sztencel R., Wstęp do teorii prawdopodobieństwa, Script, Warszawa 2010.

  • [14]  Karian Z.A., Tanis E. A., Probability and statistics, explorations with Maple, Prentice Hall, New York 1999.

  • [15]  Krowiak A., Maple. Podręcznik, Helion, Gliwice 2012.

  • [16]  Kulkarni V.G., Modeling and Analysis of Stochastic Systems, Third Edition, Chapman and Hall/CRC Press, Boca Raton 2017.

  • [17]  Madras N., Lectures on Monte Carlo Methods, American Mathematical Society, Providence, RI 2002.

  • [18]  Niemiro W., Symulacje stochastyczne i metody Monte Carlo, Uniwersytet Warszawski, Warszawa 2013.

  • [19]  Ombach J., Mazur M., Rachunek prawdopodobieństwa i statystyka – kurs internetowy, http://wazniak.mimuw.edu.pl/index.php, Warszawa 2006, data dostępu: 07.11.2019.

  • [20]  Ombach J., Rachunek prawdopodobieństwa wspomagany komputerowo dla studentów matematyki stosowanej, Wydawnictwo Uniwersytetu Jagiellońskiego, Kraków 2018.

Rachunek prawdopodobieństwa — Indeks

(image)

Rachunek prawdopodobieństwa 1, 2

Indeks

Symbole

\(X^+\), item 8

\(X^-\), item 8

\(\P \), seção 16.1

\(\Phi _{m,\sigma }\) – dystrybuanta rozkładu normalnego \(N(m, \sigma )\), capítulo 9

\(\delta \)-Diraca, capítulo 4

\(\sigma \)-algebra, seção 2.1

\(d\)-wymiarowa kostka dyskretna, seção 17.3

\(d\)-wymiarowy spacer losowy, ?? 17.5

B

bayesowskie przedziały ufności, seção 19.4

C

całka względem miart, ?? 6.5

całkowanie metodami Monte Carlo, seção 12.3

całkowanie względem rozkładu, ?? 6.8

centralne twierdzenie graniczne, seção 9.2

CTG, seção 9.2

D

diagonalizacja macierzy symetrycznej, ?? 18.2

dystrybuanta, ?? 4.2

E

estymator, ?? 12.6

estymator nieobciążony, seção 12.2

estymator zgodny, seção 12.2

F

funkcja borelowska, item 6

funkcja charakterystyczna, seção 11.2

funkcja generująca momenty, seção 18.3

funkcja prosta, item 7

funkcja regresji, seção 20.1

funkcja schodkowa, item 7

funkcja tworząca, seção 11.4

G

graf, seção 17.3

graf skierowany, item 2

graf z wagami, item 3

gęstość, ?? 4.9

I

i.i.d., seção 10.2

Iloczyn kartezjański przestrzeni probabilistycznych, seção 3.3

iloczyn skalarny, seção 6.3

J

jednorodny łańcuch Markowa, ?? 16.1

K

kowariancja, ?? 6.23

L

lemat Borela-Cantellego, ?? 10.17

lemat Kroneckera, ?? 10.14

lemat Toeplitza, ?? 10.13

liczby pseudo-losowe z rozkładu normalnego, seção 19.5

liczby pseudolosowe, seção 12.1

losowania, seção 2.3

Ł

łańcuch ergodyczny, item 2

łańcuch Markowa, ?? 16.1

łańcuch nieokresowy, seção 17.2

łańcuch okresowy, seção 17.2

M

macierz dodatnio określona, seção 18.1

macierz kowariancji, seção 18.2

macierz przejścia łańcucha Markowa, seção 16.1

markowowskie metody Monte Carlo, seção 17.5

martyngał, seção 15.1

MCMC, seção 17.5

Mersenne Twister Algorithm, seção 12.1

metoda najmniejszych kwadratów, seção 20.1, seção 20.3

metoda Boxa-Mullera, seção 19.5

miara, seção 2.1

miara Lebesgue’a, seção 2.2

miara probabilistyczna, seção 2.1

Mocne Prawo Wielkich Liczb dla i.i.d., ?? 10.16

Mocne Prawo Wielkich Liczb, MPWL, ?? 10.15

moment, ?? 6.18

moment stopu, seção 15.3

N

nadmartyngał, seção 15.1

nadzieja matematyczna, seção 6.1, ?? 6.6

nadzieja matematyczna wektora, seção 18.2

Nadzieja warunkowa jako rzutowanie, seção 20.2

nadzieja warunkowa względem \(\s \)-algebry, seção 13.3

nadzieja warunkowa względem wektora losowego, seção 13.3

nieredukowalny łańcuch Markowa, capítulo 17

nierówność Cauchy’ego-Schwartza, ?? 6.22

nierówność Czebyszewa, ?? 7.1

nierówność Jensena, seção 14.2

nierówność Kołmogorowa, ?? 10.10

niezależność wektorów losowych, seção 5.3

O

obniżanie wariancji, seção 20.2

obniżanie wariancji przez warunkowanie, ?? 14.11

odchylenie standardowe, ?? 6.20

optymalizacja metodami Monte Carlo, seção 12.4

P

podmartyngał, seção 15.1

porównanie rodzajów zbieżności, ?? 10.7

potęgi macierzy przejścia, seção 16.2

prawdopodobieństwa a posteriori, seção 3.1

prawdopodobieństwa a priori, seção 3.1

prawdopodobieństwo całkowite, seção 3.1

prawdopodobieństwo geometryczne, seção 2.2

prawdopodobieństwo powrotu, seção 17.1

prawdopodobieństwo warunkowe, seção 3.1

prawdopodobieństwo zdarzenia, seção 2.1

prawie wszędzie, seção 4.2

problem plecakowy, seção 17.5

proces Poissona, seção 8.7

proces stochastyczny, seção 8.7

przedział ufności, ?? 12.13

przestrzeń probabilistyczna, seção 2.1

próba Bernoulliego, seção 3.4

próbka prosta, ?? 12.5

Pure Random Search, seção 12.4

R

regresja, capítulo 20

regresja jako narzędzie statystyczne, seção 20.4

regresja liniowa., seção 20.3

reguła \(3-\sigma \), ?? 7.2

rozkład \((0,1,p)\), seção 4.2

rozkład Bernoulliego, \((0,1,p)\), capítulo 8

rozkład brzegowy, ?? 5.13

rozkład ciągły, ?? 4.9

rozkład dwumianowy \(B(n,p)\), seção 4.2, seção 8.1

rozkład dyskretny, ?? 4.6

rozkład Erlanga, seção 8.6

rozkład Gaussa, capítulo 9

rozkład geometryczny, seção 8.4

rozkład hipergeometryczny, seção 8.3

rozkład jednopunktowy, capítulo 8

rozkład jednostajny, seção 4.2

rozkład jednostajny dyskretny na zbiorze skończonym, capítulo 8

rozkład jednostajny, \(U(a,b)\), capítulo 8

rozkład normalny \(N(m,\sigma )\), capítulo 9

rozkład normalny na płaszczyźnie, seção 19.2

rozkład normalny wielowymiarowy, seção 19.1

rozkład Pascala, seção 8.5

rozkład początkowy łańcucha Markowa, seção 16.1

rozkład Poissona, seção 8.2

rozkład prawdopodobieństwa, ?? 4.1

rozkład warunkowy, seção 5.2

rozkład wektora losowego, ?? 5.6

rozkład wykładniczy \(E_\lambda \), seção 8.6

rozwiązywanie równań metodami Monte Carlo, seção 12.4

S

schemat Bernoulliego, seção 3.4

schemat dyskretny nieskończony, seção 2.2

schemat dyskretny skończony, seção 2.2

schemat klasyczny, seção 2.2

schemat klasyczny z niepełną informacją, seção 2.2

spacer losowy \(d\)-wymiarowy, seção 16.1, ?? 17.5

spacer losowy po grafie, seção 17.4

spacer losowy po prostej, seção 11.4, seção 16.1

spacer losowy po płaszczyźnie, seção 16.1

stan okresowy, ?? 17.6

stan powracający, seção 17.1

standardowy rozkład normalny, \(N(0,1)\), seção 9.1

submartyngał, seção 15.1

supmartyngał, seção 15.1

słabe prawo wielkich liczb, ?? 7.6

Ś

średni błąd, seção 6.2

T

tożsamość Walda, ?? 15.17

twierdzenie Bayesa, seção 3.1

twierdzenie de Moivre’a-Laplace’a, seção 9.2

twierdzenie ergodyczne, item 2

twierdzenie Halmosa, seção 15.2

Twierdzenie Lindeberga-Leévy’ego, seção 9.2

twierdzenie o ciągu zdarzeń wstępujących, seção 2.1

twierdzenie o ciągu zdarzeń zstępujących, seção 2.1

twierdzenie o ciągłości, ?? 11.20

twierdzenie o jednoznaczności, seção 11.2

twierdzenie o wyborze, ?? 11.2

twierdzenie o zbieżności szeregu, ?? 10.11

Twierdzenie Radona-Nikodyma, seção 13.2

U

ujemny rozkład dwumianowy, seção 8.5

urnowy model Bernoulliego, ?? 16.7

W

wariancja, ?? 6.20

wartość oczekiwana, ?? 6.6

wartość własna, seção 18.1

warunek Prochorowa, seção 11.1

warunkowa nadzieja matematyczna, seção 13.3

warunkowa wartość oczekiwana, seção 13.3

wektor losowy, ?? 5.1

wnioskowanie bayesowskie, seção 19.4

współczynnik korelacji, ?? 6.25

wybór losowy, seção 2.2

wybór strategii, seção 15.2

wzór Stirlinga, seção 11.4

Z

zbieżność martyngałów, seção 15.4

zbieżność rozkładów, capítulo 11

zbieżność rozkładów – warunki równoważne, seção 11.1

zbieżność rozkładów, \(\stackrel {d}{\longrightarrow }\), ?? 10.5

zbieżność stochstyczna, \(\stackrel {s}{\longrightarrow }\), ?? 10.3

zbieżność według rozkładów, \(\stackrel {d}{\longrightarrow }\), ?? 10.4

zbieżność z prawdopodobieństwem 1, \(\stackrel {1}{\longrightarrow }\), ?? 10.2

zbieżność zmiennych losowych, seção 10.1

zbiory borelowskie, seção 2.2

zbiór opisany przez wektor losowy, seção 5.1

zdarzenia niezależne, seção 3.2

zdarzenie, seção 2.1

zdarzenie elementarne, seção 2.1

zdarzenie niemożliwe, seção 2.1

zdarzenie pewne, seção 2.1

ziarno, seção 12.1

zmienna losowa, ?? 5.1