Informacja

Dlaczego liczba mutacji na osobnika jest zgodna z rozkładem Poissona?

Dlaczego liczba mutacji na osobnika jest zgodna z rozkładem Poissona?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Czytałem tę recenzję. Na stronie 11, lewa kolumna, pierwszy akapit, czytamy:

[…] istnieje rozkład Poissona równowagowej liczby mutacji na osobę, jeśli efekty przystosowania są multiplikatywne.

bez dalszych wyjaśnień. Innymi słowy, niech zmienna $X$ będzie liczbą (szkodliwych) mutacji znalezionych u jednego osobnika (niezależnie od tego, czy mutacja wystąpiła w gonadach rodziców, czy jest starsza w linii). Zmienna $X$ ma rozkład Poissona.

Dlaczego to stwierdzenie jest prawdziwe? Przypuszczam, że to stwierdzenie zakłada również, że wszystkie mutacje mają taki sam wpływ na dopasowanie, czy to prawda?


Proces Poissona podąża za tymi postulatami:

  1. $limlimits_{h o0+}frac{P(N_h=1)}h=lambda$
    tj. prawdopodobieństwo wystąpienia jednego zdarzenia w bardzo małym przedziale czasu jest równe makroskopowej szybkości lub intensywności ($lambda,$).
  2. $P(N_hgeqslant2)=o(h)$
    tj. prawdopodobieństwo wystąpienia więcej niż jednego zdarzenia w nieskończenie małym przedziale jest zasadniczo zerowe.
  3. Wydarzenia są niezależne.

Jeśli weźmiesz pod uwagę pojedynczą osobę (dla uproszczenia załóżmy, że pojedyncza komórka), to DNA ulegnie mutacji w pewnym ustalonym tempie (którą zakładamy, że jest jednolita dla wszystkich loci). Teraz każde zdarzenie mutacji jest niezależne od poprzedniego zdarzenia iw bardzo krótkim odstępie czasu prawdopodobieństwo wystąpienia dwóch lub więcej mutacji jest znikome. Biorąc pod uwagę wszystkie te fakty i założenia, można powiedzieć, że mutacja w pojedynczej komórce zachowywałaby się jak proces Poissona.

Z postulatów Poissona można wyprowadzić wyrażenie na rozkład Poissona, który opisuje prawdopodobieństwo $k$ liczby zdarzeń w danym przedziale czasu, $t$. Stąd liczba mutacji u osobnika w ustalonym oknie czasowym ($t,$) jest zgodna z rozkładem Poissona.

$$P(N=k)=frac{(lambda t)^k e^{-lambda t}}{k!}$$

Możesz znaleźć wyprowadzenie rozkładu Poissona z postulatów z wielu źródeł. Nawiązałem do tej książki:

Hogg, Robert V. i Allen T. Craig. Wprowadzenie do statystyki matematycznej. Nowy Jork: Macmillan, 1978.

EDYTOWAĆ

Efekt szkodliwych mutacji, we wspomnianej sekcji załączonego artykułu mówi o grzechotce Mullera, która opisuje akumulację szkodliwych mutacji i jej wpływ na populację (tj. wyginięcie). Jak w przypadku każdego zdarzenia mutacyjnego, akumulacja szkodliwych mutacji będzie również następować po rozkładzie Poissona. Zapadka Mullera mówi po prostu, że poza limitem tolerancji szkodliwe mutacje spowodują wyginięcie organizmów rozmnażających się bezpłciowo. Być może, jeśli każda szkodliwa mutacja miała silny wpływ na dopasowanie, wówczas pobieranie próbek z populacji może prowadzić do szacunków niepoissonowskich.


Ponieważ jest to konsekwencją funkcjonalnej postaci rozkładu Poissona, że ​​średnia i wariancja są równe. Jeśli ten warunek nie jest spełniony, model jest niewystarczający i można rozważyć alternatywy, takie jak ujemna regresja dwumianowa (nazywa się to nadmierną dyspersją). Widzieć:

Aby to zobaczyć, rozważmy liczbę wypadków dla określonej cechy drogi. Powiedzmy, że ta liczba jest zgodna z rozkładem Poissona ze średnią $mu$. Średnia ta dotyczy określonej liczby przejechanych kilometrów, więc wprowadźmy stawkę $lambda$, powiedzmy 1 wypadek na kilometr i całkowitą liczbę przejechanych kilometrów $T$. Jednym z założeń rozkładu Poissona jest to, że wskaźnik pozostaje stały na całej przejechanej odległości, w konsekwencji $mu=T imes lambda.$

Liczbę przejechanych kilometrów dzielimy na małe $N$ krótkie interwały o rozmiarze $h$, tak krótkie, że każdy podprzedział zawiera co najwyżej jedną awarię. Teraz prawdopodobieństwo, że zobaczysz awarię w tym krótkim odstępie czasu, jest jak rzucenie monetą. Oznaczmy to prawdopodobieństwo jako $p$. Jest to znane jako rozkład Bernoulliego i przyjmujemy za pewnik, że wariancja wynosi $p imes (1 - p)$. Z drugiej strony, dowiedzieliśmy się wcześniej, że stawka $lambda$ jest stała, więc spodziewamy się wystąpienia zdarzenia $lambda imes h$ w tym podprzedziale, czyli $p=lambda imes h$.

Teraz, jeśli założymy, że prawdopodobieństwo ujrzenia awarii w tym małym podprzedziale jest bardzo niskie, to $1 - p$ zbliża się do 1 (np. rozważ $h= ext<1 metr>$). Dowiedzieliśmy się wcześniej, że wariancja dla rozkładu Bernoulliego wynosi $p imes (1-p)$ i jeśli $p$ jest bardzo niska, to $p imes (1-p) simeq p=lambda imes h.$ Jest to dość interesujące, ponieważ właśnie pokazaliśmy, że zarówno średnia, jak i wariancja są równe $lambda imes h$ w tym małym podprzedziale.

Jeśli rozszerzysz to podejście do $n$ kolejnych interwałów (jak rzucanie monet $n$ razy), otrzymasz coś, co nazywa się rozkładem dwumianowym i w tym przypadku średnia to $np$ a wariancja $np(1-p )simeq np$, gdy $p$ jest małe. Aby przejść do sedna sprawy, dla kolejnych przedziałów $h$ o ekstremalnie niskim $p$, średnia i wariancja są sobie równe.

Obecnie w praktyce zwykle nie ma to miejsca w badaniach obserwacyjnych. Powodem jest to, że nie możemy wziąć pod uwagę wszystkich czynników heterogeniczności w badaniu. Na przykład średnia liczba wypadków może się różnić w porze dziennej i nocnej. Jednak gdybyśmy mieli zagregować oba bez uwzględnienia różnych czynników, marginalna wariancja może stać się większa niż oczekujemy. Nazywa się to nadmierną dyspersją.


5 odpowiedzi 5

Użyję następującej notacji, aby być jak najbardziej spójnym z wiki (na wypadek, gdybyś chciał przechodzić między moją odpowiedzią a definicjami wiki dla trucizny i wykładniczej).

$N_t$: liczba przyjazdów w okresie $t$

$X_t$: czas potrzebny na przybycie jednego dodatkowego przybycia, zakładając, że ktoś przybył o czasie $t$

Z definicji następujące warunki są równoważne:

Zdarzenie po lewej przechwytuje zdarzenie, że nikt nie przybył w przedziale czasowym $[t,t+x]$, co oznacza, że ​​nasza liczba przyjazdów w czasie $t+x$ jest identyczna z liczbą w czasie $t$, czyli wydarzenie po prawej.

Zgodnie z zasadą dopełnienia mamy również:

Używając równoważności dwóch zdarzeń, które opisaliśmy powyżej, możemy przepisać powyższe jako:

$P(X_t le x) = 1 - P(N_ - N_t = 0)$

Używając poisson pmf powyższego, gdzie $lambda$ to średnia liczba przyjazdów na jednostkę czasu, a $x$ ilość jednostek czasu, upraszcza się do:

Zastępując w naszym pierwotnym równaniu, mamy:

Powyższe jest cdf wykładniczego pdf.

W przypadku procesu Poissona trafienia występują losowo niezależnie od przeszłości, ale ze znanym długoterminowym średnim współczynnikiem $lambda$ trafień na jednostkę czasu. Rozkład Poissona pozwoliłby nam znaleźć prawdopodobieństwo uzyskania określonej liczby trafień.

Teraz, zamiast patrzeć na liczbę trafień, patrzymy na zmienną losową $L$ (od Lifetime), czas, jaki musisz czekać na pierwsze trafienie.

Prawdopodobieństwo, że czas oczekiwania jest dłuższy niż podana wartość czasu wynosi $P(L gt t) = P( ext)=frac><0!>=e^<-lambda t>$ (według rozkładu Poissona, gdzie $Lambda = lambda t$ ).

$P(L le t) = 1 - e^<-lambda t>$ (funkcja skumulowanego rozkładu). Możemy otrzymać funkcję gęstości, biorąc pochodną tego:

Mówi się, że każda zmienna losowa, która ma taką funkcję gęstości, ma rozkład wykładniczy.

Inne odpowiedzi dobrze wyjaśniają matematykę. Myślę, że warto rozważyć fizyczny przykład. Kiedy myślę o procesie Poissona, zawsze wracam do idei samochodów przejeżdżających drogą. Lambda to średnia liczba samochodów, które przejeżdżają w jednostce czasu, powiedzmy 60 na godzinę (lambda = 60). Wiemy jednak, że rzeczywista liczba będzie się różnić – kilka dni więcej, kilka dni mniej. Rozkład Poissona pozwala nam modelować tę zmienność.

Obecnie średnio 60 samochodów na godzinę odpowiada średnio 1 przejeżdżającemu samochodowi na minutę. Ponownie jednak wiemy, że będzie zmienność czasu między przylotami: czasami więcej niż 1 minuta, innym razem mniej. Rozkład wykładniczy pozwala nam modelować tę zmienność.

Biorąc to wszystko pod uwagę, samochody przejeżdżające drogą nie zawsze podlegają procesowi Poissona. Na przykład, jeśli tuż za rogiem jest sygnalizacja świetlna, przyjazdy będą zgrupowane, a nie stałe. Na otwartej autostradzie powolny ciągnik z przyczepą może utrzymać długą linię samochodów, ponownie powodując grupowanie się. W takich przypadkach rozkład Poissona może nadal działać poprawnie przez dłuższe okresy czasu, ale wykładniczy nie powiedzie się w modelowaniu czasów przybycia.

Należy również pamiętać, że istnieje ogromna zmienność w zależności od pory dnia: ruch w godzinach dojazdów jest znacznie wolniejszy o 3 nad ranem. Upewnij się, że Twoja lambda odzwierciedla konkretny okres, który rozważasz.


Metody

Modelka

Rozważamy skończoną, ściśle bezpłciową populację haploidów (o stałej wielkości populacji) n), która obejmuje 10 subpopulacji, z których każda ma N/10 osobników i inny wskaźnik mutacji, przy wszystkich pozostałych równych. Uzasadnieniem tej metody jest to, że te subpopulacje konkurują o egzystencję w wyniku doboru naturalnego i losowego dryfu. Pod koniec symulacji pozostaje tylko jedna subpopulacja, a reszta wymarła. Współczynnik mutacji pozostałej populacji staje się „stałym” współczynnikiem mutacji w tej konkurencji. Symulując ten proces wielokrotnie, możemy zdefiniować najczęściej stałą szybkość mutacji jako „optymalną” szybkość mutacji.

Każdej z dziesięciu subpopulacji przypisuje się odrębną częstość mutacji na genom na pokolenie (patrz parametry). Zarówno szkodliwe, jak i korzystne mutacje występują w każdej subpopulacji z frakcjami korzystnych i szkodliwych mutacji reprezentowanych przez P b oraz P D (tj. 1- P b ). Skutki (współczynniki selekcji) zarówno korzystnych, jak i szkodliwych mutacji są wyciągane z ciągłych rozkładów prawdopodobieństwa. Oznaczamy s b jako efekty korzystnych mutacji (w tym przypadku sprawność w zwiększa się o współczynnik 1+ s b ), podczas s D reprezentuje skutki szkodliwych mutacji (w takim przypadku sprawność w zmniejsza się o współczynnik 1- s D )[21].

Zakładamy, że s b ma rozkład wykładniczy: f ( s b , λ ) = λ e − λ s b z 1/λ jako średnią wartością rozkładu. Założenie to ma dobre wsparcie teoretyczne z teorii wartości ekstremalnych i jest szeroko stosowane w modelach genetyki populacyjnej [22–24]. Skutki szkodliwych mutacji mogą być złożone i nie istnieje jeszcze ogólne założenie dotyczące rozmieszczenia s D w obliczeniach analitycznych badania empiryczne potwierdzają jednak rozkład gamma z parametrem kształtu mniejszym niż jeden (inne rozkłady niekoniecznie są wykluczone) [25, 26]. W niniejszym opracowaniu zakładamy, że s D ma skośny rozkład gamma f ( s d , α , β ) = s d α - 1 e - s d / β / ( β α Γ ( α )) (α≤1). Rozkład gamma użyty w naszych symulacjach jest obcięty o wartość 1.0, co jest konieczne, aby uniknąć ujemnego dopasowania. Dodatkowo zakładamy, że średnie efekty korzystnych mutacji (s b ¯ ) są znacznie mniejsze niż średnie efekty szkodliwych ( s d ¯ ), co w większości przypadków wydaje się uzasadnione [27, 28].

Parametry

W naszych symulacjach wielkości frakcji i efekty zarówno korzystnych, jak i szkodliwych mutacji są najważniejszymi parametrami ilościowymi. Liczne badania eksperymentalne na drobnoustrojach rzuciły nieco światła na ten obszar, a niektóre szacunki tych parametrów podsumowano w Tabeli 1 [29–35]. Dane te dostarczają najlepszych dostępnych założeń parametrów wykorzystywanych w symulacjach. Jeden przykład rozkładu efektów mutacji i odpowiadającej mu zmienności przystosowania spowodowanej przez przyjęte przez nas mutacje pokazano na rysunku 1. Innym istotnym parametrem zaangażowanym w symulacje są współczynniki mutacji początkowo przypisane do dziesięciu subpopulacji. I logarytmiczna forma częstości mutacji (lg(U)) jest mniej więcej równomiernie rozłożony między -4 a -1. Ponadto przyjmujemy kilka zakresów składających się z różnych szybkości mutacji, które przedstawiono w Tabeli 2, aby sprawdzić, czy ten początkowy zakres wpływa na optymalną szybkość mutacji.

Jeden przykład rozkładu efektów mutacji. (A) Skutki szkodliwych mutacji są zgodne z rozkładem gamma z α = 0,6 (parametr kształtu), β = 0,5 (parametr skali), a średni efekt wynosi s ¯ d = 0,3 . (B) Skutki korzystnych mutacji mają rozkład wykładniczy z λ = 100 a średni efekt wynosi s ¯ b = 0,01 . (C) Rozkład zmian przystosowania przez zarówno szkodliwe, jak i korzystne mutacje z P D = 97% i P b = 3%.

Symulacje numeryczne

W całym badaniu zakładamy, że pokolenia są dyskretne i nie zachodzą na siebie. W każdym pokoleniu liczba nowych mutacji (m) występujące u osoby należącej do ja-th subpopulacja jest pobierana z rozkładu Poissona p ( m , U i ) = U i m e − U i i / m ! , gdzie U i to tempo mutacji genomu ja-th podpopulacja. Częstość szkodliwych mutacji jest następnie podana przez U i ×P D a korzystna częstość mutacji wynosi U i ×P b . Biorąc pod uwagę, że występuje szkodliwa (lub korzystna) mutacja, dopasowanie w osobnika zmniejsza się (lub zwiększa) o 1- s D (lub 1+ s b ), gdzie s D (lub s b ) jest losowo pobierany z rozkładu gamma (lub wykładniczego). Tutaj zakładamy, że nie występuje epistaza, a zatem wszystkie mutacje mają niezależny wpływ na sprawność i działają multiplikatywnie. Możliwe, że osobnik może nosić wiele mutacji w jednym pokoleniu. W tym przypadku sprawność jednostki w n-ty Pokolenie (w n ) jest funkcją liczby mutacji niesionych przez osobnika (m), ich efekty mutacji (s J ) oraz przydatność jego rodzica w (n-1)-NS Pokolenie (w n-1 ). Ta funkcja może być opisana jako

Potomstwo jest próbkowane z powtórzeniami zgodnie z rozkładem wielomianowym, ważonym przez przystosowanie ich odpowiedniego rodzica. Każde potomstwo oznaczamy unikalnym identyfikatorem dla danej subpopulacji.

Śledzimy liczebność osobników każdej subpopulacji, aż liczebność jednej subpopulacji osiągnie n a rozmiary innych subpopulacji stają się zerowe. W tym momencie proces zostaje zatrzymany i rejestrowana jest odpowiednia szybkość mutacji pozostałej subpopulacji. Ponadto śledzona jest również liczba pokoleń, które trwa jedna konkurencja. Przeprowadzamy symulacje, które różnią się zarówno wielkością populacji, jak i efektami mutacji, aby ocenić, w jaki sposób i w jakim stopniu wpływają one na wyniki konkurencji (patrz Wyniki). Niektóre początkowe warunki populacji są również złagodzone, aby przetestować odporność metody (patrz Dyskusja).


Zawartość

Funkcja masy prawdopodobieństwa Edytuj

Mówi się, że dyskretna zmienna losowa X ma rozkład Poissona, z parametrem λ > 0 , jeśli ma funkcję masy prawdopodobieństwa określoną wzorem: [2] : 60

Dodatnia liczba rzeczywista λ jest równa oczekiwanej wartości X, a także jej wariancji [3]

Rozkład Poissona można zastosować do systemów z dużą liczbą możliwych zdarzeń, z których każde jest rzadkie. Liczba takich zdarzeń, które występują w ustalonym przedziale czasowym, jest w odpowiednich okolicznościach liczbą losową o rozkładzie Poissona.

Przykład Edytuj

Rozkład Poissona może być przydatny do modelowania zdarzeń, takich jak:

  • Liczba meteorytów o średnicy większej niż 1 metr, które uderzają w Ziemię w ciągu roku
  • Liczba pacjentów przychodzących na izbę przyjęć w godzinach od 22:00 do 23:00
  • Liczba fotonów laserowych trafiających w detektor w określonym przedziale czasu

Założenia i ważność Edytuj

Rozkład Poissona jest odpowiednim modelem, jeśli spełnione są następujące założenia: [4]

  • k to liczba zdarzeń występujących w przedziale, a k może przyjmować wartości 0, 1, 2, .
  • Wystąpienie jednego zdarzenia nie wpływa na prawdopodobieństwo wystąpienia drugiego zdarzenia. Oznacza to, że zdarzenia zachodzą niezależnie.
  • Średnia częstotliwość występowania zdarzeń jest niezależna od jakichkolwiek zdarzeń. Dla uproszczenia przyjmuje się, że jest to stałe, ale w praktyce może się zmieniać w czasie.
  • Zamiast tego dwa zdarzenia nie mogą wystąpić dokładnie w tej samej chwili, w każdym bardzo małym podprzedziale występuje dokładnie jedno zdarzenie albo nie występuje.

Jeśli te warunki są spełnione, k jest zmienną losową Poissona, a rozkład k jest rozkładem Poissona.

Rozkład Poissona jest również granicą rozkładu dwumianowego, dla którego prawdopodobieństwo sukcesu każdej próby wynosi λ podzielone przez liczbę prób, ponieważ liczba prób zbliża się do nieskończoności (patrz Powiązane rozkłady).

Przykłady prawdopodobieństwa dla rozkładów Poissona Edytuj

Na konkretnej rzece powodzie przelewowe występują średnio raz na 100 lat. Oblicz prawdopodobieństwo k = 0, 1, 2, 3, 4, 5 lub 6 powodzi w 100-letnim przedziale, zakładając, że model Poissona jest odpowiedni.

Ponieważ średnia częstość zdarzeń to jedna powódź na 100 lat, λ = 1

Prawdopodobieństwo wystąpienia od 0 do 6 powodzi przelewowych w okresie 100 lat.

Ugarte i współpracownicy podają, że średnia liczba goli w meczu piłki nożnej na Mistrzostwach Świata wynosi około 2,5, a model Poissona jest odpowiedni. [5] Ponieważ średni wskaźnik zdarzeń wynosi 2,5 gola na mecz, λ = 2.5.

Prawdopodobieństwo zdobycia od 0 do 7 bramek w meczu.

Wydarzenia jednorazowo: Szczególny przypadek λ = 1 i k = 0 Edytuj

Załóżmy, że astronomowie szacują, że duże meteoryty (powyżej pewnego rozmiaru) uderzają w Ziemię średnio raz na 100 lat (λ = 1 zdarzenie na 100 lat), a liczba uderzeń meteorytów jest zgodna z rozkładem Poissona. Jakie jest prawdopodobieństwo uderzenia k = 0 meteorytu w ciągu najbliższych 100 lat?

Przy tych założeniach prawdopodobieństwo, że w ciągu najbliższych 100 lat nie uderzą w Ziemię duże meteoryty, wynosi około 0,37. Pozostałe 1 – 0,37 = 0,63 to prawdopodobieństwo 1, 2, 3 lub więcej dużych uderzeń meteorytów w ciągu najbliższych 100 lat. W powyższym przykładzie powódź przelewowa występowała raz na 100 lat (λ = 1). Według tych samych obliczeń prawdopodobieństwo braku powodzi w ciągu 100 lat wyniosło około 0,37.

Ogólnie, jeśli zdarzenie występuje średnio raz na interwał (λ = 1), a zdarzenia są zgodne z rozkładem Poissona, wtedy P(0 zdarzeń w następnym przedziale) = 0,37 . Ponadto, P(dokładnie jedno zdarzenie w następnym przedziale) = 0,37, jak pokazano w tabeli dla powodzi przelewowych.

Przykłady, które naruszają założenia Poissona Edytuj

Liczba uczniów, którzy przychodzą do związku studenckiego na minutę, prawdopodobnie nie będzie zgodna z rozkładem Poissona, ponieważ wskaźnik nie jest stały (niski wskaźnik w czasie zajęć, wysoki wskaźnik między godzinami zajęć), a przyjazdy poszczególnych uczniów nie są niezależne (studenci przychodzą w grupach).

Liczba trzęsień ziemi o sile 5 w skali roku w danym kraju może nie odpowiadać rozkładowi Poissona, jeśli jedno duże trzęsienie ziemi zwiększa prawdopodobieństwo wstrząsów wtórnych o podobnej sile.

Przykłady, w których gwarantowane jest co najmniej jedno zdarzenie, nie mają rozkładu Poission, ale można je modelować przy użyciu rozkładu Poissona z obcięciem zera.

Rozkłady liczebności, w których liczba przedziałów z zerowymi zdarzeniami jest wyższa niż przewidywana przez model Poissona, można modelować przy użyciu modelu z wartością zerową.

Statystyki opisowe Edytuj

  • Oczekiwana wartość i wariancja zmiennej losowej o rozkładzie Poissona są równe λ.
  • Współczynnik zmienności wynosi λ − 1 / 2 > , a wskaźnik dyspersji wynosi 1. [6] : 163
  • Średnie bezwzględne odchylenie od średniej wynosi [6] : 163
  • Tryb zmiennej losowej o rozkładzie Poissona z niecałkowitą λ jest równy ⌊ λ ⌋ , która jest największą liczbą całkowitą mniejszą lub równą λ. Jest to również zapisywane jako piętro(λ). Gdy λ jest dodatnią liczbą całkowitą, tryby są λ oraz λ − 1.
  • Wszystkie kumulanty rozkładu Poissona są równe wartości oczekiwanej λ. ten n-ty moment czynnikowy rozkładu Poissona wynosi λn .
  • Oczekiwana wartość procesu Poissona jest czasami rozkładana na iloczyn intensywność oraz narażenie (lub bardziej ogólnie wyrażony jako całka „funkcji intensywności” w czasie lub przestrzeni, czasami określana jako „ekspozycja”). [7]

Mediana Edytuj

Wyższe chwile Edytuj

Sumy zmiennych losowych o rozkładzie Poissona Edytuj

Inne właściwości Edytuj

  • Rozkłady Poissona są nieskończenie podzielnymi rozkładami prawdopodobieństwa. [14] : 233 [6] : 164
  • Ukierunkowana rozbieżność Kullbacka-Leiblera z Pois ⁡ ( λ 0 ) < Displaystyle operatorname (lambda _<0>)> z Pois ⁡ ( λ ) (lambda )> jest podane przez
  • Granice prawdopodobieństw ogona zmiennej losowej Poissona X ∼ Pois ⁡ ( λ ) (lambda )> można wyprowadzić za pomocą argumentu związanego z Chernoffem. [15] : 97-98
  • Prawdopodobieństwo górnego ogona można zmniejszyć (co najmniej dwukrotnie) w następujący sposób: [16]
  • Nierówności związane z dystrybuantą zmiennej losowej Poissona X ∼ Pois ⁡ ( λ ) (lambda )> do standardowej funkcji rozkładu normalnego Φ ( x ) są następujące: [16]

Rasy Poissona Edytuj

Górne ograniczenie jest udowadniane przy użyciu standardowego ograniczenia Chernoffa.

Edycja ogólna

  • Jeśli X 1 ∼ P o i s ( λ 1 ) sim mathrm (lambda _<1>),> i X 2 ∼ P o i s ( λ 2 ) sim mathrm (lambda _<2>),> są niezależne, to różnica Y = X 1 − X 2 -X_<2>> jest zgodna z rozkładem Skellama.
  • Jeśli X 1 ∼ P o i s ( λ 1 ) sim mathrm (lambda _<1>),> i X 2 ∼ P o i s ( λ 2 ) sim mathrm (lambda _<2>),> są niezależne, to rozkład X 1 > warunkowy na X 1 + X 2 +X_<2>> jest rozkład dwumianowy.
  • Jeśli X ∼ P o ja s ( λ ) (lambda ),> i rozkład Y , warunkowy na x = k, jest rozkładem dwumianowym, Y ∣ ( X = k ) ∼ B ja n o m ( k , p ) (k,p)> , to rozkład Y jest zgodny z rozkładem Poissona Y ∼ P o i s ( λ ⋅ p ) (lambda cdot p),> . W rzeczywistości, jeśli < Y i >< displaystyle <>>> , warunkowe na X = k, jest zgodne z rozkładem wielomianowym, < Y i >∣ ( X = k ) ∼ M u l t i n o m ( k , p i ) >mid (X=k)sim mathrm lewo(k,p_ ight)> , a następnie każdy Y i > podąża za niezależnym rozkładem Poissona Y i ∼ P o i s ( λ ⋅ p i ) , ρ ( Y i , Y j ) = 0 sim mathrm (lambda cdot p_), ho (Y_,T_)=0> .
  • Rozkład Poissona można wyprowadzić jako przypadek graniczny dla rozkładu dwumianowego, ponieważ liczba prób zbliża się do nieskończoności, a oczekiwana liczba sukcesów pozostaje stała — patrz prawo rzadkich zdarzeń poniżej. Dlatego może być używany jako przybliżenie rozkładu dwumianowego, jeśli n jest wystarczająco duży i P jest wystarczająco mały. Istnieje praktyczna zasada mówiąca, że ​​rozkład Poissona jest dobrym przybliżeniem rozkładu dwumianowego, jeśli n wynosi co najmniej 20 i P jest mniejsze lub równe 0,05 i doskonałe przybliżenie, jeśli n ≥ 100 i np ≤ 10. [18]
  • Rozkład Poissona jest szczególnym przypadkiem dyskretnego złożonego rozkładu Poissona (lub jąkającego się rozkładu Poissona) z tylko parametrem. [19][20] Dyskretny rozkład Poissona związku można wyprowadzić z rozkładu granicznego jednowymiarowego rozkładu wielomianowego. Jest to również szczególny przypadek złożonego rozkładu Poissona.
  • Dla wystarczająco dużych wartości λ (powiedzmy λ>1000), rozkład normalny ze średnią λ i wariancją λ (odchylenie standardowe λ >>) jest doskonałym przybliżeniem do rozkładu Poissona. Jeśli λ jest większe niż około 10, to rozkład normalny jest dobrym przybliżeniem, jeśli zostanie wykonana odpowiednia poprawka ciągłości, tj. jeśli P(xx), gdzie x jest nieujemną liczbą całkowitą, jest zastępowane przez P(xx + 0.5).
    : Jeśli X ∼ P o ja s ( λ ) (lambda ),> , to
  • Jeśli dla każdego T > 0 liczba przyjazdów w przedziale czasowym [0, T] następuje po rozkładzie Poissona ze średnią λt, to ciągi czasów między przybyciem są niezależnymi i identycznie rozłożonymi wykładniczymi zmiennymi losowymi o średniej 1/λ. [23] : 317–319
  • Funkcje dystrybucji skumulowanej rozkładów Poissona i chi-kwadrat są powiązane w następujący sposób: [6] : 167

Aproksymacja Poissona Edytuj

Dwuwymiarowy rozkład Poissona Edytuj

Ten rozkład został rozszerzony na przypadek dwuwymiarowy. [25] Funkcja generująca dla tego rozkładu to

Rozkłady krańcowe to Poisson(θ1) i Poissona(θ2) a współczynnik korelacji jest ograniczony do przedziału

Darmowa dystrybucja Poissona Edytuj

Ta definicja jest analogiczna do jednego ze sposobów, w jaki klasyczny rozkład Poissona uzyskuje się z (klasycznego) procesu Poissona.

Miara związana z wolnym prawem Poissona jest podana przez [27]

Niektóre transformacje tego prawa Edytuj

Podajemy wartości niektórych ważnych przekształceń wolnego prawa Poissona, których obliczenia można znaleźć m.in. w książce Wykłady z kombinatoryki swobodnego prawdopodobieństwa A. Nica i R. Speicher [28]

R-transformacja wolnego prawa Poissona jest dana przez

Transformata Cauchy'ego (która jest ujemna transformacji Stieltjesa) jest dana przez

Estymacja parametrów Edytuj

Ponieważ każda obserwacja ma oczekiwaną wartość λ, podobnie jest w przypadku średniej próbki. Dlatego oszacowanie największego prawdopodobieństwa jest bezstronnym estymatorem λ. Jest również skutecznym estymatorem, ponieważ jego wariancja osiąga dolną granicę Craméra-Rao (CRLB). [ wymagany cytat ] Stąd jest to bezstronna minimalna wariancja. Można również udowodnić, że suma (a tym samym średnia z próbki, ponieważ jest to funkcja sumy jeden do jednego) jest kompletną i wystarczającą statystyką dla λ.

Aby znaleźć parametr λ, który maksymalizuje funkcję prawdopodobieństwa dla populacji Poissona, możemy użyć logarytmu funkcji prawdopodobieństwa:

Rozwiązywanie dla λ daje punkt stacjonarny.

Więc λ to średnia z ki wartości. Uzyskanie znaku drugiej pochodnej L w punkcie stacjonarnym określi, jaki rodzaj wartości ekstremalnej λ jest.

Obliczanie drugiej pochodnej w punkcie stacjonarnym daje:

co jest negatywem n razy odwrotność średniej ki. To wyrażenie jest ujemne, gdy średnia jest dodatnia. Jeśli to jest spełnione, to punkt stacjonarny maksymalizuje funkcję prawdopodobieństwa.

Przedział ufności Edytuj

Przedział ufności dla średniej rozkładu Poissona można wyrazić za pomocą zależności między skumulowanymi funkcjami rozkładu rozkładów Poissona i chi-kwadrat. Sam rozkład chi-kwadrat jest ściśle powiązany z rozkładem gamma, co prowadzi do alternatywnej ekspresji. Biorąc pod uwagę obserwację k z rozkładu Poissona ze średnią μ, przedział ufności dla μ o poziomie ufności 1 – α jest

gdzie χ 2 ( p n ) (pn)> to funkcja kwantylowa (odpowiadająca dolnemu obszarowi ogona P) rozkładu chi-kwadrat z n stopnie swobody i F − 1 ( pn , 1 ) (pn,1)> to funkcja kwantylowa rozkładu gamma z parametrem kształtu n i parametrem skali 1. [6]: 176- 178 [30] Przedział ten jest „dokładny” w tym sensie, że jego prawdopodobieństwo pokrycia nigdy nie jest mniejsze niż nominalne 1 – α .

Gdy kwantyle rozkładu gamma nie są dostępne, zaproponowano dokładne przybliżenie tego dokładnego przedziału (na podstawie transformacji Wilsona-Hilferty'ego): [31]

Do zastosowania tych wzorów w tym samym kontekście, co powyżej (biorąc pod uwagę próbkę n mierzone wartości ki każdy wyciągnięty z rozkładu Poissona ze średnią λ), można by ustawić

obliczyć przedział dla μ = , a następnie wyprowadź przedział dla λ.

Wnioskowanie bayesowskie Edytuj

We wnioskowaniu bayesowskim sprzężenie poprzedzające parametr szybkości λ rozkładu Poissona jest rozkład gamma. [32] Niech

oznaczać, że λ rozkłada się zgodnie z gęstością gamma g sparametryzowany pod względem parametru kształtu α i parametr skali odwrotnej β:

Następnie, biorąc pod uwagę tę samą próbkę n mierzone wartości ki jak poprzednio i a priori Gamma(α, β), rozkład a posteriori jest

Rozkład predykcyjny a posteriori dla pojedynczej dodatkowej obserwacji jest ujemnym rozkładem dwumianowym [33]: 53, zwanym czasem rozkładem gamma–Poissona.

Jednoczesne oszacowanie wielokrotnych średnich Poissona Edytuj

Zastosowania rozkładu Poissona można znaleźć w wielu dziedzinach, w tym: [36]

    przykład: telefony przychodzące do systemu. przykład: fotony docierające do teleskopu. przykład: rozkład masy molowej żyjącej polimeryzacji. [37] przykład: liczba mutacji na nici DNA na jednostkę długości. przykład: klienci przychodzący do kasy lub call center. przykład: liczba strat lub roszczeń powstałych w danym okresie. przykład: asymptotyczny model Poissona ryzyka sejsmicznego dla dużych trzęsień ziemi. [38] przykład: liczba rozpadów w danym przedziale czasu w próbce radioaktywnej. przykład: liczba fotonów emitowanych w pojedynczym impulsie laserowym. Jest to główna luka w zabezpieczeniach większości protokołów dystrybucji kluczy kwantowych, znanych jako dzielenie liczby fotonów (PNS).

Rozkład Poissona powstaje w związku z procesami Poissona. Dotyczy to różnych zjawisk o własnościach dyskretnych (tj. takich, które mogą wystąpić 0, 1, 2, 3, . razy w danym okresie lub na danym obszarze), gdy prawdopodobieństwo wystąpienia zjawiska jest stałe w czasie lub przestrzeń. Przykłady zdarzeń, które mogą być modelowane jako rozkład Poissona, obejmują:

  • Liczba żołnierzy zabitych każdego roku przez kopniaki w każdym korpusie kawalerii pruskiej. Ten przykład został wykorzystany w książce Władysława Bortkiewicza (1868–1931). [39] : 23-25
  • Liczba komórek drożdży używanych podczas warzenia piwa Guinness. Przykład ten wykorzystał William Sealy Gosset (1876-1937). [40][41]
  • Liczba połączeń telefonicznych przychodzących do call center w ciągu minuty. Ten przykład został opisany przez A.K. Erlanga (1878-1929). [42]
  • Ruch internetowy.
  • Liczba bramek w sporcie z udziałem dwóch rywalizujących drużyn. [43]
  • Liczba zgonów rocznie w danej grupie wiekowej.
  • Liczba skoków ceny akcji w danym przedziale czasowym.
  • Przy założeniu jednorodności oznacza to, ile razy na minutę uzyskuje się dostęp do serwera WWW.
  • Liczba mutacji w danym odcinku DNA po określonej ilości promieniowania.
  • Odsetek komórek, które zostaną zainfekowane przy danej krotności infekcji.
  • Liczba bakterii w określonej ilości płynu. [44]
  • Przybycie fotonów do obwodu pikselowego przy danym oświetleniu i przez określony czas.
  • Celowanie latających bomb V-1 na Londyn podczas II wojny światowej badał R.D. Clarke w 1946 r. [45]

Gallagher wykazał w 1976 roku, że liczenie liczb pierwszych w krótkich odstępach czasu jest zgodne z rozkładem Poissona [46] pod warunkiem, że pewna wersja nieudowodnionej hipotezy r-krotnej liczby pierwszej Hardy'ego-Littlewooda [47] jest prawdziwa.

Prawo rzadkich zdarzeń Edytuj

W kilku z powyższych przykładów — takich jak liczba mutacji w danej sekwencji DNA — zliczane zdarzenia są w rzeczywistości wynikiem dyskretnych prób i byłyby bardziej precyzyjnie modelowane przy użyciu rozkładu dwumianowego, czyli

W takich sprawach n jest bardzo duży i P jest bardzo mały (a więc oczekiwanie) np jest średniej wielkości). Wtedy rozkład można aproksymować mniej uciążliwym rozkładem Poissona [ wymagany cytat ]

To przybliżenie jest czasami znane jako prawo rzadkich zdarzeń, [48] : 5 od każdego z n pojedyncze zdarzenia Bernoulliego występują rzadko. The name may be misleading because the total count of success events in a Poisson process need not be rare if the parameter np is not small. For example, the number of telephone calls to a busy switchboard in one hour follows a Poisson distribution with the events appearing frequent to the operator, but they are rare from the point of view of the average member of the population who is very unlikely to make a call to that switchboard in that hour.

Słowo law is sometimes used as a synonym of probability distribution, and convergence in law znaczy convergence in distribution. Accordingly, the Poisson distribution is sometimes called the "law of small numbers" because it is the probability distribution of the number of occurrences of an event that happens rarely but has very many opportunities to happen. The Law of Small Numbers is a book by Ladislaus Bortkiewicz about the Poisson distribution, published in 1898. [39] [49]

Poisson point process Edit

The Poisson distribution arises as the number of points of a Poisson point process located in some finite region. More specifically, if D is some region space, for example Euclidean space r D , for which |D|, the area, volume or, more generally, the Lebesgue measure of the region is finite, and if n(D) denotes the number of points in D, then

Poisson regression and negative binomial regression Edit

Poisson regression and negative binomial regression are useful for analyses where the dependent (response) variable is the count (0, 1, 2, . ) of the number of events or occurrences in an interval.

Other applications in science Edit

The correlation of the mean and standard deviation in counting independent discrete occurrences is useful scientifically. By monitoring how the fluctuations vary with the mean signal, one can estimate the contribution of a single occurrence, even if that contribution is too small to be detected directly. For example, the charge mi on an electron can be estimated by correlating the magnitude of an electric current with its shot noise. Gdyby n electrons pass a point in a given time T on the average, the mean current is I = e N / t since the current fluctuations should be of the order σ I = e N / t =e>/t> (i.e., the standard deviation of the Poisson process), the charge e can be estimated from the ratio t σ I 2 / I ^<2>/I> . [ wymagany cytat ]

An everyday example is the graininess that appears as photographs are enlarged the graininess is due to Poisson fluctuations in the number of reduced silver grains, not to the individual grains themselves. By correlating the graininess with the degree of enlargement, one can estimate the contribution of an individual grain (which is otherwise too small to be seen unaided). [ wymagany cytat ] Many other molecular applications of Poisson noise have been developed, e.g., estimating the number density of receptor molecules in a cell membrane.

In Causal Set theory the discrete elements of spacetime follow a Poisson distribution in the volume.

The Poisson distribution poses two different tasks for dedicated software libraries: Evaluating the distribution P ( k λ ) , and drawing random numbers according to that distribution.

Evaluating the Poisson distribution Edit

f ( k λ ) = exp ⁡ [ k ln ⁡ λ − λ − ln ⁡ Γ ( k + 1 ) ] ,

which is mathematically equivalent but numerically stable. The natural logarithm of the Gamma function can be obtained using the lgamma function in the C standard library (C99 version) or R, the gammaln function in MATLAB or SciPy, or the log_gamma function in Fortran 2008 and later.

Some computing languages provide built-in functions to evaluate the Poisson distribution, namely

    : function dpois(x, lambda) : function POISSON( x, mean, cumulative) , with a flag to specify the cumulative distribution : univariate Poisson distribution as PoissonDistribution[ λ ] , [50] bivariate Poisson distribution as MultivariatePoissonDistribution[ θ 12 > ,< θ 1 − θ 12 - heta _<12>> , θ 2 − θ 12 - heta _<12>> >] ,. [51]

Random drawing from the Poisson distribution Edit

The less trivial task is to draw random integers from the Poisson distribution with given λ .

Solutions are provided by:

Generating Poisson-distributed random variables Edit

A simple algorithm to generate random Poisson-distributed numbers (pseudo-random number sampling) has been given by Knuth: [52] : 137-138

The complexity is linear in the returned value k, which is λ on average. There are many other algorithms to improve this. Some are given in Ahrens & Dieter, see § References below.

For large values of λ, the value of L = mi −λ may be so small that it is hard to represent. This can be solved by a change to the algorithm which uses an additional parameter STEP such that mi −STEP does not underflow: [ wymagany cytat ]

The choice of STEP depends on the threshold of overflow. For double precision floating point format, the threshold is near mi 700 , so 500 shall be a safe STEP.

Other solutions for large values of λ include rejection sampling and using Gaussian approximation.

Inverse transform sampling is simple and efficient for small values of λ, and requires only one uniform random number ty per sample. Cumulative probabilities are examined in turn until one exceeds ty.

The distribution was first introduced by Siméon Denis Poisson (1781–1840) and published together with his probability theory in his work Recherches sur la probabilité des jugements en matière criminelle et en matière civile(1837). [54] : 205-207 The work theorized about the number of wrongful convictions in a given country by focusing on certain random variables n that count, among other things, the number of discrete occurrences (sometimes called "events" or "arrivals") that take place during a time-interval of given length. The result had already been given in 1711 by Abraham de Moivre in De Mensura Sortis seu de Probabilitate Eventuum in Ludis a Casu Fortuito Pendentibus . [55] : 219 [56] : 14-15 [57] : 193 [6] : 157 This makes it an example of Stigler's law and it has prompted some authors to argue that the Poisson distribution should bear the name of de Moivre. [58] [59]

In 1860, Simon Newcomb fitted the Poisson distribution to the number of stars found in a unit of space. [60] A further practical application of this distribution was made by Ladislaus Bortkiewicz in 1898 when he was given the task of investigating the number of soldiers in the Prussian army killed accidentally by horse kicks [39] : 23-25 this experiment introduced the Poisson distribution to the field of reliability engineering.


A more realistic model!

Now let’s consider per-capita birth and death rates in the population. This way, if the population is bigger, the total births will increase!

Click on this link to load up the next population modeling demonstration.

In the upper right-hand corner of the screen, click on the “Clone Insight” link at the top and click on the “Clone” button on the following screen (so you can make edits to this model!). If you want, you can change the name of the model by clicking on the whitespace anywhere in your InsightMaker workspace and then clicking the “Edit Info” button on the left-hand context menu.

Your model should look something like this:

Hover your cursor over the two [Flows] (Births and Deaths). Do these equations make sense?

Make sure the initial number of moose is set to 50, the birth rate is set to 0.5, and the death rate is set to 0.4. Now click [Run Simulation]. How would you describe the results?

Q: what happens if you set the birth rate equal to the death rate?

Q: what happens if you set the birth rate less than the death rate?

One of the most fundamental quantities in population ecology is called the “intrinsic rate of growth”, or r. R is simply the difference between birth and death rate:

Q: What is the intrinsic rate of growth for this population (when birth rate is set to 0.5 and the death rate is set to 0.4)?

Q: What is the next thing you would like to change to make the model more realistic?


by Joe Felsenstein and Michael Lynch

The blogs of creationists and advocates of ID have been abuzz lately about exciting new work by William Basener and John Sanford. In a peer-reviewed paper at Journal of Mathematical Biology, they have presented a mathematical model of mutation and natural selection in a haploid population, and they find in one realistic case that natural selection is unable to prevent the continual decline of fitness. This is presented as correcting R.A. Fisher’s 1930 “Fundamental Theorem of Natural Selection”, which they argue is the basis for all subsequent theory in population genetics. The blog postings on that will be found here, here, here, here, here, here, and here.

One of us (JF) has argued at The Skeptical Zone that they have misread the literature on population genetics. The theory of mutation and natural selection developed during the 1920s, was relatively fully developed before Fisher’s 1930 book. Fisher’s FTNS has been difficult to understand, and subsequent work has not depended on it. But that still leaves us with the issue of whether the B and S simulations show some startling behavior, with deleterious mutations seemingly unable to be prevented from continually rising in frequency. Let’s take a closer look at their simulations.

Basener and Sanford show equations, mostly mostly taken from a paper by Claus Wilke, for changes in genotype frequencies in a haploid, asexual species experiencing mutation and natural selection. They keep track of the distribution of the values of fitness on a continuous scale time scale. Genotypes at different values of the fitness scale have different birth rates. There is a distribution of fitness effects of mutations, as displacements on the fitness scale. An important detail is that the genotypes are haploid and asexual — they have no recombination, so they do not mate.

After giving the equations for this model, they present runs of a simulation program. In some runs with distributions of mutations that show equal numbers of beneficial and deleterious mutations all goes as expected — the genetic variance in the population rises, and as it does the mean fitness rises more and more. But in their final case, which they argue is more realistic, there are mostly deleterious mutations. The startling outcome in the simulation in that case is there absence of an equilibrium between mutation and selection. Instead the deleterious mutations go to fixation in the population, and the mean fitness of the population steadily declines.

Why does that happen? For deleterious mutations in large populations, we typically see them come to a low equilibrium frequency reflecting a balance between mutation and selection. But they’re not doing that at high mutation rates!

The key is the absence of recombination in these clonally-reproducing haploid organisms. In effect each haploid organism is passed on whole, as if it were a copy of a single gene. So the frequencies of the mutant alleles should reflect the balance between the selection coefficient against the mutant (which is said to be near 0.001 in their simulation) versus the mutation rate. But they have one mutation per generation per haploid individual. Thus the mutation rate is, in effect, 1000 times the selection coefficient against the mutant allele. The selection coefficient of 0.001 means about a 0.1% decline in the frequency of a deleterious allele per generation, which is overwhelmed when one new mutant per individual comes in each generation.

In the usual calculations of the balance between mutation and selection, the mutation rate is smaller than the selection coefficient against the mutant. With (say) 20,000 loci (genes) the mutation rate per locus would be 1/20,000 = 0.00005. That would predict an equilibrium frequency near 0.00005/0.001, or 0.05, at each locus. But if the mutation rate were 1, we predict no equilibrium, but rather that the mutant allele is driven to fixation because the selection is too weak to counteract that large a rate of mutation. So there is really nothing new here. In fact 91 years ago J.B.S. Haldane, in his 1927 paper on the balance between selection and mutation, wrote that “To sum up, if selection acts against mutation, it is ineffective provided that the rate of mutation is greater than the coefficient of selection.”

If Basener and Sanford’s simulation allowed recombination between the genes, the outcome would be very different — there would be an equilibrium gene frequency at each locus, with no tendency of the mutant alleles at the individual loci to rise to fixation.

If selection acted individually at each locus, with growth rates for each haploid genotype being added across loci, a similar result would be expected, even without recombination. But in the Basener/Stanford simulation the fitnesses do not add — instead they generate linkage disequilibrium, in this case negative associations that leave us with selection at the different loci opposing each other. Add in recombination, and there would be a dramatically different, and much more conventional, result.

Technical Oddities

Most readers may want to stop there. We add this section for those more familiar with population genetics theory, simply to point out some mysteries connected with the Basener/Stanford simulations:

1. One odd assumption that they make is that any fitness class that has a frequency below 1 part in a billion gets set to 0. This is not a reasonable way to take genetic drift into account, as all fitness classes are subject to random fluctuations. We imagine such a treatment is a minor issue, relative to the enormous mutation pressure imposed in their study. But someone should check this, which can be done as their Javascript source can be downloaded and then made comprehensible by a Javascript beautifier.

2. The behavior of their iterations in some cases is, well, weird. In the crucial final simulation, the genetic variance of fitness rises, reaches a limit, bounces sharply off it, and from then on decreases. We’re not sure why, and suspect a program bug, which we haven’t noticed. We have found that if we run the simulation for many more generations, such odd bouncings of the mean and variance off of upper and lower limits are ultimately seen. We don’t think that this has much to do with mutation overwhelming selection, though.

3. We note one mistake in the Basener and Sanford work. The organisms’ death rates are 0.1 per time step. That would suggest a generation time of about 10 time steps. But Basener and Stanford take there to be one generation per unit of time. That is incorrect. However the mutation rate and the selection coefficient are still 1 and 0.001 per generation, even if the generations are 10 units of time.

Joe Felsenstein, originally trained as a theoretical population geneticist, is an evolutionary biologist who is Professor Emeritus in the Department of Genome Sciences and the Department of Biology at the University of Washington, Seattle. He is the author of the books “Inferring Phylogenies” and “Theoretical Evolutionary Genetics”. He frequently posts and comments here.

Michael Lynch is the director of the Biodesign Center for Mechanisms of Evolution at Arizona State University, and author of “The Origins of Genome Architecture” and, with Bruce Walsh, of “Genetics and Analysis of Quantitative Traits”. Six of his papers are cited in the Basener/Stanford paper.


Notes on Poisson Distribution and Binomial Distribution

A Binomial Distribution is used to model the probability of the number of successes we can expect from n trials with a probability p. The Poisson Distribution is a special case of the Binomial Distribution as n goes to infinity while the expected number of successes remains fixed. The Poisson is used as an approximation of the Binomial if n is large and p is small.

As with many ideas in statistics, “large” and “small” are up to interpretation. A rule of thumb is the Poisson distribution is a decent approximation of the Binomial if n > 20 and np < 10. Therefore, a coin flip, even for 100 trials, should be modeled as a Binomial because np =50. A call center which gets 1 call every 30 minutes over 120 minutes could be modeled as a Poisson distribution as np = 4. One important distinction is a Binomial occurs for a fixed set of trials (the domain is discrete) while a Poisson occurs over a theoretically infinite number of trials (continuous domain). This is only an approximation remember, all models are wrong, but some are useful!


3 Poisson Regression

No, but seriously, here’s the entire Poisson section on Robert I. Kabacoff’s quickR blog at http://www.statmethods.net/advstats/glm.html:

It’s about cases (i.e., counts) of disease among high school students by number of days after outbreak. Here’s the data, called ‘cases.’ Each time, run the whole chunk at once or it won’t work.

Behold, the Poisson distribution! Notice the mode at one extreme and the tail off to the other side. This is characteristic of Poisson distributions.


Central Limit Theorem with a Skewed Distribution

The Poisson distribution is another probability model that is useful for modeling discrete variables such as the number of events occurring during a given time interval. For example, suppose you typically receive about 4 spam emails per day, but the number varies from day to day. Today you happened to receive 5 spam emails. What is the probability of that happening, given that the typical rate is 4 per day? The Poisson probability is:

The mean for the distribution is μ (the average or typical rate), "X" is the actual number of events that occur ("successes"), and "e" is the constant approximately equal to 2.71828. So, in the example above

Now let's consider another Poisson distribution. with μ=3 and σ=1.73. The distribution is shown in the figure below.

This population is not normally distributed, but the Central Limit Theorem will apply if n > 30. In fact, if we take samples of size n=30, we obtain samples distributed as shown in the first graph below with a mean of 3 and standard deviation = 0.32. In contrast, with small samples of n=10, we obtain samples distributed as shown in the lower graph. Note that n=10 does not meet the criterion for the Central Limit Theorem, and the small samples on the right give a distribution that is not quite normal. Also note that the sample standard deviation (also called the "standard error") is larger with smaller samples, because it is obtained by dividing the population standard deviation by the square root of the sample size. Another way of thinking about this is that extreme values will have less impact on the sample mean when the sample size is large.

Content �. All Rights Reserved.
Date last modified: July 24, 2016.
Wayne W. LaMorte, MD, PhD, MPH


Obejrzyj wideo: Dlaczego YOUTUBE zaokrąglił liczbę subskrypcji? (Może 2022).


Uwagi:

  1. Marty

    Przepraszam za wtrącanie się... Byłem tu niedawno. Ale ten temat jest mi bardzo bliski. Mogę pomóc z odpowiedzią.

  2. Zulkigrel

    Brawo, twój pomysł jest bardzo dobry

  3. Abdul-Salam

    Muszę ci powiedzieć, że to nieprawda.



Napisać wiadomość