Funkcja rozkładu zmiennej losowej. Ciągłe zmienne losowe. Znajdź funkcję rozkładu F(x)

Funkcja rozkładu prawdopodobieństwa i jej własności.

Funkcja rozkładu prawdopodobieństwa F(x) zmiennej losowej X w punkcie x to prawdopodobieństwo, że w wyniku eksperymentu zmienna losowa przyjmie wartość mniejszą od x, tj. F(x)=P(X< х}.
Rozważmy własności funkcji F(x).

1. F(-∞)=lim (x→-∞) F(x)=0. Rzeczywiście, z definicji F(-∞)=P(X< -∞}. Событие (X < -∞) является невозможным событием: F(-∞)=P{X < - ∞}=p{V}=0.

2. F(∞)=lim (x→∞) F(x)=1, ponieważ z definicji F(∞)=P(X< ∞}. Событие Х < ∞ является достоверным событием. Следовательно, F(∞)=P{X < ∞}=p{U}=1.

3. Prawdopodobieństwo, że zmienna losowa przyjmie wartość z przedziału [Α Β] jest równe przyrostowi funkcji rozkładu prawdopodobieństwa w tym przedziale. P(Α ≤X<Β}=F(Β)-F(Α).

4. F(x 2)≥ F(x 1), jeśli x 2, > x 1, tj. Funkcja rozkładu prawdopodobieństwa jest funkcją niemalejącą.

5. Funkcja rozkładu prawdopodobieństwa pozostaje ciągła. FΨ(x o -0)=limFΨ(x)=FΨ(x o) dla x → x o

Różnice pomiędzy funkcjami rozkładu prawdopodobieństwa dyskretnych i ciągłych zmiennych losowych można dobrze zilustrować wykresami. Niech na przykład dyskretna zmienna losowa ma n możliwa wartość, którego prawdopodobieństwa są równe P(X=x k )=p k , k=1,2,..n. Jeżeli x ≤ x 1, to F(X)=0, ponieważ po lewej stronie x nie ma możliwych wartości zmiennej losowej. Jeśli x 1< x ≤ x 2 , то левее х находится всего одно возможное значение, а именно, значение х 1 .

Oznacza to, że F(x)=P(X=x 1 )=p 1. Przy x 2< x ≤ x 3 слева от х находится уже два возможных значения, поэтому F(x)=P{X=x 1 }+P{X=x 2 }=p 1 +p 2 . Рассуждая аналогично,приходим к выводу, что если х k < x≤ x k+1 , то F(x)=1, так как функция будет равна сумме вероятностей всех возможных значений, которая по условию нормировки равна еденице. Таким образом, график функции распределения дискретной случайной величины является ступенчатым. Возможные значения непрерывной величины располагаются плотно на интервале задания этой величины, что обеспечивает плавное возрастания функции распределения F(x), т.е. ее непрерывность.

Rozważmy prawdopodobieństwo, że zmienna losowa znajdzie się w przedziale , Δx>0: P(x≤X< x+Δx}=F(x+ Δx)-F(x). Перейдем к пределу при Δx→0:

granica (Δx → 0) P(x≤ X< x+Δx}=lim (Δx→0) F(x+Δx)-F(x). Предел равен вероятности того, что случайная величина примет значение, равное х. Если функция F(x) непрерывна в точке х, то lim (Δx→0) F(x+Δx)=F(x), т.е. P{X=x}=0.

Jeżeli F(x) ma nieciągłość w punkcie x, to prawdopodobieństwo P(X=x) będzie równe skokowi funkcji w tym punkcie. Zatem prawdopodobieństwo wystąpienia jakiejkolwiek możliwej wartości dla wartości ciągłej wynosi zero. Przez wyrażenie P(X=x)=0 należy rozumieć granicę prawdopodobieństwa wpadnięcia zmiennej losowej w nieskończenie małe sąsiedztwo punktu x dla P(Α< X≤ Β},P{Α ≤ X< Β},P{Α< X< Β},P{Α ≤ X≤ Β} равны, если Х - непрерывная случайная величина.

W przypadku zmiennych dyskretnych prawdopodobieństwa te nie są takie same w przypadku, gdy granice przedziału Α i (lub) Β pokrywają się z możliwymi wartościami zmiennej losowej. W przypadku dyskretnej zmiennej losowej należy ściśle uwzględnić rodzaj nierówności we wzorze P(Α ≤X<Β}=F(Β)-F(Α).

Wartość oczekiwana

Dyspersja ciągła zmienna losowa X, której możliwe wartości należą do całej osi Wółu, jest określona przez równość:

Cel usługi. Kalkulator online przeznaczony jest do rozwiązywania problemów, w których: gęstość dystrybucji f(x) lub dystrybuantę F(x) (patrz przykład). Zwykle w takich zadaniach musisz znaleźć wartość oczekiwana, odchylenie standardowe, wykresy funkcji f(x) i F(x).

Instrukcje. Wybierz typ danych źródłowych: gęstość rozkładu f(x) lub funkcja rozkładu F(x).

Podana gęstość rozkładu f(x) Podana funkcja rozkładu F(x).

Gęstość rozkładu f(x) jest dana:

Dana jest funkcja rozkładu F(x):

Ciągła zmienna losowa jest określona przez gęstość prawdopodobieństwa
(Prawo dystrybucji Rayleigha - stosowane w radiotechnice). Znajdź M(x) , D(x) .

Nazywa się zmienną losową X ciągły , jeśli jego funkcja dystrybucji F(X)=P(X< x) непрерывна и имеет производную.
Funkcja rozkładu ciągłej zmiennej losowej służy do obliczenia prawdopodobieństwa, że ​​zmienna losowa znajdzie się w zadanym przedziale:
P(α< X < β)=F(β) - F(α)
Co więcej, dla ciągłej zmiennej losowej nie ma znaczenia, czy jej granice mieszczą się w tym przedziale, czy nie:
P(α< X < β) = P(α ≤ X < β) = P(α ≤ X ≤ β)
Gęstość dystrybucji ciągła zmienna losowa nazywana jest funkcją
f(x)=F’(x) , pochodna funkcji rozkładu.

Właściwości gęstości rozkładu

1. Gęstość rozkładu zmiennej losowej jest nieujemna (f(x) ≥ 0) dla wszystkich wartości x.
2. Warunek normalizacji:

Znaczenie geometryczne warunku normalizacji: pole pod krzywą gęstości rozkładu jest równe jedności.
3. Prawdopodobieństwo, że zmienna losowa X znajdzie się w przedziale od α do β, można obliczyć ze wzoru

Geometrycznie prawdopodobieństwo, że ciągła zmienna losowa X wpadnie w przedział (α, β) jest równe polu trapezu krzywoliniowego pod krzywą gęstości rozkładu opartą na tym przedziale.
4. Dystrybuantę wyraża się w gęstości w następujący sposób:

Wartość gęstości rozkładu w punkcie x nie jest równa prawdopodobieństwu przyjęcia tej wartości; dla ciągłej zmiennej losowej możemy mówić jedynie o prawdopodobieństwie wpadnięcia w dany przedział. Pozwalać . Charakterystyka numeryczna X:

Stąd, . Rozwiązując ten układ otrzymujemy dwie pary wartości: . Ponieważ zgodnie z warunkami problemu ostatecznie mamy: .

Odpowiedź: .

Przykład 2.11.Średnio poniżej 10% umów ubezpieczyciel wypłaca sumy ubezpieczenia w związku z wystąpieniem zdarzenie ubezpieczone. Oblicz matematyczne oczekiwanie i rozrzut liczby takich kontraktów wśród czterech losowo wybranych.

Rozwiązanie: Matematyczne oczekiwanie i wariancję można znaleźć za pomocą wzorów:

.

Możliwe wartości SV (liczba umów (z czterech) z wystąpieniem zdarzenia ubezpieczeniowego): 0, 1, 2, 3, 4.

Do obliczenia prawdopodobieństw wystąpienia różnej liczby umów (z czterech), za które wypłacono sumę ubezpieczenia, stosujemy wzór Bernoulliego:

.

Szereg rozkładowy IC (liczba umów z wystąpieniem zdarzenia ubezpieczeniowego) ma postać:

0,6561 0,2916 0,0486 0,0036 0,0001

Odpowiedź: , .

Przykład 2.12. Z pięciu róż dwie są białe. Narysuj prawo rozkładu zmiennej losowej wyrażającej liczbę białych róż z dwóch jednocześnie zebranych.

Rozwiązanie: W zestawie dwóch róż może nie być żadnej białej róży lub może być jedna lub dwie białe róże. Dlatego zmienna losowa X może przyjmować wartości: 0, 1, 2. Prawdopodobieństwa, że X przyjmuje te wartości, znajdujemy je za pomocą wzoru:

Gdzie -- liczba róż;

-- liczba białych róż;

liczba róż zebranych w tym samym czasie;

-- liczbę białych róż wśród zebranych.

.

.

.

Wtedy prawo rozkładu zmiennej losowej będzie wyglądało następująco:

Przykład 2.13. Spośród 15 zmontowanych jednostek 6 wymaga dodatkowego smarowania. Sporządź prawo podziału liczby jednostek wymagających dodatkowego smarowania spośród pięciu losowo wybranych z całkowitej liczby.

Rozwiązanie: Losowa wartość X– liczba jednostek wymagających dodatkowego smarowania spośród pięciu wybranych – może przyjmować wartości: 0, 1, 2, 3, 4, 5 i ma rozkład hipergeometryczny. Prawdopodobieństwo, że X przyjmuje te wartości, znajdujemy je za pomocą wzoru:

Gdzie -- liczba zmontowanych jednostek;

-- liczba jednostek wymagających dodatkowego smarowania;

liczba wybranych jednostek;

-- liczba wybranych jednostek wymagających dodatkowego smarowania.

.

.

.

.

.

.

Wtedy prawo rozkładu zmiennej losowej będzie wyglądało następująco:

Przykład 2.14. Spośród 10 zegarków otrzymanych do naprawy 7 wymaga generalnego czyszczenia mechanizmu. Zegarki nie są sortowane według rodzaju naprawy. Mistrz, chcąc znaleźć zegarki wymagające czyszczenia, przegląda je jeden po drugim i po znalezieniu takich zegarków zaprzestaje dalszego przeglądania. Znajdź matematyczne oczekiwanie i wariancję liczby godzin oglądania.

Rozwiązanie: Losowa wartość X– liczba jednostek wymagających dodatkowego smarowania spośród pięciu wybranych – może przyjmować wartości: 1, 2, 3, 4. Prawdopodobieństwa, że X przyjmuje te wartości, znajdujemy je za pomocą wzoru:

.

.

.

.

Wtedy prawo rozkładu zmiennej losowej będzie wyglądało następująco:

Teraz obliczmy charakterystykę liczbową ilości:

Odpowiedź: , .

Przykład 2.15. Abonent zapomniał ostatniej cyfry numeru telefonu, którego potrzebuje, ale pamięta, że ​​jest to dziwne. Znajdź matematyczne oczekiwanie i wariancję liczby wybierań numeru telefonu przed osiągnięciem żądanego numeru, jeśli losowo wybierze ostatnią cyfrę, a następnie nie wybierze wybranej cyfry.

Rozwiązanie: Zmienna losowa może przyjmować następujące wartości: . Ponieważ abonent nie wybiera w przyszłości wybieranej cyfry, prawdopodobieństwa tych wartości są równe.

Skompilujmy szereg dystrybucyjny zmiennej losowej:

0,2

Obliczmy matematyczne oczekiwanie i wariancję liczby prób wybierania numeru:

Odpowiedź: , .

Przykład 2.16. Prawdopodobieństwo awarii podczas testów niezawodności dla każdego urządzenia w serii jest równe P. Określ matematyczne oczekiwanie liczby urządzeń, które uległy awarii, jeśli zostały przetestowane N urządzenia.

Rozwiązanie: Dyskretna zmienna losowa X to liczba uszkodzonych urządzeń N niezależnych testów, w każdym z których prawdopodobieństwo niepowodzenia jest równe P, rozdzielone zgodnie z prawem dwumianu. Matematyczne oczekiwanie rozkładu dwumianowego jest równe liczbie prób pomnożonej przez prawdopodobieństwo wystąpienia zdarzenia w jednej próbie:

Przykład 2.17. Dyskretna zmienna losowa X przyjmuje 3 możliwe wartości: z prawdopodobieństwem ; z prawdopodobieństwem i z prawdopodobieństwem. Znajdź i , wiedząc, że M( X) = 8.

Rozwiązanie: Korzystamy z definicji oczekiwań matematycznych i prawa rozkładu dyskretnej zmiennej losowej:

Znaleźliśmy: .

Przykład 2.18. Dział kontroli technicznej sprawdza produkty pod kątem normalności. Prawdopodobieństwo, że produkt jest standardowy, wynosi 0,9. Każda partia zawiera 5 produktów. Znajdź matematyczne oczekiwanie zmiennej losowej X– liczbę partii, z których każda zawiera dokładnie 4 produkty standardowe, jeżeli kontroli podlega 50 partii.

Rozwiązanie: W w tym przypadku wszystkie przeprowadzone doświadczenia są niezależne, a prawdopodobieństwa, że ​​w każdej partii znajdują się dokładnie 4 produkty wzorcowe, są takie same, dlatego też oczekiwanie matematyczne można wyznaczyć ze wzoru:

,

gdzie jest liczba stron;

Prawdopodobieństwo, że partia zawiera dokładnie 4 produkty standardowe.

Prawdopodobieństwo obliczamy korzystając ze wzoru Bernoulliego:

Odpowiedź: .

Przykład 2.19. Znajdź wariancję zmiennej losowej X– liczba wystąpień zdarzenia A w dwóch niezależnych próbach, jeżeli prawdopodobieństwa wystąpienia zdarzenia w tych próbach są takie same i wiadomo, że M(X) = 0,9.

Rozwiązanie: Problem można rozwiązać na dwa sposoby.

1) Możliwe wartości SV X: 0, 1, 2. Korzystając ze wzoru Bernoulliego wyznaczamy prawdopodobieństwa tych zdarzeń:

, , .

Następnie prawo dystrybucji X ma postać:

Z definicji oczekiwań matematycznych wyznaczamy prawdopodobieństwo:

Znajdźmy dyspersję SV X:

.

2) Możesz skorzystać ze wzoru:

.

Odpowiedź: .

Przykład 2.20. Oczekiwanie i odchylenie standardowe zmiennej losowej o rozkładzie normalnym X odpowiednio równe 20 i 5. Znajdź prawdopodobieństwo, że w wyniku testu X przyjmie wartość zawartą w przedziale (15; 25).

Rozwiązanie: Prawdopodobieństwo trafienia normalnej zmiennej losowej X na odcinku od do wyraża się funkcją Laplace'a:

Przykład 2.21. Podana funkcja:

Przy jakiej wartości parametru C ta funkcja jest gęstością rozkładu pewnej ciągłej zmiennej losowej X? Znajdź matematyczne oczekiwanie i wariancję zmiennej losowej X.

Rozwiązanie: Aby funkcja była gęstością rozkładu jakiejś zmiennej losowej musi być nieujemna i spełniać własność:

.

Stąd:

Obliczmy oczekiwanie matematyczne, korzystając ze wzoru:

.

Obliczmy wariancję korzystając ze wzoru:

T jest równe P. Konieczne jest znalezienie matematycznego oczekiwania i wariancji tej zmiennej losowej.

Rozwiązanie: Prawo rozkładu dyskretnej zmiennej losowej X - liczbę wystąpień zdarzenia w niezależnych próbach, w których prawdopodobieństwo wystąpienia zdarzenia jest równe , nazywa się dwumianem. Matematyczne oczekiwanie rozkładu dwumianowego jest równe iloczynowi liczby prób i prawdopodobieństwa wystąpienia zdarzenia A w jednej próbie:

.

Przykład 2.25. Do tarczy oddawane są trzy niezależne strzały. Prawdopodobieństwo trafienia każdego strzału wynosi 0,25. Określ odchylenie standardowe liczby trafień trzema strzałami.

Rozwiązanie: Ponieważ przeprowadzane są trzy niezależne próby, a prawdopodobieństwo wystąpienia zdarzenia A (trafienia) w każdej próbie jest takie samo, założymy, że dyskretna zmienna losowa X – liczba trafień w cel – rozkłada się według prawo dwumianowe.

Wariancja rozkładu dwumianowego jest równa iloczynowi liczby prób i prawdopodobieństwa wystąpienia lub niewystąpienia zdarzenia w jednej próbie:

Przykład 2.26.Średnia liczba odwiedzających klientów firma ubezpieczeniowa za 10 minut równa się trzy. Znajdź prawdopodobieństwo, że w ciągu najbliższych 5 minut pojawi się co najmniej jeden klient.

Średnia liczba klientów przybywających w ciągu 5 minut: . .

Przykład 2.29. Czas oczekiwania aplikacji w kolejce procesora jest zgodny z prawem rozkładu wykładniczego ze średnią wartością 20 sekund. Znajdź prawdopodobieństwo, że następne (losowe) żądanie będzie czekać na procesorze dłużej niż 35 sekund.

Rozwiązanie: W tym przykładzie oczekiwanie matematyczne , a wskaźnik awaryjności jest równy .

Następnie pożądane prawdopodobieństwo:

Przykład 2.30. Grupa 15 uczniów spotyka się w sali składającej się z 20 rzędów po 10 miejsc każdy. Każdy uczeń zajmuje losowe miejsce na sali. Jakie jest prawdopodobieństwo, że na siódmym miejscu w rzędzie znajdą się nie więcej niż trzy osoby?

Rozwiązanie:

Przykład 2.31.

Następnie, zgodnie z klasyczną definicją prawdopodobieństwa:

Gdzie -- liczba części w partii;

-- liczba niestandardowych części w partii;

liczba wybranych części;

-- liczba części niestandardowych spośród wybranych.

Wtedy prawo dystrybucji zmiennej losowej będzie następujące.

1.2.4. Zmienne losowe i ich rozkłady

Rozkłady zmiennych losowych i funkcje rozkładu. Rozkład numerycznej zmiennej losowej to funkcja, która w jednoznaczny sposób określa prawdopodobieństwo, że zmienna losowa przyjmie daną wartość lub będzie należeć do określonego przedziału.

Po pierwsze, zmienna losowa przyjmuje skończoną liczbę wartości. Następnie rozkład jest dany przez funkcję P(X = x), przypisanie każdej możliwej wartości X zmienna losowa X prawdopodobieństwo, że X = x.

Po drugie, zmienna losowa przyjmuje nieskończenie wiele wartości. Jest to możliwe tylko wtedy, gdy przestrzeń probabilistyczna, na której zdefiniowana jest zmienna losowa, składa się z nieskończonej liczby zdarzeń elementarnych. Następnie rozkład jest dany przez zbiór prawdopodobieństw Rocznie < X dla wszystkich par liczb a, b takie, że A . Rozkład można określić za pomocą tzw. funkcja dystrybucji F(x) = P(X definiujące dla wszystkich prawdziwych X prawdopodobieństwo, że zmienna losowa X przyjmuje wartości mniejsze niż X. Jest oczywiste, że

Rocznie < X

Zależność ta pokazuje, że zarówno rozkład można obliczyć z funkcji dystrybucji, jak i odwrotnie, funkcję rozkładu można obliczyć z rozkładu.

Używane w probabilistyce metody statystyczne podejmowanie decyzji i inne badania stosowane Funkcje rozkładu są albo dyskretne, albo ciągłe, albo ich kombinacje.

Dystrybuanty dyskretne odpowiadają dyskretnym zmiennym losowym, które przyjmują skończoną liczbę wartości lub wartości ze zbioru, którego elementy można ponumerować liczbami naturalnymi (takie zbiory nazywane są w matematyce policzalnymi). Ich wykres wygląda jak drabina schodkowa (ryc. 1).

Przykład 1. Numer X wadliwe elementy w partii przyjmują wartość 0 z prawdopodobieństwem 0,3, wartość 1 z prawdopodobieństwem 0,4, wartość 2 z prawdopodobieństwem 0,2 i wartość 3 z prawdopodobieństwem 0,1. Wykres funkcji rozkładu zmiennej losowej X pokazano na ryc. 1.

Ryc.1. Wykres funkcji rozkładu liczby wadliwych produktów.

Funkcje rozkładu ciągłego nie mają skoków. Zwiększają się monotonicznie wraz ze wzrostem argumentu - od 0 do 1 w . Zmienne losowe posiadające rozkład ciągły nazywane są ciągłymi.

Funkcje rozkładu ciągłego stosowane w probabilistycznych metodach statystycznych podejmowanie decyzji, mają pochodne. Pierwsza pochodna k(x) funkcje dystrybucji F(x) nazywa się gęstością prawdopodobieństwa,

Korzystając z gęstości prawdopodobieństwa, możesz wyznaczyć funkcję rozkładu:

Dla dowolnej funkcji rozkładu

Wymienione właściwości funkcji rozkładu są stale wykorzystywane w probabilistycznych i statystycznych metodach podejmowania decyzji. W szczególności ostatnia równość implikuje specyficzną formę stałych we wzorach na gęstości prawdopodobieństwa rozważanych poniżej.

Przykład 2. Często używana jest następująca funkcja rozkładu:

(1)

Gdzie A I B– kilka liczb, A . Znajdźmy gęstość prawdopodobieństwa tej funkcji rozkładu:

(w punktach x = a I x = b pochodna funkcji F(x) nie istnieje).

Zmienna losowa posiadająca dystrybuantę (1) nazywana jest „równomiernie rozłożoną na przedziale [ A; B]».

Mieszane funkcje rozkładu występują w szczególności wtedy, gdy obserwacje zatrzymują się w pewnym momencie. Na przykład podczas analizy danych statystycznych uzyskanych w wyniku wykorzystania planów testów niezawodności, które przewidują zakończenie testów po pewnym czasie. Lub przy analizie danych o produktach technicznych wymagających napraw gwarancyjnych.

Przykład 3. Niech na przykład żywotność żarówki elektrycznej będzie zmienną losową z funkcją rozkładu F(t), i badanie prowadzi się do momentu przepalenia się żarówki, jeżeli nastąpi to w czasie krótszym niż 100 godzin od rozpoczęcia badania, lub do czasu t 0= 100 godzin. Pozwalać G(t)– rozkład czasu pracy żarówki w dobrym stanie podczas tego testu. Następnie

Funkcjonować G(t) ma skok w pewnym momencie t 0, ponieważ odpowiednia zmienna losowa przyjmuje wartość t 0 z prawdopodobieństwem 1- F(t0)> 0.

Charakterystyka zmiennych losowych. W probabilistyczno-statystycznych metodach podejmowania decyzji wykorzystuje się szereg charakterystyk zmiennych losowych, wyrażanych za pomocą funkcji rozkładu i gęstości prawdopodobieństwa.

Przy opisie zróżnicowania dochodów, przy wyznaczaniu granic ufności dla parametrów rozkładów zmiennych losowych oraz w wielu innych przypadkach posługuje się pojęciem „kwantyla rzędu” R", gdzie 0< P < 1 (обозначается x s). Zamów kwantyl R– wartość zmiennej losowej, dla której funkcja rozkładu przyjmuje wartość R lub następuje „skok” od wartości mniejszej R do wartości większej R(ryc. 2). Może się zdarzyć, że warunek ten będzie spełniony dla wszystkich wartości x należących do tego przedziału (czyli dystrybuanta jest na tym przedziale stała i wynosi R). Wówczas każdą taką wartość nazywamy „kwantylem porządku” R" W przypadku funkcji rozkładu ciągłego z reguły istnieje jeden kwantyl x s zamówienie R(ryc. 2) i

F(x p) = p. (2)

Ryc.2. Definicja kwantyla x s zamówienie R.

Przykład 4. Znajdźmy kwantyl x s zamówienie R dla funkcji dystrybucji F(x) od 1).

O godzinie 0< P < 1 квантиль x s wynika z równania

te. x s = a + p(b – a) = a( 1- p) +bp. Na P= 0 dowolne X < A jest kwantylem porządku P= 0. Kwantyl porządku P= 1 to dowolna liczba X > B.

W przypadku dystrybucji dyskretnych z reguły nie ma x s, spełniające równanie (2). Dokładniej, jeśli rozkład zmiennej losowej podano w tabeli 1, gdzie x 1< x 2 < … < x k , następnie równość (2), rozpatrywana jako równanie ze względu na x s, zawiera rozwiązania tylko dla k wartości P, mianowicie,

p = p 1 ,

p = p 1 + p 2 ,

p = p 1 + p 2 + p 3 ,

p = p 1 + p 2 + …+ po południu, 3 < M < k,

P = P 1 + P 2 + … + p.k.

Tabela 1.

Rozkład dyskretnej zmiennej losowej

Dla wymienionych k wartości prawdopodobieństwa P rozwiązanie x s równanie (2) nie jest unikalne, mianowicie

F(x) = p 1 + p 2 + … + p m

dla wszystkich X takie, że x m< x < x m+1 . Te. x p – dowolna liczba z przedziału (x m; x m+1]. Dla wszystkich innych R z przedziału (0;1), nieujętego na liście (3), następuje „skok” od wartości mniejszej R do wartości większej R. Mianowicie, jeśli

p 1 + p 2 + … + p m

To x p = x m+1.

Rozważana właściwość rozkładów dyskretnych stwarza znaczne trudności podczas zestawiania i stosowania takich rozkładów, ponieważ niemożliwe jest dokładne zachowanie typowych wartości liczbowych charakterystyk rozkładu. W szczególności dotyczy to wartości krytycznych i poziomów istotności nieparametrycznych testów statystycznych (patrz poniżej), ponieważ rozkłady statystyk tych testów są dyskretne.

Kolejność kwantylowa ma ogromne znaczenie w statystyce R= ½. Nazywa się to medianą (zmienna losowa X lub jego funkcje dystrybucyjne F(x)) i jest wyznaczony Ja(X). W geometrii istnieje pojęcie „środkowej” - linii prostej przechodzącej przez wierzchołek trójkąta i dzielącej jego przeciwny bok na pół. W statystyce matematycznej mediana dzieli na pół nie bok trójkąta, ale rozkład zmiennej losowej: równość F(x 0,5)= 0,5 oznacza prawdopodobieństwo dostania się w lewo x 0,5 i prawdopodobieństwo dotarcia w prawo x 0,5(lub bezpośrednio do x 0,5) są sobie równe i równe ½, tj.

P(X < X 0,5) = P(X > X 0,5) = ½.

Mediana wskazuje „centrum” rozkładu. Z punktu widzenia jednej ze współczesnych koncepcji – teorii stabilnych procedur statystycznych – mediana jest lepszą charakterystyką zmiennej losowej niż oczekiwanie matematyczne. Podczas przetwarzania wyników pomiarów na skali porządkowej (patrz rozdział o teorii pomiaru) można zastosować medianę, ale nie można zastosować oczekiwań matematycznych.

Cecha zmiennej losowej taka jak mod ma jasne znaczenie - wartość (lub wartości) zmiennej losowej odpowiadająca lokalnemu maksimum gęstości prawdopodobieństwa dla ciągłej zmiennej losowej lub lokalnemu maksimum prawdopodobieństwa dla dyskretnej zmiennej losowej .

Jeśli x 0– postać zmiennej losowej z gęstością f(x), wówczas, jak wiadomo z rachunku różniczkowego, .

Zmienna losowa może mieć wiele postaci. Zatem dla równomiernego rozkładu (1) każdy punkt X takie, że A< x < b , jest moda. Jest to jednak wyjątek. Większość zmiennych losowych stosowanych w probabilistycznych statystycznych metodach podejmowania decyzji i innych badaniach stosowanych ma jeden tryb. Zmienne losowe, gęstości i rozkłady posiadające jeden tryb nazywane są unimodalnymi.

Oczekiwanie matematyczne dla dyskretnych zmiennych losowych o skończonej liczbie wartości zostało omówione w rozdziale „Zdarzenia i prawdopodobieństwa”. Dla ciągłej zmiennej losowej X wartość oczekiwana M(X) spełnia równość

co jest analogią wzoru (5) ze stwierdzenia 2 rozdziału „Zdarzenia i prawdopodobieństwa”.

Przykład 5. Oczekiwanie na równomiernie rozłożoną zmienną losową X równa się

W przypadku zmiennych losowych rozpatrywanych w tym rozdziale wszystkie właściwości oczekiwań matematycznych i wariancji, które zostały wcześniej rozważone dla dyskretnych zmiennych losowych o skończonej liczbie wartości, są prawdziwe. Nie przedstawiamy jednak dowodu na te właściwości, ponieważ wymagają one zagłębienia się w subtelności matematyczne, co nie jest konieczne do zrozumienia i kwalifikowanego zastosowania probabilistyczno-statystycznych metod podejmowania decyzji.

Komentarz. W podręczniku celowo unika się subtelności matematycznych związanych w szczególności z pojęciami zbiorów mierzalnych i funkcji mierzalnych, algebry zdarzeń itp. Pragnący opanować te pojęcia powinni sięgnąć po literaturę specjalistyczną, w szczególności encyklopedię.

Każda z trzech cech – oczekiwanie matematyczne, mediana, moda – opisuje „środek” rozkładu prawdopodobieństwa. Pojęcie „centrum” można definiować na różne sposoby – stąd trzy różne cechy. Jednak w przypadku ważnej klasy rozkładów – symetrycznych unimodalnych – wszystkie trzy cechy są zbieżne.

Gęstość dystrybucji k(x)– gęstość rozkładu symetrycznego, jeśli istnieje liczba x 0 takie, że

. (3)

Równość (3) oznacza, że ​​wykres funkcji y = f(x) symetryczny względem linii pionowej przechodzącej przez środek symetrii X = X 0. Z (3) wynika, że ​​rozkład symetryczny spełnia zależność

(4)

W przypadku rozkładu symetrycznego z jedną modą oczekiwanie matematyczne, mediana i moda pokrywają się i są równe x 0.

Najważniejszym przypadkiem jest symetria wokół 0, tj. x 0= 0. Wtedy (3) i (4) stają się równościami

(6)

odpowiednio. Powyższe zależności pokazują, że nie ma potrzeby zestawiania rozkładów symetrycznych dla wszystkich X, wystarczy mieć stoliki przy X > x 0.

Zwróćmy uwagę na jeszcze jedną właściwość rozkładów symetrycznych, która jest stale wykorzystywana w probabilistyczno-statystycznych metodach podejmowania decyzji i innych badaniach stosowanych. Dla funkcji rozkładu ciągłego

P(|X| < a) = P(-a < X < a) = F(a) – F(-a),

Gdzie F– dystrybuanta zmiennej losowej X. Jeśli funkcja dystrybucji F jest symetryczny względem 0, tj. wówczas obowiązuje dla niego wzór (6).

P(|X| < a) = 2F(a) – 1.

Często używane jest inne sformułowanie omawianego stwierdzenia: jeśli

.

Jeżeli i są kwantylami rzędu i odpowiednio (patrz (2)) funkcji rozkładu symetrycznej wokół 0, to z (6) wynika, że

Z charakterystyki pozycji – oczekiwanie matematyczne, mediana, moda – przejdźmy do charakterystyki rozrzutu zmiennej losowej X: wariancja, średnia odchylenie kwadratowe i współczynnik zmienności w. Definicja i właściwości dyspersji dyskretnych zmiennych losowych zostały omówione w poprzednim rozdziale. Dla ciągłych zmiennych losowych

Odchylenie standardowe to nieujemna wartość pierwiastka kwadratowego wariancji:

Współczynnik zmienności to stosunek odchylenia standardowego do oczekiwań matematycznych:

Współczynnik zmienności stosuje się, gdy M(X)> 0. Mierzy rozrzut w jednostkach względnych, podczas gdy odchylenie standardowe jest wyrażone w jednostkach bezwzględnych.

Przykład 6. Dla równomiernie rozłożonej zmiennej losowej X Znajdźmy dyspersję, odchylenie standardowe i współczynnik zmienności. Wariancja wynosi:

Zmiana zmiennej umożliwia zapis:

Gdzie C = (BA)/ 2. Zatem odchylenie standardowe jest równe, a współczynnik zmienności wynosi:

Dla każdej zmiennej losowej X określ jeszcze trzy wielkości - wyśrodkowane Y, znormalizowany V i dane U. Wyśrodkowana zmienna losowa Y jest różnicą między daną zmienną losową X i jego matematyczne oczekiwanie M(X), te. Y = X – M(X). Oczekiwanie wyśrodkowanej zmiennej losowej Y równa się 0, a wariancja jest wariancją danej zmiennej losowej: M(Y) = 0, D(Y) = D(X). Funkcja dystrybucyjna F Y(X) wyśrodkowana zmienna losowa Y związane z funkcją dystrybucji F(X) pierwotna zmienna losowa X stosunek:

F Y(X) = F(X + M(X)).

Gęstości tych zmiennych losowych zachowują następującą równość:

dla Y(X) = F(X + M(X)).

Znormalizowana zmienna losowa V jest stosunkiem danej zmiennej losowej X do odchylenia standardowego, tj. . Oczekiwanie i wariancja znormalizowanej zmiennej losowej V wyrażone poprzez cechy X Więc:

,

Gdzie w– współczynnik zmienności pierwotnej zmiennej losowej X. Dla funkcji dystrybucji F V(X) i gęstość f V(X) znormalizowana zmienna losowa V mamy:

Gdzie F(X) – rozkład pierwotnej zmiennej losowej X, A F(X) – jego gęstość prawdopodobieństwa.

Zredukowana zmienna losowa U jest wyśrodkowaną i znormalizowaną zmienną losową:

.

Dla danej zmiennej losowej

Znormalizowane, wyśrodkowane i zredukowane zmienne losowe są stale wykorzystywane zarówno w badaniach teoretycznych, jak i w algorytmach, produkty oprogramowania, dokumentacja normatywno-techniczna i instruktażowo-metodologiczna. W szczególności ze względu na równości umożliwiają uproszczenie uzasadniania metod, formułowania twierdzeń i wzorów obliczeniowych.

Stosowane są transformacje zmiennych losowych i nie tylko Ogólny plan. Więc jeśli Y = topór + B, Gdzie A I B– w takim razie kilka liczb

Przykład 7. Jeśli następnie Y jest zredukowaną zmienną losową, a wzory (8) zamieniają się we wzory (7).

Z każdą zmienną losową X możesz powiązać wiele zmiennych losowych Y, dane ze wzoru Y = topór + B w różnych A> 0 i B. Zestaw ten nazywa się rodzina z przesunięciem skali, generowane przez zmienną losową X. Funkcje dystrybucji F Y(X) stanowią rodzinę rozkładów z przesunięciem skali generowaną przez funkcję dystrybucji F(X). Zamiast Y = topór + B często korzystaj z nagrywania

Numer Z nazywa się parametrem przesunięcia i liczbą D- parametr skali. Pokazuje to wzór (9). X– wynik pomiaru określonej wielkości – trafia do U– wynik pomiaru tej samej wielkości w przypadku przesunięcia początku pomiaru do punktu Z, a następnie użyj nowej jednostki miary, in D razy większy od starego.

W przypadku rodziny przesunięć skali (9) rozkład X nazywany jest standardem. W probabilistycznych statystycznych metodach podejmowania decyzji i innych badaniach stosowanych stosuje się standardowy rozkład normalny, standardowy rozkład Weibulla-Gnedenko, standardowy rozkład gamma itp. (patrz poniżej).

Stosuje się także inne transformacje zmiennych losowych. Na przykład dla dodatniej zmiennej losowej X rozważają Y= log X, gdzie lg X– logarytm dziesiętny liczby X. Łańcuch równości

F Y (x) = P( lg X< x) = P(X < 10x) = F( 10X)

łączy funkcje dystrybucyjne X I Y.

Podczas przetwarzania danych wykorzystywane są następujące cechy zmiennej losowej X jako chwile porządku Q, tj. oczekiwania matematyczne wobec zmiennej losowej Xk, Q= 1, 2, ... Zatem samo oczekiwanie matematyczne jest momentem porządku 1. W przypadku dyskretnej zmiennej losowej momentem porządku Q można obliczyć jako

Dla ciągłej zmiennej losowej

Chwile porządku Q zwane także początkowymi momentami porządku Q, w przeciwieństwie do pokrewnych cech - centralne momenty porządku Q, podane przez wzór

Zatem dyspersja jest centralnym momentem rzędu 2.

Rozkład normalny i centralne twierdzenie graniczne. W probabilistyczno-statystycznych metodach podejmowania decyzji często mówimy o rozkładzie normalnym. Czasami próbują go wykorzystać do modelowania rozkładu danych wyjściowych (próby te nie zawsze są uzasadnione - patrz poniżej). Co ważniejsze, wiele metod przetwarzania danych opiera się na tym, że obliczone wartości mają rozkłady zbliżone do normalnych.

Pozwalać X 1 , X 2 ,…, Xn M(X ja) = M i odchylenia D(X ja) = , I = 1, 2,…, N,... Jak wynika z wyników poprzedniego rozdziału,

Rozważ zredukowaną zmienną losową U n za kwotę , mianowicie,

Jak wynika ze wzorów (7), M(U n) = 0, D(U n) = 1.

(dla warunków o identycznym rozkładzie). Pozwalać X 1 , X 2 ,…, Xn, … – niezależne zmienne losowe o jednakowym rozkładzie z oczekiwaniami matematycznymi M(X ja) = M i odchylenia D(X ja) = , I = 1, 2,…, N,... Wtedy dla dowolnego x istnieje granica

Gdzie F(x)– funkcja standardowego rozkładu normalnego.

Więcej o tej funkcji F(x) – poniżej (czytaj „fi od x”, ponieważ F- Grecka wielka litera „phi”).

Centralne twierdzenie graniczne (CLT) ma swoją nazwę, ponieważ jest centralnym, najczęściej używanym matematycznym wynikiem teorii prawdopodobieństwa i statystyki matematycznej. Historia CLT trwa około 200 lat – od roku 1730, kiedy to angielski matematyk A. Moivre (1667-1754) opublikował pierwszy wynik związany z CLT (patrz niżej o twierdzeniu Moivre’a-Laplace’a), aż do lat dwudziestych i trzydziestych XX wieku XX wieku, kiedy Finn J.W. Lindeberg, Francuz Paul Levy (1886-1971), Jugosławia V. Feller (1906-1970), Rosjanin A.Ya. Khinchin (1894-1959) i inni naukowcy uzyskali warunki konieczne i wystarczające dla ważności klasycznego centralnego twierdzenia granicznego.

Na tym nie zakończył się rozwój rozważanego tematu - badano zmienne losowe, które nie mają dyspersji, tj. ci dla kogo

(akademik B.V. Gnedenko i inni), sytuacja, gdy sumowane są zmienne losowe (a dokładniej elementy losowe) o bardziej złożonym charakterze niż liczby (naukowcy Yu.V. Prochorow, A.A. Borovkov i ich współpracownicy) itp. .d.

Funkcja dystrybucyjna F(x) jest dana przez równość

,

gdzie jest gęstość standardowego rozkładu normalnego, który ma dość złożone wyrażenie:

.

Tutaj =3,1415925... jest liczbą znaną w geometrii, równą stosunkowi obwodu do średnicy, mi = 2,718281828... - podstawa logarytmów naturalnych (aby zapamiętać tę liczbę, należy pamiętać, że rok 1828 to rok urodzenia pisarza L.N. Tołstoja). Jak wiadomo z Analiza matematyczna,

Podczas przetwarzania wyników obserwacji funkcja rozkładu normalnego nie jest obliczana przy użyciu podanych wzorów, ale jest znajdowana przy użyciu specjalnych tabel lub programy komputerowe. Najlepsze „Tabele statystyki matematycznej” w języku rosyjskim zostały opracowane przez odpowiednich członków Akademii Nauk ZSRR L.N. Bolszewa i N.V. Smirnowa.

Postać gęstości standardowego rozkładu normalnego wynika z teorii matematycznej, której nie możemy tutaj rozważać, a także z dowodu CLT.

Dla ilustracji podajemy małe tabele funkcji rozkładu F(x)(Tabela 2) i jej kwantyle (Tabela 3). Funkcjonować F(x) symetryczny wokół 0, co przedstawiono w tabeli 2-3.

Tabela 2.

Standardowa funkcja rozkładu normalnego.

Jeśli zmienna losowa X ma funkcję dystrybucji F(x), To M(X) = 0, D(X) = 1. To stwierdzenie zostało udowodnione w teorii prawdopodobieństwa w oparciu o rodzaj gęstości prawdopodobieństwa. Jest to spójne z podobnym stwierdzeniem dotyczącym charakterystyki zredukowanej zmiennej losowej U n, co jest całkiem naturalne, gdyż CLT stwierdza, że ​​przy nieograniczonym wzroście liczby wyrazów funkcja dystrybucji U n zmierza do standardowej funkcji rozkładu normalnego F(x), i dla każdego X.

Tabela 3.

Kwantyle standardowego rozkładu normalnego.

Zamów kwantyl R

Zamów kwantyl R

Wprowadźmy pojęcie rodziny rozkładów normalnych. Z definicji rozkład normalny to rozkład zmiennej losowej X, dla którego rozkład zredukowanej zmiennej losowej wynosi F(x). Jak wynika z ogólnych właściwości rodzin rozkładów z przesunięciem skali (patrz wyżej), rozkład normalny jest rozkładem zmiennej losowej

Gdzie X– zmienna losowa z rozkładem F(X), I M = M(Y), = D(Y). Rozkład normalny z parametrami przesunięcia M i skala jest zwykle wskazana N(M, ) (czasami używana jest notacja N(M, ) ).

Jak wynika z (8), gęstość prawdopodobieństwa rozkładu normalnego N(M, ) Jest

Rozkłady normalne tworzą rodzinę z przesunięciem skali. W tym przypadku parametrem skali jest D= 1/ i parametr przesunięcia C = - M/ .

Dla momentów centralnych trzeciego i czwartego rzędu rozkładu normalnego obowiązują równości:

Równości te stanowią podstawę klasycznych metod sprawdzania, czy obserwacje mają rozkład normalny. Obecnie zwykle zaleca się badanie normalności za pomocą kryterium W Shapiro – Wilka. Problem testowania normalności omówiono poniżej.

Jeśli zmienne losowe X 1 I X2 mają funkcje dystrybucyjne N(M 1 , 1) I N(M 2 , 2) zatem odpowiednio X 1+ X2 ma dystrybucję Dlatego też, jeśli zmienne losowe X 1 , X 2 ,…, Xn N(M, ) , a następnie ich średnia arytmetyczna

ma dystrybucję N(M, ) . Te właściwości rozkładu normalnego są stale wykorzystywane w różnych probabilistycznych i statystycznych metodach podejmowania decyzji, w szczególności w statystycznej regulacji procesów technologicznych oraz w statystycznej kontroli akceptacji opartej na kryteriach ilościowych.

Korzystając z rozkładu normalnego, zdefiniowano trzy rozkłady, które są obecnie często stosowane w przetwarzaniu danych statystycznych.

Rozkład (chi – kwadrat) – rozkład zmiennej losowej

gdzie są zmienne losowe X 1 , X 2 ,…, Xn niezależne i mają ten sam rozkład N(0,1). W tym przypadku liczba terminów, tj. N, nazywana jest „liczbą stopni swobody” rozkładu chi-kwadrat.

Dystrybucja T T Studenta jest rozkładem zmiennej losowej

gdzie są zmienne losowe U I X niezależny, U ma standardowy rozkład normalny N(0,1) i X– rozkład chi – kwadrat c N stopnie swobody. W której N nazywana jest „liczbą stopni swobody” rozkładu Studenta. Podział ten wprowadził w 1908 roku angielski statystyk W. Gosset, który pracował w fabryce piwa. Do obliczeń ekonomicznych i statystycznych wykorzystano probabilistyczne metody statystyczne rozwiązania techniczne w tej fabryce, dlatego jej kierownictwo zabroniło V. Gossetowi publikować artykuły naukowe pod własnym nazwiskiem. W ten sposób był chroniony tajemnica handlowa, „know-how” w postaci metod probabilistycznych i statystycznych opracowanych przez V. Gosseta. Miał jednak okazję publikować pod pseudonimem „Student”. Historia Gosseta-Studenta pokazuje, że przez kolejne sto lat menadżerowie Wielkiej Brytanii byli świadomi tego, co wielkie wydajność ekonomiczna Probabilistyczne i statystyczne metody podejmowania decyzji.

Rozkład Fishera to rozkład zmiennej losowej

gdzie są zmienne losowe X 1 I X2 są niezależne i mają rozkład chi-kwadrat z liczbą stopni swobody k 1 I k 2 odpowiednio. W tym samym czasie para (k 1 , k 2 ) – parę „stopni swobody” rozkładu Fishera, a mianowicie: k 1 jest liczbą stopni swobody licznika, oraz k 2 – liczba stopni swobody mianownika. Rozkład zmiennej losowej F nosi imię wielkiego angielskiego statystyka R. Fishera (1890-1962), który aktywnie wykorzystywał go w swoich pracach.

Wyrażenia dla funkcji rozkładu chi-kwadrat, Studenta i Fishera, ich gęstości i charakterystyki, a także tabele można znaleźć w literaturze specjalistycznej (patrz na przykład).

Jak już wspomniano, rozkłady normalne są obecnie często stosowane w modelach probabilistycznych w różnych obszarach zastosowań. Jaki jest powód tak powszechnego rozpowszechnienia tej dwuparametrowej rodziny rozkładów? Wyjaśnia to następujące twierdzenie.

Centralne twierdzenie graniczne(dla terminów o różnym rozkładzie). Pozwalać X 1 , X 2 ,…, Xn,… - niezależne zmienne losowe z oczekiwaniami matematycznymi M(X 1 ), M(X 2 ),…, M(X n), ... i odchylenia D(X 1 ), D(X 2 ),…, D(X n), ... odpowiednio. Pozwalać

Następnie, jeśli spełnione są pewne warunki, które zapewniają niewielki udział któregokolwiek z terminów w U n,

dla kazdego X.

Nie będziemy tutaj formułować omawianych warunków. Można je znaleźć w literaturze specjalistycznej (patrz na przykład). „Wyjaśnienie warunków, w jakich działa CPT, jest zasługą wybitnych rosyjskich naukowców A.A. Markowa (1857–1922), a w szczególności A.M. Lapunowa (1857–1918).”

Centralne twierdzenie graniczne pokazuje, że w przypadku, gdy wynik pomiaru (obserwacja) kształtuje się pod wpływem wielu przyczyn, z których każda ma niewielki udział, i określa się wynik całkowity dodatkowo, tj.

dodając, to rozkład wyniku pomiaru (obserwacji) jest zbliżony do normalnego. X Czasami uważa się, że aby rozkład był normalny wystarczy, że wynik pomiaru (obserwacji) X powstaje pod wpływem wielu przyczyn, z których każdy ma niewielki wpływ. To jest źle. Ważne jest, jak te przyczyny działają. Jeśli dodatek, to ma w przybliżeniu rozkład normalny. Jeśli multiplikatywnie X(tj. działania poszczególnych przyczyn są mnożone, a nie dodawane), a następnie podział X zbliżone nie do normalnego, ale do tzw. logarytmicznie normalne, tj. Nie X, a log X ma w przybliżeniu rozkład normalny. Jeśli nie ma powodu sądzić, że działa jeden z tych dwóch mechanizmów kształtowania się wyniku końcowego (lub jakiś inny dobrze zdefiniowany mechanizm), to o dystrybucji

nic konkretnego nie da się powiedzieć.

Z powyższego wynika, że ​​w konkretnym zastosowanym problemie normalności wyników pomiarów (obserwacji) z reguły nie można ustalić na podstawie rozważań ogólnych, należy to sprawdzić za pomocą kryteriów statystycznych; Lub użyj nieparametrycznych metod statystycznych, które nie opierają się na założeniach dotyczących przynależności funkcji rozkładu wyników pomiarów (obserwacji) do tej lub innej rodziny parametrycznej. Oprócz rodziny rozkładów normalnych z przesunięciem skali, szeroko stosuje się wiele innych rodzin rozkładów - rozkłady lognormalne, wykładnicze, Weibulla-Gnedenki, rozkłady gamma. Przyjrzyjmy się tym rodzinom.

Losowa wartość X ma rozkład lognormalny, jeśli zmienna losowa Y= log X ma rozkład normalny. Następnie Z= log X = 2,3026…Y ma również rozkład normalny N(A 1 ,σ 1), gdzie ln X - naturalny logarytm X. Gęstość rozkładu lognormalnego wynosi:

Z centralnego twierdzenia granicznego wynika, że ​​iloczyn X = X 1 X 2 Xn niezależne dodatnie zmienne losowe X ja, I = 1, 2,…, N, ogólnie N można przybliżyć za pomocą rozkładu logarytmiczno-normalnego. W szczególności multiplikatywny model formacji wynagrodzenie lub dochodu prowadzi do zalecenia, aby logarytmicznie przybliżać rozkład wynagrodzeń i dochodów normalne prawa. Dla Rosji zalecenie to okazało się uzasadnione – potwierdzają to dane statystyczne.

Istnieją inne modele probabilistyczne, które prowadzą do prawa lognormalnego. Klasyczny przykład takiego modelu podał A.N. Kołmogorow, który na podstawie fizycznego systemu postulatów doszedł do wniosku, że wielkość cząstek podczas kruszenia kawałków rudy, węgla itp. w młynach kulowych mają rozkład logarytmiczno-normalny.

Przejdźmy do innej rodziny rozkładów, szeroko stosowanej w różnych probabilistyczno-statystycznych metodach podejmowania decyzji i innych badaniach stosowanych – rodziny rozkładów wykładniczych. Zacznijmy od modelu probabilistycznego prowadzącego do takich rozkładów. Aby to zrobić, należy wziąć pod uwagę „przebieg zdarzeń”, tj. sekwencja zdarzeń następujących po sobie w określonych momentach czasu. Przykłady obejmują: przepływ połączeń w centrali telefonicznej; przepływ awarii urządzeń w łańcuchu technologicznym; przepływ usterek produktów podczas testowania produktów; przepływ wniosków klientów do oddziału banku; przepływ nabywców ubiegających się o towary i usługi itp. W teorii przepływów zdarzeń obowiązuje twierdzenie podobne do centralnego twierdzenia granicznego, tyle że nie chodzi tu o sumowanie zmiennych losowych, ale o sumowanie przepływów zdarzeń. Rozważamy całkowity przepływ złożony z duża liczba przepływy niezależne, z których żaden nie ma dominującego wpływu na przepływ całkowity. Na przykład strumień połączeń przychodzących do centrali telefonicznej składa się z dużej liczby niezależnych strumieni połączeń pochodzących od poszczególnych abonentów. Udowodniono, że w przypadku, gdy charakterystyki przepływów nie zależą od czasu, przepływ całkowity opisuje się w całości jedną liczbą – natężeniem przepływu. Dla całkowitego przepływu rozważ zmienną losową X- długość odstępu czasu pomiędzy kolejnymi zdarzeniami. Jego funkcja rozkładu ma postać

(10)

Rozkład ten nazywa się rozkładem wykładniczym, ponieważ wzór (10) zawiera funkcję wykładniczą miX. Wartość 1/λ jest parametrem skali. Czasami wprowadzany jest również parametr przesunięcia Z, rozkład zmiennej losowej nazywany jest wykładniczym X + s, gdzie dystrybucja X wyraża się wzorem (10).

Rozkłady wykładnicze są szczególnym przypadkiem tzw. Rozkłady Weibulla-Gnedenki. Ich nazwy pochodzą od nazwisk inżyniera V. Weibulla, który wprowadził te rozkłady do praktyki analizy wyników badań zmęczeniowych, oraz matematyka B.V. Gnedenko (1912-1995), który otrzymał takie rozkłady jako granice przy badaniu maksimum wyniki testu. Pozwalać X- zmienna losowa charakteryzująca czas funkcjonowania produktu, złożonego systemu, elementu (tj. zasobu, czasu działania do stanu granicznego itp.), czasu funkcjonowania przedsiębiorstwa lub życia istoty żywej itp. Intensywność awarii odgrywa ważną rolę

(11)

Gdzie F(X) I F(X) - funkcja rozkładu i gęstość zmiennej losowej X.

Opiszmy typowe zachowanie wskaźnika awaryjności. Cały przedział czasowy można podzielić na trzy okresy. Na pierwszym z nich funkcja λ(x) To ma wysokie wartości i wyraźną tendencję spadkową (najczęściej maleje monotonicznie). Można to wytłumaczyć obecnością w danej partii wyrobów jednostek o wadach oczywistych i ukrytych, które prowadzą do stosunkowo szybkiej awarii tych jednostek wyrobów. Pierwszy okres nazywany jest „okresem docierania” (lub „okresem docierania”). Tyle zazwyczaj obejmuje okres gwarancji.

Następnie następuje okres normalnej pracy, charakteryzujący się w przybliżeniu stałą i stosunkowo niską awaryjnością. Charakter awarii w tym okresie jest nagły (wypadki, błędy obsługi itp.) i nie jest zależny od czasu eksploatacji urządzenia.

Wreszcie ostatnim okresem eksploatacji jest okres starzenia i zużycia. Awarie występujące w tym okresie polegają na nieodwracalnych zmianach fizycznych, mechanicznych i chemicznych w materiałach, prowadzących do postępującego pogorszenia jakości jednostki produktu i jego ostatecznej awarii.

Każdy okres ma swój własny typ funkcji λ(x). Rozważmy klasę zależności mocy

λ(x) = λ 0bx b -1 , (12)

Gdzie λ 0 > 0 i B> 0 - niektóre parametry numeryczne. Wartości B < 1, B= 0 i B> 1 odpowiadają rodzajowi awaryjności odpowiednio w okresach docierania, normalnej pracy i starzenia.

Zależność (11) przy zadanym współczynniku awaryjności λ(x)- równanie różniczkowe funkcji F(X). Z teorii równania różniczkowe wynika z tego

(13)

Podstawiając (12) do (13) otrzymujemy to

(14)

Rozkład dany wzorem (14) nazywany jest rozkładem Weibulla – Gnedenko. Ponieważ

to ze wzoru (14) wynika, że ​​ilość A, dany wzorem (15), jest parametrem skali. Czasami wprowadzany jest także parametr shift, tj. Nazywa się dystrybuanty Weibulla-Gnedenki F(X - C), Gdzie F(X) jest określony wzorem (14) dla niektórych λ 0 i B.

Gęstość rozkładu Weibulla-Gnedenko ma postać

(16)

Gdzie A> 0 - parametr skali, B> 0 - parametr formularza, Z- parametr zmiany. W tym przypadku parametr A ze wzoru (16) jest powiązany z parametrem λ 0 ze wzoru (14) przez zależność określoną we wzorze (15).

Rozkład wykładniczy jest bardzo szczególnym przypadkiem rozkładu Weibulla-Gnedenki, odpowiadającym wartości parametru kształtu B = 1.

Rozkład Weibulla-Gnedenki wykorzystuje się także przy konstruowaniu probabilistycznych modeli sytuacji, w których o zachowaniu obiektu decyduje „najsłabsze ogniwo”. Istnieje analogia z łańcuchem, którego bezpieczeństwo zależy od ogniwa o najmniejszej wytrzymałości. Inaczej mówiąc, niech X 1 , X 2 ,…, Xn- niezależne zmienne losowe o jednakowym rozkładzie,

X(1)=min( X 1, X 2,…, X rz), X(n)=maks.( X 1, X 2,…, X rz).

W wielu stosowanych problemach odgrywają one ważną rolę X(1) I X(N) w szczególności przy badaniu maksymalnych możliwych wartości („zapisów”) niektórych wartości, na przykład płatności ubezpieczeniowych lub strat wynikających z ryzyka handlowego, podczas badania granic elastyczności i wytrzymałości stali, szeregu cech niezawodności itp. . Pokazano, że dla dużych n rozkładów X(1) I X(N) , są z reguły dobrze opisane rozkładami Weibulla-Gnedenki. Zasadniczy wkład w badanie rozkładów X(1) I X(N) wniesiony przez radzieckiego matematyka B.V. Gnedenko. Prace V. Weibulla, E. Gumbela, V.B. poświęcone są wykorzystaniu wyników uzyskanych w ekonomii, zarządzaniu, technologii i innych dziedzinach. Nevzorova, E.M. Kudlaev i wielu innych specjalistów.

Przejdźmy do rodziny rozkładów gamma. Znajdują szerokie zastosowanie w ekonomii i zarządzaniu, teorii i praktyce niezawodności oraz testowaniu, w różnych dziedzinach techniki, meteorologii itp. W szczególności w wielu sytuacjach rozkład gamma zależy od takich wielkości, jak całkowity okres użytkowania produktu, długość łańcucha przewodzących cząstek pyłu, czas, w którym produkt osiąga stan graniczny podczas korozji, czas pracy do k-ta odmowa, k= 1, 2, … itd. Oczekiwana długość życia pacjentów choroby przewlekłe, czas do osiągnięcia określonego efektu podczas leczenia w niektórych przypadkach ma rozkład gamma. Rozkład ten jest najwłaściwszy do opisu popytu w ekonomicznych i matematycznych modelach zarządzania zapasami (logistyka).

Gęstość rozkładu gamma ma postać

(17)

Gęstość prawdopodobieństwa we wzorze (17) wyznaczają trzy parametry A, B, C, Gdzie A>0, B>0. W której A jest parametrem formularza, B- parametr skali i Z- parametr zmiany. Czynnik 1/Γ(а) normalizuje się, do tego wprowadzono

Tutaj Γ(a)- jeden z tych stosowanych w matematyce funkcje specjalne, tzw. „funkcja gamma”, od której nazwany jest rozkład określony wzorem (17),

Na stałe A wzór (17) określa rodzinę rozkładów z przesunięciem skali generowaną przez rozkład z gęstością

(18)

Rozkład postaci (18) nazywany jest standardowym rozkładem gamma. Otrzymuje się go ze wzoru (17) w B= 1 i Z= 0.

Szczególny przypadek rozkładów gamma dla A= 1 to rozkłady wykładnicze (z λ = 1/B). Z naturalnym A I Z Rozkłady gamma =0 nazywane są rozkładami Erlanga. Z prac duńskiego naukowca K.A. Erlanga (1878–1929), pracownika kopenhaskiej firmy telefonicznej, który studiował w latach 1908–1922. funkcjonowania sieci telefonicznych rozpoczął się rozwój teorii kolejkowania. Teoria ta zajmuje się probabilistycznym i statystycznym modelowaniem systemów, w których obsługiwany jest przepływ żądań w celu podejmowania optymalnych decyzji. Rozkłady Erlanga są używane w tych samych obszarach zastosowań, w których używane są rozkłady wykładnicze. Opiera się to na następującym fakcie matematycznym: suma k niezależnych zmiennych losowych o rozkładzie wykładniczym o tych samych parametrach λ i Z, ma rozkład gamma z parametrem kształtu a =k, parametr skali B= 1/λ i parametr przesunięcia kc. Na Z= 0 otrzymujemy rozkład Erlanga.

Jeśli zmienna losowa X ma rozkład gamma z parametrem kształtu A takie, że D = 2 A- liczba całkowita, B= 1 i Z= 0, następnie 2 X ma rozkład chi-kwadrat z D stopnie swobody.

Losowa wartość X z dystrybucją gvmma ma następujące cechy:

Wartość oczekiwana M(X) =ok + C,

Zmienność D(X) = σ 2 = ok 2 ,

Współczynnik zmienności

Asymetria

Nadmiar

Rozkład normalny jest skrajnym przypadkiem rozkładu gamma. Dokładniej, niech Z będzie zmienną losową o standardowym rozkładzie gamma określonym wzorem (18). Następnie

dla dowolnej liczby rzeczywistej X, Gdzie F(x)- standardowa funkcja rozkładu normalnego N(0,1).

W badaniach stosowanych wykorzystuje się także inne parametryczne rodziny rozkładów, z których najbardziej znane to układ krzywych Pearsona, szeregi Edgewortha i Charliera. Nie są one tutaj brane pod uwagę.

Oddzielny rozkłady stosowane w probabilistycznych i statystycznych metodach podejmowania decyzji. Najczęściej stosowane są trzy rodziny rozkładów dyskretnych – dwumianowy, hipergeometryczny i Poissona, a także kilka innych rodzin – geometryczna, ujemna dwumianowa, wielomianowa, ujemna hipergeometryczna itp.

Jak już wspomniano, rozkład dwumianowy występuje w niezależnych próbach, z których w każdej z prawdopodobieństwem R pojawia się wydarzenie A. Jeśli Łączna testy N podane, następnie liczba testów Y, w którym pojawiło się wydarzenie A, ma rozkład dwumianowy. W przypadku rozkładu dwumianowego prawdopodobieństwo uznania go za zmienną losową wynosi Y wartości y określa się na podstawie wzoru

Liczba kombinacji N elementy wg y, znane z kombinatoryki. Dla wszystkich y, z wyjątkiem 0, 1, 2, …, N, mamy P(Y= y)= 0. Rozkład dwumianowy ze stałą wielkością próby N jest określony przez parametr P, tj. rozkłady dwumianowe tworzą rodzinę jednoparametrową. Wykorzystuje się je w analizie danych z badań reprezentacyjnych, w szczególności w badaniu preferencji konsumentów, selektywnej kontroli jakości produktu według jednostopniowych planów kontroli, przy badaniu populacji jednostek w demografii, socjologii, medycynie, biologii itp. .

Jeśli Y 1 I Y 2 - niezależne dwumianowe zmienne losowe o tym samym parametrze P 0 , określone na podstawie próbek o objętościach N 1 I N 2 zatem odpowiednio Y 1 + Y 2 - dwumianowa zmienna losowa o rozkładzie (19) z R = P 0 I N = N 1 + N 2 . Uwaga ta rozszerza stosowalność rozkładu dwumianowego, umożliwiając łączenie wyników kilku grup testów, gdy istnieją podstawy, aby sądzić, że ten sam parametr odpowiada wszystkim tym grupom.

Charakterystyki rozkładu dwumianowego obliczono wcześniej:

M(Y) = n.p., D(Y) = n.p.( 1- P).

W części „Zdarzenia i prawdopodobieństwa” udowodniono prawo wielkich liczb dla dwumianowej zmiennej losowej:

dla kazdego . Korzystając z centralnego twierdzenia granicznego, prawo wielkich liczb można udoskonalić, wskazując, ile Y/ N różni się od R.

Twierdzenie de Moivre’a-Laplace’a. Dla dowolnych liczb a i B, A< B, mamy

Gdzie F(X) jest funkcją standardowego rozkładu normalnego z oczekiwaniem matematycznym 0 i wariancją 1.

Aby to udowodnić, wystarczy skorzystać z reprezentacji Y w postaci sumy niezależnych zmiennych losowych odpowiadających wynikom poszczególnych testów, wzory na M(Y) I D(Y) oraz centralne twierdzenie graniczne.

To twierdzenie dotyczy przypadku R= ½ udowodnił angielski matematyk A. Moivre (1667-1754) w 1730 r. W powyższym sformułowaniu udowodnił to w 1810 r. francuski matematyk Pierre Simon Laplace (1749 - 1827).

Rozkład hipergeometryczny zachodzi podczas selektywnego sterowania skończonym zbiorem obiektów o objętości N według alternatywnego kryterium. Każdy kontrolowany obiekt jest klasyfikowany jako posiadający dany atrybut A lub jako nieposiadający tej cechy. Rozkład hipergeometryczny ma zmienną losową Y, równa liczbie obiekty posiadające daną cechę A w losowej próbce objętości N, Gdzie N< N. Na przykład liczba Y wadliwe jednostki produktu w losowej próbce objętościowej N od objętości partii N ma rozkład hipergeometryczny jeśli N< N. Innym przykładem jest loteria. Niech znak A bilet jest oznaką „bycia zwycięzcą”. Niech całkowita liczba biletów N, i pewna osoba nabyta N z nich. Wówczas liczba zwycięskich kuponów dla tej osoby ma rozkład hipergeometryczny.

Dla rozkładu hipergeometrycznego prawdopodobieństwo, że zmienna losowa Y przyjmie wartość y, ma postać

(20)

Gdzie D– liczba obiektów posiadających dany atrybut A, w rozważanym zestawie objętości N. W której y przyjmuje wartości od max(0, N - (N - D)) do min( N, D), inne rzeczy y prawdopodobieństwo we wzorze (20) jest równe 0. Zatem rozkład hipergeometryczny wyznaczają trzy parametry - objętość populacji N, liczba obiektów D w nim, posiadająca daną cechę A i wielkość próbki N.

Proste losowe próbkowanie objętości N od całkowitej objętości N to próbka otrzymana w wyniku losowego doboru, w którym dowolny ze zbiorów N obiekty mają takie samo prawdopodobieństwo wybrania. Metody losowego doboru próby respondentów (rozmówców) lub jednostek towarów na sztuki omówione są w dokumentach instruktażowych, metodologicznych i regulacyjnych. Jedna z metod selekcji jest następująca: obiekty wybiera się jeden po drugim i na każdym etapie każdy z pozostałych obiektów w zestawie ma taką samą szansę na wybranie. W literaturze na określenie rodzaju rozpatrywanych próbek stosowane są także określenia „próbka losowa” i „próbka losowa bez zwrotu”.

Ponieważ wielkość populacji (partia) N i próbki N są zwykle znane, wówczas parametrem rozkładu hipergeometrycznego, który należy oszacować, jest: D. W statystycznych metodach zarządzania jakością produktów D– zwykle liczba wadliwych jednostek w partii. Interesująca jest także charakterystyka dystrybucji D/ N– poziom usterek.

Dla rozkładu hipergeometrycznego

Ostatni czynnik w wyrażeniu wariancji jest bliski 1, jeśli N>10 N. Jeśli dokonasz wymiany P = D/ N, wówczas wyrażenia matematycznego oczekiwania i wariancji rozkładu hipergeometrycznego zamienią się w wyrażenia matematycznego oczekiwania i wariancji rozkładu dwumianowego. To nie przypadek. Można to wykazać

Na N>10 N, Gdzie P = D/ N. Stosunek ograniczający obowiązuje

i tę ograniczającą relację można zastosować kiedy N>10 N.

Trzecią powszechnie stosowaną dystrybucją dyskretną jest rozkład Poissona. Zmienna losowa Y ma rozkład Poissona jeśli

,

gdzie λ jest parametrem rozkładu Poissona, oraz P(Y= y)= 0 dla wszystkich pozostałych y(dla y=0 oznacza się 0! =1). Dla rozkładu Poissona

M(Y) = λ, D(Y) = λ.

Rozkład ten został nazwany na cześć francuskiego matematyka S. D. Poissona (1781-1840), który uzyskał go po raz pierwszy w 1837 r. Rozkład Poissona jest granicznym przypadkiem rozkładu dwumianowego, gdy prawdopodobieństwo R realizacja zdarzenia jest niewielka, ale ilość testów Nświetnie, i n.p.= λ. Dokładniej, obowiązuje relacja graniczna

Dlatego rozkład Poissona (w starej terminologii „prawo dystrybucji”) często nazywany jest także „prawem rzadkich zdarzeń”.

Rozkład Poissona pojawia się w teorii strumieni zdarzeń (patrz wyżej). Udowodniono, że dla najprostszego przepływu o stałym natężeniu Λ liczba zdarzeń (wywołań), które wystąpiły w czasie T, ma rozkład Poissona z parametrem λ = Λ T. Dlatego prawdopodobieństwo, że w tym czasie Tżadne zdarzenie nie nastąpi, równe mi - Λ T, tj. funkcja rozkładu długości odstępu między zdarzeniami jest wykładnicza.

Rozkład Poissona wykorzystuje się do analizy wyników przykładowych badań marketingowych konsumentów, obliczania charakterystyki operacyjnej statystycznych planów kontroli akceptacji w przypadku małych wartości poziomu akceptacji wad, do opisu liczby awarii kontrolowanego statystycznie procesu technologicznego w jednostce czasu, liczby „zapotrzebowań na usługi” otrzymanych w jednostce czasu w systemie kolejkowym, statystycznych wzorców wypadków i rzadkie choroby itp.

Opis innych rodzin parametrycznych rozkładów dyskretnych i ich możliwości praktyczne użycie są rozpatrywane w literaturze.


W niektórych przypadkach, na przykład podczas badania cen, wielkości produkcji lub całkowitego czasu między awariami w problemach z niezawodnością, funkcje rozkładu są stałe w pewnych przedziałach, w których wartości badanych zmiennych losowych nie mogą spaść.

Poprzedni

Dystrybuantą zmiennej losowej X jest funkcja F(x), która dla każdego x wyraża prawdopodobieństwo, że zmienna losowa X przyjmie wartość, mniejszy x

Przykład 2.5. Biorąc pod uwagę szereg rozkładów zmiennej losowej

Znajdź i graficznie przedstaw jego funkcję rozkładu. Rozwiązanie. Zgodnie z definicją

F(jc) = 0 w X X

F(x) = 0,4 + 0,1 = 0,5 przy 4 F(x) = 0,5 + 0,5 = 1 przy X > 5.

Zatem (patrz ryc. 2.1):


Własności funkcji rozkładu:

1. Dystrybucja zmiennej losowej jest funkcją nieujemną mieszczącą się w przedziale od zera do jedynki:

2. Funkcja rozkładu zmiennej losowej jest funkcją niemalejącą na całej osi liczbowej, tj. Na X 2 >x

3. Przy minus nieskończoności funkcja rozkładu jest równa zeru, przy plus nieskończoności jest równa jeden, tj.

4. Prawdopodobieństwo trafienia zmiennej losowej X w przerwie równy określona całka od gęstości prawdopodobieństwa wynoszącej od A zanim B(patrz ryc. 2.2), tj.


Ryż. 2.2

3. Rozkład ciągłej zmiennej losowej (patrz rys. 2.3) można wyrazić poprzez gęstość prawdopodobieństwa według wzoru:

F(x)= Jp(*)*. (2.10)

4. Całka niewłaściwa w granicach nieskończonych gęstości prawdopodobieństwa ciągłej zmiennej losowej jest równa jedności:

Właściwości geometryczne / i 4 gęstości prawdopodobieństwa oznaczają, że jego wykres jest krzywa dystrybucji - nie leży poniżej osi x, I Całkowita powierzchnia figurki, ograniczone krzywą rozkładu i osią x, równy jeden.

Dla ciągłej zmiennej losowej X wartość oczekiwana M(X) i wariancja D(X) wyznaczane są za pomocą wzorów:

(jeśli całka jest absolutnie zbieżna); Lub

(jeśli powyższe całki są zbieżne).

Oprócz opisanych powyżej cech liczbowych do opisu zmiennej losowej stosuje się koncepcję kwantyli i punktów procentowych.

Poziom kwantyla q(Lub q-kwantyl) jest taką wartościąx qzmienna losowa, przy którym jego funkcja dystrybucji przyjmuje wartość, równy q, tj.

  • 100Punkt q%-ou jest kwantylem X~ q.
  • ? Przykład 2.8.

Na podstawie danych z Przykładu 2.6 znajdź kwantyl xqj i 30% punkt zmiennej losowej X.

Rozwiązanie. Z definicji (2.16) F(xo t3)= 0,3, tj.

~T~ = 0,3, skąd pochodzi kwantyl? x 0 3 = 0,6. 30% losowego punktu zmiennego X lub kwantyl X)_o,z = xoj„wychodzi podobnie z równania ^ = 0,7. gdzie *,= 1,4. ?

Wśród numerycznych charakterystyk zmiennej losowej znajdują się m.in wstępny v* i centralny R* momenty k-tego rzędu, wyznaczane dla dyskretnych i ciągłych zmiennych losowych według wzorów: