Jak obliczana jest średnia? Obliczanie średnich


Wartość średnia jest ogólnym wskaźnikiem charakteryzującym typowy poziom zjawiska. Wyraża wartość cechy na jednostkę populacji.

Średnia wartość to:

1) najbardziej typowa wartość atrybutu dla populacji;

2) wielkość atrybutu populacji, rozłożona równo pomiędzy jednostki populacji.

Cecha, dla której obliczana jest wartość średnia, nazywana jest w statystyce „uśrednioną”.

Średnia zawsze uogólnia ilościową zmienność cechy, tj. w wartościach średnich eliminowane są różnice indywidualne pomiędzy jednostkami populacji wynikające z okoliczności losowych. W przeciwieństwie do średniej, wartość bezwzględna charakteryzująca poziom cechy pojedynczej jednostki populacji nie pozwala na porównanie wartości cechy pomiędzy jednostkami należącymi do różnych populacji. Jeśli więc chcesz porównać poziom wynagrodzeń pracowników w dwóch przedsiębiorstwach, nie możesz tego porównać tę cechę dwóch pracowników z różnych firm. Wynagrodzenie wybranych do porównania pracowników może nie być typowe dla tych przedsiębiorstw. Porównując wielkość funduszy wynagrodzeń w rozważanych przedsiębiorstwach, nie bierze się pod uwagę liczby pracowników, w związku z czym nie można określić, gdzie poziom wynagrodzeń jest wyższy. Ostatecznie można porównywać jedynie wskaźniki średnie, tj. Ile średnio zarabia jeden pracownik w każdym przedsiębiorstwie? Dlatego konieczne jest obliczenie średni rozmiar jako uogólniającą cechę populacji.

Należy pamiętać, że podczas procesu uśredniania łączna wartość poziomów atrybutu lub jej wartość końcowa (w przypadku obliczania poziomów średnich w szeregu dynamicznym) musi pozostać niezmieniona. Innymi słowy, przy obliczaniu wartości średniej nie należy zniekształcać objętości badanej cechy, a wyrażenia zestawiane przy obliczaniu średniej muszą koniecznie mieć sens.

Obliczanie średniej jest jedną z powszechnych technik uogólniania; wskaźnik przeciętności zaprzecza temu, co wspólne (typowe) wszystkim jednostkom badanej populacji, ignorując jednocześnie różnice poszczególnych jednostek. W każdym zjawisku i jego rozwoju istnieje połączenie przypadku i konieczności. Przy obliczaniu średnich, na mocy prawa duże liczby wypadki są anulowane, zrównoważone, dzięki czemu można abstrahować od nieistotnych cech zjawiska, od ilościowych wartości atrybutu w każdym konkretnym przypadku. Możliwość abstrahowania od losowości poszczególnych wartości i wahań leży w wartości naukowej średnich jako uogólniających cech agregatów.

Aby średnia była rzeczywiście reprezentatywna, należy ją obliczyć z uwzględnieniem pewnych zasad.

Spójrzmy na niektóre ogólne zasady zastosowanie wartości średnich.

1. Należy określić średnią dla populacji składających się z jednostek jednorodnych jakościowo.

2. Średnią należy obliczyć dla populacji składającej się z wystarczającej liczby duża liczba jednostki.

3. Średnią należy obliczyć dla populacji, której jednostki znajdują się w normalnym, naturalnym stanie.

4. Średnią należy obliczyć, biorąc pod uwagę treść ekonomiczną badanego wskaźnika.

5.2. Rodzaje średnich i metody ich obliczania

Rozważmy teraz rodzaje wartości średnich, cechy ich obliczania i obszary zastosowania. Wartości średnie dzielą się na dwie duże klasy: średnie mocy, średnie strukturalne.

Do środków potęgowych zaliczają się najbardziej znane i często stosowane typy, takie jak średnia geometryczna, średnia arytmetyczna i średnia kwadratowa.

Tryb i mediana są uważane za średnie strukturalne.

Skupmy się na średnich mocach. Średnie mocy, w zależności od prezentacji danych źródłowych, mogą mieć charakter prosty lub ważony. Prosta średnia Obliczany jest na podstawie danych niezgrupowanych i ma następującą ogólną postać:

,

gdzie X i jest wariantem (wartością) uśrednianej cechy;

n – opcja liczbowa.

Średnia ważona jest obliczany na podstawie pogrupowanych danych i ma wygląd ogólny

,

gdzie X i jest wariantem (wartością) uśrednianej cechy lub wartością środkową przedziału, w którym mierzony jest wariant;

m – wskaźnik średniego stopnia;

f i – częstotliwość pokazująca, ile razy występuje tj. wartość charakterystyka średnia.

Jeśli obliczysz wszystkie typy średnich dla tych samych danych początkowych, ich wartości okażą się różne. Obowiązuje tu zasada większości średnich: wraz ze wzrostem wykładnika m wzrasta również odpowiadająca mu wartość średnia:

W praktyce statystycznej częściej niż inne rodzaje średnich ważonych stosuje się średnie arytmetyczne i średnie ważone harmoniczne.

Rodzaje środków mocy

Rodzaj mocy
przeciętny

Indeks
stopień (m)

Wzór obliczeniowy

Prosty

Ważona

Harmoniczny

Geometryczny

Arytmetyka

Kwadratowy

Sześcienny

Średnia harmoniczna ma bardziej złożoną strukturę niż średnia arytmetyczna. Do obliczeń używa się średniej harmonicznej, gdy jako wagi stosuje się nie jednostki populacji – nośniki cechy, ale iloczyn tych jednostek przez wartości cechy (tj. m = Xf). Do średniej prostej harmonicznej należy się odwołać w przypadku określenia np. średniego kosztu pracy, czasu, materiałów na jednostkę produkcji, na jedną część dla dwóch (trzech, czterech itp.) przedsiębiorstw, pracowników zajmujących się produkcją tego samego rodzaju produktu, tej samej części, produktu.

Głównym wymaganiem dotyczącym wzoru na obliczenie wartości średniej jest to, że wszystkie etapy obliczeń mają naprawdę znaczące uzasadnienie; uzyskana wartość średnia powinna zastąpić indywidualne wartości atrybutu dla każdego obiektu, nie zakłócając połączenia między wskaźnikami indywidualnymi i sumarycznymi. Innymi słowy, wartość średnią należy obliczyć w taki sposób, aby po zastąpieniu każdej pojedynczej wartości wskaźnika uśrednionego jego wartością średnią jakiś końcowy wskaźnik podsumowujący, w ten czy inny sposób powiązany ze wskaźnikiem uśrednionym, pozostał niezmieniony. Suma ta nazywa się definiowanie ponieważ charakter jego związku z poszczególnymi wartościami określa konkretny wzór na obliczenie wartości średniej. Zademonstrujmy tę regułę na przykładzie średniej geometrycznej.

Wzór na średnią geometryczną

stosowany najczęściej przy obliczaniu wartości średniej na podstawie indywidualnej dynamiki względnej.

Średnią geometryczną stosuje się, jeżeli podany jest ciąg względnej dynamiki łańcucha, wskazujący np. wzrost wielkości produkcji w stosunku do poziomu z roku poprzedniego: i 1, i 2, i 3,…, i n. Oczywiście o wielkości produkcji w ostatnim roku decyduje jej początkowy poziom (q 0) i późniejszy wzrost na przestrzeni lat:

q n =q 0 × ja 1 × ja 2 ×…×i n .

Przyjmując q n za wskaźnik determinujący i zastępując poszczególne wartości wskaźników dynamiki wartościami średnimi, dochodzimy do zależności

Stąd



Do badania wykorzystuje się specjalny rodzaj średnich – średnie strukturalne Struktura wewnętrzna szeregu rozkładów wartości atrybutów, a także do oszacowania wartości średniej (rodzaju mocy), jeżeli jej obliczenia nie da się przeprowadzić na podstawie dostępnych danych statystycznych (przykładowo, jeśli w rozpatrywanym przykładzie nie było danych zarówno o wielkości produkcji i wysokość kosztów dla grup przedsiębiorstw).

Wskaźniki są najczęściej stosowane jako średnie strukturalne moda – najczęściej powtarzana wartość atrybutu – i mediany – wartość cechy, która dzieli uporządkowaną sekwencję jej wartości na dwie równe części. W efekcie dla połowy jednostek populacji wartość atrybutu nie przekracza poziomu mediany, a dla drugiej połowy nie jest od niej mniejsza.

Jeśli badana cecha ma wartości dyskretne, to szczególne trudności Podczas obliczania nie ma postaci ani mediany. Jeśli dane o wartościach atrybutu X przedstawimy w postaci uporządkowanych przedziałów jego zmian (seria przedziałów), obliczenie postaci i mediany staje się nieco bardziej skomplikowane. Ponieważ wartość mediana dzieli całą populację na dwie równe części, kończy się ona w jednym z przedziałów cechy X. Korzystając z interpolacji, wartość mediany znajduje się w tym przedziale mediany:

,

gdzie X Me jest dolną granicą przedziału mediany;

h Me – jego wartość;

(Suma m)/2 – połowa ogólnej liczby obserwacji lub połowa wielkości wskaźnika stosowanego jako waga we wzorach na obliczenie wartości średniej (w wartościach bezwzględnych lub względnych);

S Me-1 – suma obserwacji (lub wielkość atrybutu ważącego) zgromadzona przed początkiem przedziału mediany;

m Me – liczba obserwacji lub objętość cechy ważącej w przedziale mediany (również w wartościach bezwzględnych lub względnych).

Obliczając wartość modalną cechy na podstawie danych szeregu przedziałów, należy zwrócić uwagę na to, że przedziały są identyczne, ponieważ od tego zależy wskaźnik powtarzalności wartości cechy X. Dla szereg przedziałowy o równych odstępach, wielkość modu określa się jako

,

gdzie X Mo jest dolną wartością przedziału modalnego;

m Mo – liczba obserwacji lub objętość charakterystyki ważącej w przedziale modalnym (w wartościach bezwzględnych lub względnych);

m Mo-1 – to samo dla przedziału poprzedzającego modalny;

m Mo+1 – to samo dla przedziału następującego po modalnym;

h – wartość przedziału zmian charakterystyki w grupach.

ZADANIE 1

Dla grupy przedsiębiorstw przemysłowych dostępne są następujące dane za rok sprawozdawczy


przedsiębiorstwa

Wielkość produktu, miliony rubli.

Średnia liczba pracowników, osób.

Zysk, tysiąc rubli

197,7

10,0

13,5

22,8

1500

136,2

465,5

18,4

1412

97,6

296,2

12,6

1200

44,4

584,1

22,0

1485

146,0

480,0

119,0

1420

110,4

57805

21,6

1390

138,7

204,7

30,6

466,8

19,4

1375

111,8

292,2

113,6

1200

49,6

423,1

17,6

1365

105,8

192,6

30,7

360,5

14,0

1290

64,8

280,3

10,2

33,3

Wymagane jest grupowanie przedsiębiorstw w celu wymiany produktów w następujących odstępach czasu:

    do 200 milionów rubli

    od 200 do 400 milionów rubli.

  1. od 400 do 600 milionów rubli.

    Dla każdej grupy i dla wszystkich razem określ liczbę przedsiębiorstw, wielkość produkcji, średnią liczbę pracowników, średnią produkcję na pracownika. Wyniki grupowania przedstaw w formie tabeli statystycznej. Sformułuj wniosek.

    ROZWIĄZANIE

    Pogrupujemy przedsiębiorstwa według wymiany produktów, obliczymy liczbę przedsiębiorstw, wielkość produkcji i średnią liczbę pracowników, korzystając z prostego wzoru na średnią. Wyniki grupowania i obliczeń zestawiono w tabeli.

    Grupy według objętości produktu


    przedsiębiorstwa

    Wielkość produktu, miliony rubli.

    Średni roczny koszt środków trwałych, miliony rubli.

    Średni sen

    soczysta liczba pracowników, ludzi.

    Zysk, tysiąc rubli

    Średnia produkcja na pracownika

    1 grupa

    do 200 milionów rubli

    1,8,12

    197,7

    204,7

    192,6

    10,0

    9,4

    8,8

    900

    817

    13,5

    30,6

    30,7

    28,2

    2567

    74,8

    0,23

    Średni poziom

    198,3

    24,9

    2. grupa

    od 200 do 400 milionów rubli.

    4,10,13,14

    196,2

    292,2

    360,5

    280,3

    12,6

    113,6

    14,0

    10,2

    1200

    1200

    1290

    44,4

    49,6

    64,8

    33,3

    1129,2

    150,4

    4590

    192,1

    0,25

    Średni poziom

    282,3

    37,6

    1530

    64,0

    3 grupa

    od 400 do

    600 milionów

    2,3,5,6,7,9,11

    592

    465,5

    584,1

    480,0

    578,5

    466,8

    423,1

    22,8

    18,4

    22,0

    119,0

    21,6

    19,4

    17,6

    1500

    1412

    1485

    1420

    1390

    1375

    1365

    136,2

    97,6

    146,0

    110,4

    138,7

    111,8

    105,8

    3590

    240,8

    9974

    846,5

    0,36

    Średni poziom

    512,9

    34,4

    1421

    120,9

    Razem łącznie

    5314,2

    419,4

    17131

    1113,4

    0,31

    Średnio

    379,6

    59,9

    1223,6

    79,5

    Wniosek. Tym samym w badanej populacji najwięcej przedsiębiorstw pod względem wielkości produkcji znalazło się w grupie trzeciej – siedem, czyli połowa przedsiębiorstw. W tej grupie mieszczą się także średnioroczny koszt środków trwałych oraz duża średnia liczba pracowników – 9974 osoby, najmniej rentowne są przedsiębiorstwa z pierwszej grupy.

    ZADANIE 2

    Dostępne są następujące dane o przedsiębiorstwach spółki

    Numer przedsiębiorstwa wchodzącego w skład spółki

    kwateruję

    II kwartał

    Produkcja produktu, tysiące rubli.

    Osobodni przepracowanych przez pracowników

    Średnia produkcja na pracownika dziennie, rub.

    59390,13

Średnia wartość- jest to ogólny wskaźnik charakteryzujący jakościowo jednorodną populację według określonej cechy ilościowej. Na przykład, średni wiek osoby skazane za kradzież.

W statystyce sądowej wartości średnie służą do scharakteryzowania:

Średni czas rozpatrywania spraw tej kategorii;

Średnia wielkość roszczenia;

Średnia liczba oskarżonych w sprawie;

Średnie obrażenia;

Średnie obciążenie pracą sędziów itp.

Średnia jest zawsze wartością nazwaną i ma ten sam wymiar, co cecha pojedynczej jednostki populacji. Każda średnia wartość charakteryzuje badaną populację według jednej zmiennej cechy, zatem za każdą średnią wartością kryje się szereg rozkładów jednostek tej populacji zgodnie z badaną cechą. O wyborze rodzaju średniej decyduje zawartość wskaźnika oraz dane wyjściowe do obliczenia wartości średniej.

Wszystkie rodzaje średnich stosowanych w badaniach statystycznych dzielą się na dwie kategorie:

1) średnie mocy;

2) średnie strukturalne.

Do pierwszej kategorii średnich zalicza się: średnia arytmetyczna, średnia harmoniczna, średnia geometryczna I średnia kwadratowa . Druga kategoria to moda I mediana. Ponadto każdy z wymienionych typów średnich mocy może mieć dwie formy: prosty I ważony . Prostą postać średniej stosuje się w celu otrzymania średniej wartości badanej cechy, gdy obliczenia przeprowadza się na niezgrupowanych danych statystycznych lub gdy każda opcja w agregacie występuje tylko raz. Średnie ważone to wartości, które uwzględniają, że warianty wartości atrybutów mogą mieć różne liczby, dlatego każdy wariant należy pomnożyć przez odpowiednią częstotliwość. Innymi słowy, każda opcja jest „ważona” według częstotliwości. Częstotliwość nazywana jest wagą statystyczną.

Prosta średnia arytmetyczna- najpopularniejszy rodzaj średniej. Jest równa sumie poszczególnych wartości cechy podzielonej przez Łączna te wartości:

Gdzie x 1 ,x 2 , … ,x N są indywidualnymi wartościami zmiennej cechy (wariantów), a N jest liczbą jednostek w populacji.

Średnia arytmetyczna ważona stosowane w przypadkach, gdy dane prezentowane są w formie szeregów lub grup rozkładów. Oblicza się ją jako sumę iloczynów opcji i odpowiadających im częstotliwości podzieloną przez sumę częstotliwości wszystkich opcji:

Gdzie x ja- oznaczający I warianty cechy; f ja- częstotliwość I opcje.

Zatem każda wartość wariantu jest ważona przez jej częstotliwość, dlatego częstości nazywane są czasami wagami statystycznymi.


Komentarz. Kiedy mówimy o średniej arytmetycznej bez wskazania jej rodzaju, mamy na myśli prostą średnią arytmetyczną.

Tabela 12.

Rozwiązanie. Do obliczeń używamy wzoru na średnią ważoną arytmetyczną:

Zatem w jednej sprawie karnej przypada średnio dwóch oskarżonych.

Jeżeli obliczenie wartości średniej odbywa się na podstawie danych pogrupowanych w postaci serii rozkładów przedziałowych, wówczas należy najpierw określić środkowe wartości każdego przedziału x”i, a następnie obliczyć wartość średnią za pomocą arytmetycznej średniej ważonej wzór, w którym x"i jest podstawiony zamiast xi.

Przykład. Dane dotyczące wieku przestępców skazanych za kradzież przedstawia tabela:

Tabela 13.

Określ średni wiek przestępców skazanych za kradzież.

Rozwiązanie. Aby określić średni wiek przestępców na podstawie szeregu wariacji przedziałowych, należy w pierwszej kolejności znaleźć wartości środkowe przedziałów. Ponieważ podany jest szereg przedziałów z pierwszym i ostatnim przedziałem otwartym, przyjmuje się, że wartości tych przedziałów są równe wartościom sąsiednich przedziałów zamkniętych. W naszym przypadku wartości pierwszego i ostatniego przedziału wynoszą 10.

Teraz średni wiek przestępców obliczamy, korzystając ze wzoru na średnią ważoną arytmetyczną:

Tym samym średni wiek przestępców skazanych za kradzież wynosi około 27 lat.

Oznacza proste harmoniczne reprezentuje odwrotność średniej arytmetycznej odwrotnych wartości cechy:

gdzie 1/ x ja są odwrotnymi wartościami opcji, a N jest liczbą jednostek w populacji.

Przykład. W celu określenia średniorocznego obciążenia pracą sędziów sądu rejonowego przy rozpatrywaniu spraw karnych przeprowadzono badanie obciążenia pracą 5 sędziów tego sądu. Średni czas spędzony nad jedną sprawą karną dla każdego z ankietowanych sędziów okazał się równy (w dniach): 6, 0, 5, 6, 6, 3, 4, 9, 5, 4. Znajdź średnie koszty na jednym karnej oraz średnioroczne obciążenie pracą sędziów danego sądu rejonowego przy rozpatrywaniu spraw karnych.

Rozwiązanie. Aby określić średni czas spędzony nad jedną sprawą karną, korzystamy ze wzoru na średnią harmoniczną:

Aby uprościć obliczenia, w przykładzie przyjmujemy liczbę dni w roku na 365, włączając weekendy (nie ma to wpływu na metodykę obliczeń, a przy obliczaniu podobnego wskaźnika w praktyce należy zastąpić liczbę pracujących dni w danym roku zamiast 365 dni). Wówczas średnioroczne obciążenie pracą sędziów danego sądu rejonowego przy rozpatrywaniu spraw karnych będzie wynosić: 365 (dni): 5,56 ≈ 65,6 (sprawy).

Gdybyśmy zastosowali prosty wzór na średnią arytmetyczną do określenia średniego czasu poświęconego na jedną sprawę karną, otrzymalibyśmy:

365 (dni): 5,64 ≈ 64,7 (przypadki), tj. średnie obciążenie sędziów pracą okazało się mniejsze.

Sprawdźmy zasadność takiego podejścia. W tym celu wykorzystamy dane dotyczące czasu spędzonego nad jedną sprawą karną dla każdego sędziego i obliczymy liczbę spraw karnych rozpatrywanych przez każdego z nich w ciągu roku.

Otrzymujemy odpowiednio:

365 (dni): 6 ≈ 61 (przypadki), 365 (dni): 5,6 ≈ 65,2 (przypadki), 365 (dni): 6,3 ≈ 58 (przypadki),

365 (dni): 4,9 ≈ 74,5 (przypadki), 365 (dni): 5,4 ≈ 68 (przypadki).

Obliczmy teraz średnioroczny nakład pracy sędziów danego sądu rejonowego przy rozpatrywaniu spraw karnych:

Te. średnie roczne obciążenie jest takie samo jak w przypadku stosowania średniej harmonicznej.

Zatem używając średniej arytmetycznej w w tym przypadku nielegalny.

W przypadkach, gdy znane są warianty cechy i ich wartości objętościowe (iloczyn wariantów i częstotliwości), ale same częstotliwości są nieznane, stosuje się wzór na średnią ważoną harmoniczną:

,

Gdzie x ja są wartościami opcji atrybutów, a w i są wartościami wolumetrycznymi opcji ( w ja = x ja fa ja).

Przykład. Dane dotyczące ceny jednostki tego samego rodzaju produktu produkowanej przez różne instytucje systemu karnego oraz wielkości jej sprzedaży podano w tabeli 14.

Tabela 14

Znajdź średnią cenę sprzedaży produktu.

Rozwiązanie. Przy obliczaniu średniej ceny musimy kierować się stosunkiem kwoty sprzedaży do liczby sprzedanych jednostek. Nie znamy liczby sprzedanych jednostek, ale znamy wielkość sprzedaży towarów. Dlatego też, aby znaleźć średnią cenę sprzedanych towarów, skorzystamy ze wzoru na średnią ważoną harmoniczną. Dostajemy

Jeśli użyjesz tutaj wzoru na średnią arytmetyczną, możesz uzyskać średnią cenę, która będzie nierealistyczna:

Średnia geometryczna oblicza się poprzez wyodrębnienie pierwiastka stopnia N z iloczynu wszystkich wartości wariantów atrybutu:

,

Gdzie x 1 ,x 2 , … ,x N- indywidualne wartości zmiennej charakterystyki (warianty) oraz

N- liczba jednostek w populacji.

Ten typ średniej służy do obliczania średnich stóp wzrostu szeregów czasowych.

Średnia kwadratowa służy do obliczenia odchylenia standardowego, które jest wskaźnikiem zmienności i zostanie omówione poniżej.

Aby określić strukturę populacji, stosuje się specjalne wskaźniki średnie, które obejmują mediana I moda lub tzw. średnie strukturalne. Jeżeli średnią arytmetyczną oblicza się na podstawie wykorzystania wszystkich wariantów wartości atrybutów, wówczas mediana i modyfikacja charakteryzują wartość wariantu, który zajmuje określoną średnią pozycję w szeregu rankingowym (uporządkowanym). Jednostki populacji statystycznej można uporządkować rosnąco lub malejąco według wariantów badanej cechy.

Mediana (ja)- jest to wartość odpowiadająca opcji znajdującej się w środku szeregu rankingowego. Zatem medianą jest ta wersja szeregu rankingowego, po obu stronach której w tym szeregu powinna znajdować się równa liczba jednostek populacji.

Aby znaleźć medianę, należy najpierw określić jej numer seryjny w szeregu rankingowym, korzystając ze wzoru:

gdzie N jest objętością szeregu (liczbą jednostek w populacji).

Jeżeli szereg składa się z nieparzystej liczby wyrazów, wówczas mediana jest równa opcji o liczbie N Me. Jeżeli szereg składa się z parzystej liczby wyrazów, wówczas medianę definiuje się jako średnią arytmetyczną dwóch sąsiadujących ze sobą opcji znajdujących się pośrodku.

Przykład. Biorąc pod uwagę szereg rankingowy 1, 2, 3, 3, 6, 7, 9, 9, 10. Objętość szeregu wynosi N = 9, co oznacza N Me = (9 + 1) / 2 = 5. Zatem Me = 6, tj. . piąta opcja. Jeśli w wierszu podano 1, 5, 7, 9, 11, 14, 15, 16, tj. szereg z parzystą liczbą wyrazów (N = 8), wówczas N Me = (8 + 1) / 2 = 4,5. Oznacza to, że mediana jest równa połowie sumy opcji czwartej i piątej, tj. Ja = (9 + 11) / 2 = 10.

W dyskretnych szeregach zmian mediana jest określana na podstawie skumulowanych częstotliwości. Częstotliwości opcji, zaczynając od pierwszej, sumuje się aż do przekroczenia liczby mediany. Wartość ostatnich zsumowanych opcji będzie medianą.

Przykład. Znajdź średnią liczbę oskarżonych w danej sprawie karnej, korzystając z danych z Tabeli 12.

Rozwiązanie. W tym przypadku objętość szeregu zmian wynosi N = 154, zatem N Me = (154 + 1) / 2 = 77,5. Po zsumowaniu częstotliwości pierwszej i drugiej opcji otrzymujemy: 75 + 43 = 118, tj. przekroczyliśmy średnią liczbę. Więc ja = 2.

W szeregu zmienności przedziałowej rozkład najpierw wskazuje przedział, w którym będzie się znajdować mediana. Jest on nazywany mediana . Jest to pierwszy przedział, którego skumulowana częstotliwość przekracza połowę objętości serii zmian przedziału. Następnie wartość liczbową mediany określa się ze wzoru:

Gdzie x Ja- dolna granica przedziału mediany; i jest wartością średniego przedziału; S Me-1- skumulowana częstotliwość przedziału poprzedzającego medianę; f Ja- częstotliwość średniego przedziału.

Przykład. Znajdź średni wiek przestępców skazanych za kradzież na podstawie statystyk przedstawionych w tabeli 13.

Rozwiązanie. Dane statystyczne prezentowane są w postaci serii zmian przedziałowych, co oznacza, że ​​najpierw wyznaczamy przedział mediany. Objętość populacji wynosi N = 162, zatem przedziałem mediany jest przedział 18-28, ponieważ jest to pierwszy przedział, którego skumulowana częstotliwość (15 + 90 = 105) przekracza połowę objętości (162: 2 = 81) serii zmian przedziału. Teraz wyznaczamy wartość liczbową mediany, korzystając z powyższego wzoru:

Zatem połowa skazanych za kradzież to osoby poniżej 25 roku życia.

Moda (poniedziałek) Nazywają to wartością cechy, którą najczęściej można znaleźć w jednostkach populacji. Moda służy do określenia wartości cechy, która jest najbardziej rozpowszechniona. Dla szeregu dyskretnego trybem będzie opcja o najwyższej częstotliwości. Przykładowo dla szeregu dyskretnego przedstawionego w tabeli 3 Pon= 1, ponieważ ta wartość odpowiada najwyższej częstotliwości - 75. Aby określić tryb szeregu interwałowego, najpierw określ modalny interwał (interwał o najwyższej częstotliwości). Następnie w tym przedziale znajduje się wartość cechy, która może być modą.

Jego wartość oblicza się ze wzoru:

Gdzie x poniedziałek- dolna granica przedziału modalnego; i jest wartością przedziału modalnego; f Pon- częstotliwość przedziału modalnego; f Mo-1- częstotliwość interwału poprzedzającego interwał modalny; fMo+1- częstotliwość interwału następującego po modalnym.

Przykład. Znajdź wiek przestępców skazanych za kradzież, którego dane przedstawiono w tabeli 13.

Rozwiązanie. Najwyższa częstotliwość odpowiada przedziałowi 18-28, dlatego tryb powinien znajdować się w tym przedziale. Jego wartość określa powyższy wzór:

Zatem największa liczba przestępców skazanych za kradzież to osoby w wieku 24 lat.

Wartość średnia stanowi ogólną charakterystykę całości badanego zjawiska. Jednak dwie populacje, które mają te same wartości średnie, mogą znacznie różnić się od siebie stopniem wahań (wariacji) wartości badanej cechy. Przykładowo w jednym sądzie orzeczono kary pozbawienia wolności: 3, 3, 3, 4, 5, 5, 5, 12, 12, 15 lat, a w innym - 5, 5, 6, 6, 7, 7 lat , 7, 8, 8, 8 lat. W obu przypadkach średnia arytmetyczna wynosi 6,7 roku. Populacje te różnią się jednak istotnie od siebie rozkładem poszczególnych wartości wymiaru kary pozbawienia wolności w stosunku do wartości średniej.

A w przypadku pierwszego sądu, gdzie rozrzut ten jest dość duży, średni wymiar kary pozbawienia wolności nie odzwierciedla całej populacji. Zatem jeśli poszczególne wartości cechy niewiele się od siebie różnią, wówczas średnia arytmetyczna będzie dość orientacyjną cechą właściwości danej populacji. W przeciwnym razie średnia arytmetyczna będzie niewiarygodną cechą tej populacji i jej zastosowanie w praktyce będzie nieefektywne. Dlatego konieczne jest uwzględnienie zmienności wartości badanej cechy.

Zmiana- są to różnice w wartościach dowolnej cechy pomiędzy różnymi jednostkami danej populacji w tym samym okresie lub momencie. Termin „wariacja” ma pochodzenie łacińskie – varitio, co oznacza różnicę, zmianę, fluktuację. Powstaje w wyniku tego, że poszczególne wartości cechy powstają pod łącznym wpływem różnych czynników (warunków), które w każdym przypadku łączą się inaczej szczególny przypadek. Aby zmierzyć zmienność cechy, stosuje się różne wskaźniki bezwzględne i względne.

Do głównych wskaźników zmienności należą:

1) zakres zmienności;

2) średnie odchylenie liniowe;

3) dyspersja;

4) odchylenie standardowe;

5) współczynnik zmienności.

Przyjrzyjmy się pokrótce każdemu z nich.

Zakres zmienności R jest najbardziej dostępnym wskaźnikiem bezwzględnym pod względem łatwości obliczeń, który definiuje się jako różnicę pomiędzy największą i najmniejszą wartością cechy dla jednostek danej populacji:

Zakres zmienności (zakres wahań) - ważny wskaźnik zmienność znaku, ale pozwala dostrzec jedynie skrajne odchylenia, co ogranicza zakres jego zastosowania. Aby dokładniej scharakteryzować zmienność cechy na podstawie jej zmienności, stosuje się inne wskaźniki.

Średnie odchylenie liniowe reprezentuje średnią arytmetyczną wartości bezwzględnych odchyleń poszczególnych wartości cechy od średniej i jest określana za pomocą wzorów:

1) Dla niezgrupowane dane

2) Dla seria odmian

Jednak najpowszechniej stosowaną miarą zmienności jest dyspersja . Charakteryzuje miarę rozproszenia wartości badanej cechy w stosunku do jej wartości średniej. Dyspersję definiuje się jako średnią kwadratów odchyleń.

Prosta różnica dla danych niezgrupowanych:

.

Wariancja ważona dla serii zmian:

Komentarz. W praktyce do obliczenia wariancji lepiej jest stosować następujące wzory:

Dla prostej wariancji

.

Dla wariancji ważonej

Odchylenie standardowe jest pierwiastkiem kwadratowym wariancji:

Odchylenie standardowe jest miarą wiarygodności średniej. Im mniejsze odchylenie standardowe, tym bardziej jednorodna populacja i tym lepiej średnia arytmetyczna odzwierciedla całą populację.

Omówione powyżej miary rozproszenia (zakres zmienności, rozproszenie, odchylenie standardowe) są wskaźnikami bezwzględnymi, za pomocą których nie zawsze można ocenić stopień zmienności cechy. W niektórych problemach konieczne jest użycie względnych wskaźników rozproszenia, z których jednym jest współczynnik zmienności.

Współczynnik zmienności- stosunek odchylenia standardowego do średniej arytmetycznej, wyrażony w procentach:

Współczynnik zmienności służy nie tylko do porównawczej oceny zmienności różnych cech lub tej samej cechy w różnych populacjach, ale także do scharakteryzowania jednorodności populacji. Populację statystyczną uważa się za jednorodną ilościowo, jeśli współczynnik zmienności nie przekracza 33% (dla rozkładów bliskich rozkładowi normalnemu).

Przykład. Dostępne są następujące dane dotyczące warunków pozbawienia wolności 50 skazanych dostarczonych w celu odbycia kary orzeczonej przez sąd w zakładzie poprawczym systemu karnego: 5, 4, 2, 1, 6, 3, 4, 3, 2, 2 , 5, 6, 4, 3, 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6 , 4, 4, 3, 1, 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.

1. Skonstruuj szereg rozkładów według kary pozbawienia wolności.

2. Znajdź średnią, wariancję i odchylenie standardowe.

3. Oblicz współczynnik zmienności i wyciągnij wniosek o jednorodności lub niejednorodności badanej populacji.

Rozwiązanie. Aby skonstruować dyskretny szereg dystrybucyjny, konieczne jest określenie opcji i częstotliwości. Opcją w tym zadaniu jest kara pozbawienia wolności, a częstotliwość – liczba poszczególnych opcji. Po obliczeniu częstości otrzymujemy następujący szereg dyskretny:

Znajdźmy średnią i wariancję. Ponieważ dane statystyczne są reprezentowane przez dyskretną serię zmian, do ich obliczenia użyjemy wzorów na ważoną średnią arytmetyczną i rozproszenie. Otrzymujemy:

= = 4,1;

= 5,21.

Teraz obliczamy odchylenie standardowe:

Znalezienie współczynnika zmienności:

W konsekwencji populacja statystyczna jest ilościowo niejednorodna.

Dyscyplina: Statystyka

Opcja nr 2

Wartości średnie stosowane w statystykach

Wprowadzenie……………………………………………………………………………….3

Zadanie teoretyczne

Wartość średnia w statystyce, jej istota i warunki stosowania.

1.1. Istota średniej wielkości i warunki użytkowania……….4

1.2. Rodzaje średnich………………………………………………………8

Zadanie praktyczne

Zadanie 1,2,3………………………………………………………………………………14

Zakończenie………………………………………………………………………………….21

Lista referencji………………………………………………………...23

Wstęp

Egzamin ten składa się z dwóch części – teoretycznej i praktycznej. W części teoretycznej szczegółowo zbadana zostanie tak ważna kategoria statystyczna, jaką jest wartość średnia, w celu określenia jej istoty i warunków stosowania, a także podkreślenia rodzajów średnich i metod ich obliczania.

Statystyka, jak wiemy, bada masowe zjawiska społeczno-gospodarcze. Każde z tych zjawisk może mieć inny ilościowy wyraz tej samej cechy. Na przykład płace pracowników tego samego zawodu lub ceny rynkowe tego samego produktu itp. Wartości średnie charakteryzują wskaźniki jakościowe działalności handlowej: koszty dystrybucji, zysk, rentowność itp.

Aby zbadać dowolną populację według zmieniających się (ilościowo) cech, statystyka wykorzystuje wartości średnie.

Jednostka średniej wielkości

Wartość średnia jest uogólniającą cechą ilościową zbioru podobnych zjawisk opartą na jednej zmiennej charakterystyce. W praktyce gospodarczej stosuje się szeroką gamę wskaźników obliczanych jako wartości średnie.

Najważniejszą właściwością wartości średniej jest to, że reprezentuje ona za pomocą jednej liczby wartość pewnej cechy w całej populacji, pomimo jej różnic ilościowych w poszczególnych jednostkach populacji, i wyraża to, co jest wspólne dla wszystkich jednostek badanej populacji . Zatem poprzez cechy jednostki populacji charakteryzuje całą populację jako całość.

Wartości średnie związane są z prawem wielkich liczb. Istota tego związku polega na tym, że podczas uśredniania przypadkowe odchylenia poszczególnych wartości, na skutek działania prawa wielkich liczb, znoszą się wzajemnie, a w średniej ujawnia się główny kierunek rozwoju, konieczność i prawidłowość. Wartości średnie pozwalają na porównanie wskaźników związanych z populacjami o różnej liczbie jednostek.

We współczesnych warunkach rozwoju stosunków rynkowych w gospodarce średnie służą jako narzędzie badania obiektywnych wzorców zjawisk społeczno-gospodarczych. Jednak w analiza ekonomiczna Nie można ograniczać się jedynie do wskaźników przeciętnych, gdyż ogólnie korzystne średnie mogą kryć w sobie duże i poważne braki w działalności poszczególnych podmiotów gospodarczych i zaczątki nowego, postępowego. Na przykład rozkład populacji według dochodów umożliwia identyfikację powstawania nowych grupy społeczne. Dlatego obok przeciętnych danych statystycznych należy uwzględnić charakterystykę poszczególnych jednostek populacji.

Wartość średnia jest wypadkową wszystkich czynników wpływających na badane zjawisko. Oznacza to, że przy obliczaniu wartości średnich wpływ czynników losowych (zakłóceń, indywidualnych) znosi się i dzięki temu możliwe jest określenie wzorca charakterystycznego dla badanego zjawiska. Adolphe Quetelet podkreślał, że znaczenie metody średnich polega na możliwości przejścia od jednostki do ogółu, od losowości do regularności, a istnienie średnich jest kategorią obiektywnej rzeczywistości.

Statystyka bada zjawiska i procesy masowe. Każde z tych zjawisk ma zarówno wspólne dla całego zbioru, jak i szczególne, indywidualne właściwości. Różnica pomiędzy poszczególnymi zjawiskami nazywana jest zmiennością. Kolejną właściwością zjawisk masowych jest ich nieodłączne podobieństwo cech poszczególnych zjawisk. Zatem oddziaływanie elementów zbioru prowadzi do ograniczenia zmienności przynajmniej części ich właściwości. Tendencja ta istnieje obiektywnie. To właśnie w jego obiektywności leży przyczyna najszerszego stosowania wartości średnich w praktyce i teorii.

Wartość średnia w statystyce jest ogólnym wskaźnikiem charakteryzującym typowy poziom zjawiska w określonych warunkach miejsca i czasu, odzwierciedlającym wartość zmiennej cechy na jednostkę jakościowo jednorodnej populacji.

W praktyce gospodarczej stosuje się szeroką gamę wskaźników obliczanych jako wartości średnie.

Stosując metodę średnich, statystyka rozwiązuje wiele problemów.

Główne znaczenie średnich polega na ich funkcji uogólniającej, to znaczy zastąpieniu wielu różnych indywidualnych wartości cechy wartością średnią, która charakteryzuje cały zestaw zjawisk.

Jeśli średnia wartość uogólnia jakościowo jednorodne wartości cechy, wówczas jest to typowa cecha cechy w danej populacji.

Nieprawidłowe jest jednak redukowanie roli wartości średnich jedynie do charakterystyki typowych wartości cech w populacjach jednorodnych pod względem danej cechy. W praktyce znacznie częściej współczesne statystyki posługują się wartościami średnimi, które uogólniają zjawiska wyraźnie jednorodne.

Średni dochód narodowy na mieszkańca, średni plon zbóż w całym kraju, średnie spożycie różne produktyżywienie – są to cechy państwa jako jednolitego narodowego systemu gospodarczego, są to tzw. średnie systemowe.

Średnie systemowe mogą charakteryzować zarówno systemy przestrzenne, jak i obiektowe, które istnieją jednocześnie (stan, przemysł, region, planeta Ziemia itp.), oraz systemy dynamiczne, rozciągnięte w czasie (rok, dekada, pora roku itp.).

Najważniejszą właściwością wartości średniej jest to, że odzwierciedla ona to, co jest wspólne dla wszystkich jednostek badanej populacji. Wartości atrybutów poszczególnych jednostek populacji zmieniają się w tym czy innym kierunku pod wpływem wielu czynników, wśród których mogą być zarówno podstawowe, jak i losowe. Na przykład cena akcji korporacji jako całości zależy od jej sytuacji finansowej. Jednocześnie w określone dni i na niektórych giełdach akcje te, w zależności od zaistniałej sytuacji, mogą być sprzedawane po wyższym lub niższym kursie. Istota średniej polega na tym, że niweluje ona odchylenia wartości charakterystycznych poszczególnych jednostek populacji spowodowane działaniem czynników losowych, a uwzględnia zmiany spowodowane działaniem czynników głównych. Dzięki temu średnia odzwierciedla typowy poziom cechy i abstrahuje od niej Cechy indywidulane, właściwe dla poszczególnych jednostek.

Obliczanie średniej jest jedną z najpowszechniejszych technik uogólniania; wskaźnik przeciętny odzwierciedla to, co wspólne (typowe) dla wszystkich jednostek badanej populacji, ignorując jednocześnie różnice poszczególnych jednostek. W każdym zjawisku i jego rozwoju istnieje połączenie przypadku i konieczności.

Średnia jest sumaryczną charakterystyką praw procesu w warunkach, w których on zachodzi.

Każda średnia charakteryzuje badaną populację według dowolnej cechy, ale aby scharakteryzować dowolną populację, opisać jej typowe cechy i cechy jakościowe, potrzebny jest system średnich wskaźników. Dlatego w praktyce statystyki krajowej do badania zjawisk społeczno-gospodarczych z reguły oblicza się system średnich wskaźników. I tak na przykład wskaźnik przeciętnego wynagrodzenia ocenia się łącznie ze wskaźnikami średniej produkcji, stosunku kapitału do pracy i energii do pracy, stopnia mechanizacji i automatyzacji pracy itp.

Średnią należy obliczyć, biorąc pod uwagę treść ekonomiczną badanego wskaźnika. Zatem dla konkretnego wskaźnika stosowanego w analizach społeczno-ekonomicznych można w oparciu o naukową metodę obliczeń obliczyć tylko jedną prawdziwą wartość średniej.

Wartość średnia jest jednym z najważniejszych uogólniających wskaźników statystycznych, charakteryzującym zbiór podobnych zjawisk według jakiejś ilościowo zmieniającej się cechy. Średnie w statystyce są wskaźnikami ogólnymi, liczbami wyrażającymi typowe charakterystyczne wymiary zjawisk społecznych według jednej ilościowo zmieniającej się cechy.

Rodzaje średnich

Rodzaje wartości średnich różnią się przede wszystkim jaką właściwością, jaki parametr początkowej zmiennej masy poszczególnych wartości atrybutu należy zachować bez zmian.

Średnia arytmetyczna

Średnia arytmetyczna to średnia wartość cechy, przy której obliczeniu całkowita objętość cechy w agregacie pozostaje niezmieniona. W przeciwnym razie możemy powiedzieć, że średnia arytmetyczna jest wyrazem średnim. Obliczając go, całkowita wielkość atrybutu jest równomiernie rozdzielana mentalnie pomiędzy wszystkie jednostki populacji.

Średnią arytmetyczną stosuje się, jeżeli znane są wartości uśrednianej cechy (x) i liczba jednostek populacji o określonej wartości cechy (f).

Średnia arytmetyczna może być prosta lub ważona.

Prosta średnia arytmetyczna

Simple stosuje się, jeśli każda wartość atrybutu x występuje raz, tj. dla każdego x wartość atrybutu wynosi f=1 lub jeśli dane źródłowe nie są uporządkowane i nie wiadomo, ile jednostek ma określone wartości atrybutów.

Wzór na średnią arytmetyczną jest prosty:

gdzie jest wartość średnia; x – wartość uśrednionej cechy (wariantu), – liczba jednostek badanej populacji.

Średnia arytmetyczna ważona

W przeciwieństwie do zwykłej średniej, średnią ważoną arytmetyczną stosuje się, jeśli każda wartość atrybutu x występuje kilka razy, tj. dla każdej wartości cechy f≠1. Średnia ta jest szeroko stosowana do obliczania średniej na podstawie szeregu rozkładów dyskretnych:

gdzie to liczba grup, x to wartość uśrednianej cechy, f to waga wartości cechy (częstotliwość, jeśli f to liczba jednostek w populacji; częstotliwość, jeśli f to proporcja jednostek z opcją x w całkowitej liczbie ludności).

Średnia harmoniczna

Oprócz średniej arytmetycznej statystyka wykorzystuje średnią harmoniczną, odwrotność średniej arytmetycznej odwrotnych wartości atrybutu. Podobnie jak średnia arytmetyczna, może być prosta i ważona. Stosuje się go, gdy niezbędne wagi (f i) w danych wyjściowych nie są określone bezpośrednio, ale są uwzględnione jako współczynnik w jednym z dostępnych wskaźników (tj. Gdy znany jest licznik początkowego stosunku średniej, ale jego mianownik jest nieznany).

Harmoniczne średnioważone

Iloczyn xf daje objętość uśrednionej charakterystyki x dla zbioru jednostek i jest oznaczany w. Jeżeli dane źródłowe zawierają wartości uśrednianej cechy x i objętość uśrednianej cechy w, to do obliczenia średniej stosuje się metodę ważonych harmonicznych:

gdzie x jest wartością uśrednionej cechy x (wariant); w – waga wariantów x, objętość uśrednionej cechy.

Średnia harmoniczna nieważona (prosta)

Ta forma średnia, używana znacznie rzadziej, ma następującą postać:

gdzie x jest wartością uśrednianej cechy; n – liczba wartości x.

Te. jest to odwrotność prostej średniej arytmetycznej odwrotności wartości atrybutu.

W praktyce średnia harmoniczna prosta jest rzadko stosowana w przypadkach, gdy wartości w dla jednostek populacji są równe.

Średni kwadrat i średni sześcienny

W wielu przypadkach w praktyce gospodarczej istnieje potrzeba obliczenia średniej wielkości cechy wyrażonej w jednostkach kwadratowych lub sześciennych. Następnie stosuje się średnią kwadratową (na przykład do obliczenia średniej wielkości boku i odcinków kwadratowych, średnich średnic rur, pni itp.) Oraz średnią sześcienną (na przykład przy określaniu średniej długości boku i kostki).

Jeżeli zastępując poszczególne wartości cechy wartością średnią, konieczne jest zachowanie sumy kwadratów wartości pierwotnych bez zmiany, wówczas średnia będzie średnią wartością kwadratową, prostą lub ważoną.

Prosty średni kwadrat

Simple stosuje się, jeśli każda wartość atrybutu x występuje raz, na ogół ma postać:

gdzie jest kwadratem wartości uśrednianej cechy; - liczba jednostek w populacji.

Średni ważony kwadrat

Średni ważony kwadrat stosuje się, jeśli każda wartość uśrednionej cechy x występuje f razy:

,

gdzie f jest wagą opcji x.

Średnia sześcienna prosta i ważona

Średnia sześcienna liczba pierwsza to pierwiastek sześcienny z ilorazu dzielenia sumy kostek poszczególnych wartości atrybutów przez ich liczbę:

gdzie są wartości atrybutu, n jest ich liczbą.

Średnia waga sześcienna:

,

gdzie f jest wagą opcji x.

Średnie kwadratowe i sześcienne mają ograniczone zastosowanie w praktyce statystycznej. Statystyka średniokwadratowa jest szeroko stosowana, ale nie na podstawie samych opcji x , oraz z ich odchyleń od średniej przy obliczaniu wskaźników zmienności.

Średnią można obliczyć nie dla wszystkich, ale dla jakiejś części jednostek w populacji. Przykładem takiej średniej może być średnia progresywna jako jedna ze średnich cząstkowych, obliczana nie dla wszystkich, a tylko dla „najlepszych” (np. dla wskaźników powyżej lub poniżej średnich indywidualnych).

Średnia geometryczna

Jeżeli wartości uśrednianej cechy znacząco różnią się od siebie lub są określone współczynnikami (tempo wzrostu, wskaźniki cen), wówczas do obliczeń stosuje się średnią geometryczną.

Średnią geometryczną oblicza się poprzez wyodrębnienie pierwiastka stopnia i z iloczynów poszczególnych wartości - wariantów cechy X:

gdzie n jest liczbą opcji; P - znak produktu.

Średnia geometryczna jest najczęściej stosowana do wyznaczania średniej szybkości zmian w szeregach dynamiki, a także szeregach rozkładu.

Wartości średnie są ogólnymi wskaźnikami, w których wyraża się wpływ warunków ogólnych i wzór badanego zjawiska. Średnie statystyczne obliczane są na podstawie danych masowych pochodzących z prawidłowo zorganizowanej statystycznie obserwacji mas (ciągłej lub próbnej). Jednakże średnia statystyczna będzie obiektywna i typowa, jeśli zostanie obliczona na podstawie danych masowych dla jakościowo jednorodnej populacji (zjawiska masowe). Stosowanie średnich powinno wynikać z dialektycznego rozumienia kategorii ogółu i jednostki, masy i jednostki.

Połączenie średnich ogólnych ze średnimi grupowymi umożliwia ograniczenie jakościowo jednorodnych populacji. Dzieląc masę obiektów składających się na to lub inne złożone zjawisko na wewnętrznie jednorodne, ale jakościowo różne grupy, charakteryzując każdą z grup swoją średnią, możliwe jest ujawnienie rezerw procesu wyłaniania się nowej jakości. Na przykład rozkład populacji według dochodów pozwala nam zidentyfikować powstawanie nowych grup społecznych. W części analitycznej przyjrzeliśmy się konkretnemu przykładowi wykorzystania wartości średniej. Podsumowując, można powiedzieć, że zakres i wykorzystanie średnich w statystyce jest dość szerokie.

Zadanie praktyczne

Zadanie nr 1

Określ średni kurs zakupu i średni kurs sprzedaży jednego dolara amerykańskiego

Średni wskaźnik zakupu

Średni kurs sprzedaży

Zadanie nr 2

Dynamikę wolumenu własnych produktów gastronomicznych w obwodzie czelabińskim w latach 1996-2004 przedstawiono w tabeli w porównywalnych cenach (w milionach rubli)

Połącz rzędy A i B. Aby przeanalizować szereg dynamiki produkcji produkt końcowy Oblicz:

1. Wzrost bezwzględny, wzrost łańcuchowy i bazowy oraz stopy wzrostu

2. Średnioroczna produkcja wyrobów gotowych

3. Średnioroczne tempo wzrostu i przyrostu produktów firmy

4. Dokonać analitycznego wyrównania szeregów dynamiki i obliczyć prognozę na rok 2005

5. Przedstaw graficznie szereg dynamiki

6. Wyciągnij wnioski na podstawie wyników dynamiki

1) yi B = yi-y1 yi C = yi-y1

y2 B = 2,175 – 2,04 y2 C = 2,175 – 2,04 = 0,135

y3B = 2,505 – 2,04 y3 C = 2,505 – 2,175 = 0,33

y4 B = 2,73 – 2,04 y4 C = 2,73 – 2,505 = 0,225

y5 B = 1,5 – 2,04 y5 C = 1,5 – 2,73 = 1,23

y6 B = 3,34 – 2,04 y6 C = 3,34 – 1,5 = 1,84

y7 B = 3,6 3 – 2,04 y7 C = 3,6 3 – 3,34 = 0,29

y8 B = 3,96 – 2,04 y8 C = 3,96 – 3,63 = 0,33

y9 B = 4,41–2,04 y9 C = 4,41 – 3,96 = 0,45

Tr B2 Tr Ts2

Tr B3 Tr Ts3

Tr B4 Tr Ts4

Tr B5 Tr Ts5

Tr B6 Tr Ts6

Tr B7 Tr Ts7

Tr B8 Tr Ts8

Tr B9 Tr Ts9

Tr B = (TprB *100%) – 100%

Tr B2 = (1,066*100%) – 100% = 6,6%

Tr Ts3 = (1,151*100%) – 100% = 15,1%

2) j milion rubli – średnia produktywność produktu

2,921 + 0,294*(-4) = 2,921-1,176 = 1,745

2,921 + 0,294*(-3) = 2,921-0,882 = 2,039

(yt-y) = (1,745-2,04) = 0,087

(yt-yt) = (1,745-2,921) = 1,382

(y-yt) = (2,04–2,921) = 0,776

Tp

Przez

rok 2005=2,921+1,496*4=2,921+5,984=8,905

8,905+2,306*1,496=12,354

8,905-2,306*1,496=5,456

5,456 2005 12,354


Zadanie nr 3

Dane statystyczne dotyczące hurtowych dostaw żywności i artykułów nieżywnościowych oraz sieci handlu detalicznego województwa w latach 2003 i 2004 przedstawiono na odpowiednich wykresach.

Zgodnie z tabelami 1 i 2 jest to wymagane

1. Znajdź ogólny wskaźnik hurtowej podaży produktów spożywczych w cenach rzeczywistych;

2. Znajdź ogólny wskaźnik rzeczywistej wielkości dostaw żywności;

3. Porównaj ogólne wskaźniki i wyciągnij odpowiednie wnioski;

4. Znajdź ogólny wskaźnik podaży towarów nieżywnościowych w cenach rzeczywistych;

5. Znajdź ogólny wskaźnik fizycznej wielkości podaży produktów nieżywnościowych;

6. Porównywać uzyskane wskaźniki i wyciągać wnioski na temat produktów nieżywnościowych;

7. Znaleźć skonsolidowane ogólne wskaźniki podaży całej masy towaru w cenach rzeczywistych;

8. Znajdź skonsolidowany ogólny wskaźnik objętości fizycznej (dla całej masy towaru);

9. Porównaj otrzymane wskaźniki podsumowujące i wyciągnij odpowiedni wniosek.

Okres bazowy

Okres sprawozdawczy (2004)

Dostawy okresu sprawozdawczego w cenach okresu bazowego

1,291-0,681=0,61= - 39

Wniosek

Podsumowując, podsumujmy. Wartości średnie są ogólnymi wskaźnikami, w których wyraża się wpływ warunków ogólnych i wzór badanego zjawiska. Średnie statystyczne obliczane są na podstawie danych masowych pochodzących z prawidłowo zorganizowanej statystycznie obserwacji mas (ciągłej lub próbnej). Jednakże średnia statystyczna będzie obiektywna i typowa, jeśli zostanie obliczona na podstawie danych masowych dla jakościowo jednorodnej populacji (zjawiska masowe). Stosowanie średnich powinno wynikać z dialektycznego rozumienia kategorii ogółu i jednostki, masy i jednostki.

Średnia odzwierciedla to, co wspólne w każdym indywidualnym, indywidualnym przedmiocie, dlatego też średnia nabiera ogromnego znaczenia w identyfikowaniu wzorców właściwych masowym zjawiskom społecznym, a niewidocznych w zjawiskach indywidualnych.

Odchylenie jednostki od ogółu jest przejawem procesu rozwoju. W niektórych odosobnionych przypadkach mogą zostać ustanowione elementy nowego, zaawansowanego. W tym przypadku to właśnie czynniki specyficzne, rozpatrywane na tle wartości średnich, charakteryzują proces rozwoju. Średnia odzwierciedla zatem charakterystyczny, typowy, rzeczywisty poziom badanych zjawisk. Charakterystyka tych poziomów oraz ich zmiany w czasie i przestrzeni są jednym z głównych problemów średnich. W ten sposób manifestuje się na przykład poprzez średnie cechy przedsiębiorstw na pewnym etapie rozwoju gospodarczego; zmiany w dobrobycie ludności znajdują odzwierciedlenie w przeciętnych zarobkach, dochodach rodziny w ogóle i poszczególnych grup społecznych oraz poziomie konsumpcji produktów, towarów i usług.

Wskaźnik przeciętny jest wartością typową (zwykłą, normalną, dominującą jako całość), ale jest taką, ponieważ kształtuje się w normalnych, naturalnych warunkach istnienia określonego zjawiska masowego, rozpatrywanego całościowo. Średnia odzwierciedla obiektywną właściwość zjawiska. W rzeczywistości często istnieją tylko zjawiska odbiegające od normy, a przeciętność jako zjawisko może nie istnieć, chociaż koncepcja typowości zjawiska jest zapożyczona z rzeczywistości. Wartość średnia jest odzwierciedleniem wartości badanej cechy i dlatego jest mierzona w tym samym wymiarze, co ta cecha. Jednakże istnieją różne drogi przybliżone określenie poziomu rozmieszczenia ludności w celu porównania zbiorczych cech, które nie są ze sobą bezpośrednio porównywalne, np. średnia liczba ludności w stosunku do terytorium (średnia gęstość zaludnienia). W zależności od tego, który czynnik należy wyeliminować, zostanie również określona zawartość średniej.

Połączenie średnich ogólnych ze średnimi grupowymi umożliwia ograniczenie jakościowo jednorodnych populacji. Dzieląc masę obiektów składających się na to lub inne złożone zjawisko na wewnętrznie jednorodne, ale jakościowo różne grupy, charakteryzując każdą z grup swoją średnią, możliwe jest ujawnienie rezerw procesu wyłaniania się nowej jakości. Na przykład rozkład populacji według dochodów pozwala nam zidentyfikować powstawanie nowych grup społecznych. W części analitycznej przyjrzeliśmy się konkretnemu przykładowi wykorzystania wartości średniej. Podsumowując, można powiedzieć, że zakres i wykorzystanie średnich w statystyce jest dość szerokie.

Bibliografia

1. Gusarov, V.M. Teoria statystyki według jakości [Tekst]: podręcznik. zasiłek / V.M.

Podręcznik Gusarowa dla uniwersytetów. - M., 1998

2. Edronova, N.N. Ogólna teoria statystyki [Tekst]: podręcznik / wyd. N.N. Edronova - M.: Finanse i statystyka 2001 - 648 s.

3. Eliseeva I.I., Yuzbashev M.M. Ogólna teoria statystyki [Tekst]: Podręcznik / wyd. Członek korespondent RAS II Eliseeva. – wyd. 4, poprawione. i dodatkowe - M.: Finanse i Statystyka, 1999. - 480 s.: il.

4. Efimova M.R., Petrova E.V., Rumyantsev V.N. Ogólna teoria statystyki: [Tekst]: Podręcznik. - M.: INFRA-M, 1996. - 416 s.

5. Ryauzova, N.N. Ogólna teoria statystyki [Tekst]: podręcznik / wyd. N.N.

Ryauzova - M.: Finanse i statystyka, 1984.


Gusarow V.M. Teoria statystyki: Podręcznik. Podręcznik dla uniwersytetów. - M., 1998.-str.60.

Eliseeva I.I., Yuzbashev M.M. Ogólna teoria statystyki. - M., 1999.-str.76.

Gusarow V.M. Teoria statystyki: Podręcznik. Podręcznik dla uniwersytetów. -M., 1998.-str.61.

Wartości średnie odnoszą się do ogólnych wskaźników statystycznych, które stanowią sumaryczną (ostateczną) charakterystykę masowych zjawisk społecznych, ponieważ są budowane na podstawie dużej liczby indywidualnych wartości o zróżnicowanej charakterystyce. Aby wyjaśnić istotę wartości średniej, należy wziąć pod uwagę specyfikę tworzenia wartości znaków tych zjawisk, zgodnie z danymi, z których obliczana jest wartość średnia.

Wiadomo, że jednostki każdego zjawiska masowego mają liczne cechy. Którąkolwiek z tych cech przyjmiemy, jej wartości będą różne dla poszczególnych jednostek, zmieniają się lub, jak mówią statystyki, różnią się w zależności od jednostki. Przykładowo wynagrodzenie pracownika jest zdeterminowane jego kwalifikacjami, charakterem pracy, stażem pracy i szeregiem innych czynników, a zatem waha się w bardzo szerokich granicach. Łączny wpływ wszystkich czynników decyduje o wysokości zarobków każdego pracownika, można jednak mówić o przeciętnym miesięcznym wynagrodzeniu pracowników w różnych sektorach gospodarki. Operujemy tu typową, charakterystyczną wartością o zmiennej charakterystyce, przypisaną jednostce dużej populacji.

Odzwierciedla to średnia wartość ogólny, co jest typowe dla wszystkich jednostek badanej populacji. Równocześnie równoważy wpływ wszystkich czynników oddziałujących na wartość cechy poszczególnych jednostek populacji, jakby je wzajemnie wygaszając. O poziomie (lub wielkości) dowolnego zjawiska społecznego decyduje działanie dwóch grup czynników. Niektóre z nich mają charakter ogólny i główny, stale działający, ściśle związany z naturą badanego zjawiska lub procesu i tworzą typowy dla wszystkich jednostek badanej populacji, co znajduje odzwierciedlenie w wartości średniej. Inni są indywidualny, ich działanie jest mniej wyraźne i ma charakter epizodyczny, losowy. Działają w odwrotnym kierunku, powodując różnice między cechami ilościowymi poszczególnych jednostek populacji, próbując zmienić stałą wartość badanych cech. Wpływ cech indywidualnych wygasa w wartości średniej. W łącznym wpływie czynników typowych i indywidualnych, równoważącym się i wzajemnie znoszącym w charakterystyce ogólnej, podstawowa zasada znana ze statystyki matematycznej przejawia się w postaci ogólnej. prawo wielkich liczb.

Łącznie poszczególne wartości cech łączą się we wspólną masę i niejako rozpływają się. Stąd Średnia wartość działa jako „bezosobowe”, co może odbiegać od indywidualnych wartości cech, nie pokrywając się ilościowo z żadną z nich. Wartość średnia odzwierciedla wartość ogólną, charakterystyczną i typową dla całej populacji ze względu na wzajemne znoszenie się w niej przypadkowych, nietypowych różnic pomiędzy cechami poszczególnych jej jednostek, gdyż jej wartość jest wyznaczana jakby przez wspólną wypadkową wszystkich przyczyn.

Aby jednak wartość średnia odzwierciedlała najbardziej typową wartość cechy, nie należy jej wyznaczać dla jakiejkolwiek populacji, a jedynie dla populacji składających się z jednostek jakościowo jednorodnych. Wymóg ten jest głównym warunkiem naukowego stosowania średnich i implikuje ścisły związek między metodą średnich a metodą grupowania w analizie zjawisk społeczno-ekonomicznych. W konsekwencji wartość średnia jest ogólnym wskaźnikiem charakteryzującym typowy poziom zmiennej cechy na jednostkę jednorodnej populacji w określonych warunkach miejsca i czasu.

Definiując w ten sposób istotę wartości średnich, należy podkreślić, że prawidłowe obliczenie jakiejkolwiek wartości średniej wymaga spełnienia następujących wymagań:

  • jakościowa jednorodność populacji, z której obliczana jest wartość średnia. Oznacza to, że obliczenie wartości średnich powinno opierać się na metodzie grupowania, która zapewnia identyfikację jednorodnych, podobnych zjawisk;
  • z wyłączeniem wpływu losowych, czysto indywidualnych przyczyn i czynników na obliczenie wartości średniej. Osiąga się to w przypadku, gdy obliczenie średniej opiera się na wystarczająco masywnym materiale, w którym przejawia się działanie prawa wielkich liczb, a wszelka przypadkowość zostaje zniesiona;
  • Przy obliczaniu wartości średniej ważne jest ustalenie celu jej obliczenia oraz tzw wskaźnik określający(właściwość), na którą powinien być ukierunkowany.

Wskaźnik definiujący może działać jako suma wartości uśrednianej cechy, suma jej wartości odwrotnych, iloczyn jej wartości itp. Związek między wskaźnikiem definiującym a wartością średnią wyraża się w następujący sposób: jeśli wszystkie wartości uśrednianej cechy zostaną zastąpione wartością średnią, wówczas ich suma lub iloczyn w tym przypadku nie zmieni wskaźnika definiującego. W oparciu o to powiązanie wskaźnika definiującego z wartością średnią konstruuje się początkową zależność ilościową w celu bezpośredniego obliczenia wartości średniej. Nazywa się zdolność wartości średnich do zachowania właściwości populacji statystycznych określenie własności.

Nazywa się średnią wartość obliczoną dla całej populacji Średnia ogólna; wartości średnie obliczone dla każdej grupy - średnie grupowe. Ogólna średnia odzwierciedla wspólne cechy badanego zjawiska, średnia grupowa daje charakterystykę zjawiska, które rozwija się w specyficznych warunkach danej grupy.

Metody obliczeń mogą być różne, dlatego w statystyce wyróżnia się kilka rodzajów średnich, z których najważniejsze to średnia arytmetyczna, średnia harmoniczna i średnia geometryczna.

W analizie ekonomicznej głównym narzędziem oceny skutków postępu naukowo-technicznego, wydarzeń społecznych i poszukiwania rezerw na rozwój gospodarczy jest wykorzystanie średnich. Jednocześnie należy pamiętać, że nadmierne poleganie na średnich wskaźnikach może prowadzić do stronniczych wniosków przy prowadzeniu analiz ekonomicznych i statystycznych. Wynika to z faktu, że wartości średnie, będące wskaźnikami ogólnymi, wygaszają i ignorują te różnice w cechach ilościowych poszczególnych jednostek populacji, które faktycznie istnieją i mogą być przedmiotem niezależnego zainteresowania.

Rodzaje średnich

W statystyce stosuje się różne rodzaje średnich, które dzielą się na dwie duże klasy:

  • średnie potęgowe (średnia harmoniczna, średnia geometryczna, średnia arytmetyczna, średnia kwadratowa, średnia sześcienna);
  • środki strukturalne (moda, mediana).

Liczyć średnie moce należy wykorzystać wszystkie dostępne wartości charakterystyczne. Moda I mediana są zdeterminowane jedynie strukturą rozkładu, dlatego nazywane są średnimi strukturalnymi, pozycyjnymi. Mediana i tryb są często używane jako charakterystyka średnia w tych populacjach, w których obliczenie mocy średniej jest niemożliwe lub niepraktyczne.

Najpopularniejszym typem średniej jest średnia arytmetyczna. Pod Średnia arytmetyczna rozumiana jest jako wartość cechy, jaką miałaby każda jednostka populacji, gdyby całkowita suma wszystkich wartości cechy została równomiernie rozdzielona pomiędzy wszystkie jednostki populacji. Obliczenie tej wartości sprowadza się do zsumowania wszystkich wartości zmiennej cechy i podzielenia otrzymanej kwoty przez całkowitą liczbę jednostek w populacji. Przykładowo pięciu pracowników zrealizowało zlecenie na produkcję części, pierwszy wyprodukował 5 części, drugi 7, trzeci 4, czwarty 10, piąty 12. Ponieważ w danych źródłowych wartość każdego Opcja wystąpiła tylko raz, aby określić średnią wydajność jednego robotnika należy zastosować prosty wzór na średnią arytmetyczną:

tj. w naszym przykładzie średnia produkcja jednego pracownika jest równa

Oprócz prostej średniej arytmetycznej uczą się ważona średnia arytmetyczna. Dla przykładu obliczmy średni wiek uczniów w grupie 20 osób, których wiek waha się od 18 do 22 lat, gdzie xi- warianty uśrednianej cechy, fi- częstotliwość, która pokazuje, ile razy to się dzieje i-t wartość w sumie (tabela 5.1).

Tabela 5.1

Średni wiek uczniów

Stosując wzór na średnią ważoną arytmetyczną otrzymujemy:


Aby wybrać ważoną średnią arytmetyczną, istnieje pewna zasada: jeśli istnieje szereg danych dotyczących dwóch wskaźników, dla jednego z nich konieczne jest obliczenie

wartość średnia, a jednocześnie znane są wartości liczbowe mianownika jego wzoru logicznego, a wartości licznika są nieznane, ale można je znaleźć jako iloczyn tych wskaźników, wówczas wartość średnia powinna oblicza się przy użyciu wzoru na średnią arytmetyczną ważoną.

W niektórych przypadkach charakter początkowych danych statystycznych jest taki, że obliczenie średniej arytmetycznej traci sens i jedynym wskaźnikiem uogólniającym może być jedynie inny rodzaj średniej - Średnia harmoniczna. Obecnie właściwości obliczeniowe średniej arytmetycznej straciły na znaczeniu w obliczaniu ogólnych wskaźników statystycznych ze względu na powszechne wprowadzenie technologii obliczeń elektronicznych. Wartość średnia harmoniczna, która może być również prosta i ważona, nabrała dużego znaczenia praktycznego. Jeśli znane są wartości liczbowe licznika wzoru logicznego, a wartości mianownika są nieznane, ale można je znaleźć jako częściowy podział jednego wskaźnika przez drugi, wówczas wartość średnią oblicza się za pomocą harmonicznej formuła średniej ważonej.

Przykładowo niech będzie wiadomo, że pierwsze 210 km samochód przejechał z prędkością 70 km/h, a pozostałe 150 km z prędkością 75 km/h. Nie da się określić średniej prędkości samochodu na całej trasie wynoszącej 360 km, korzystając ze wzoru na średnią arytmetyczną. Ponieważ opcjami są prędkości na poszczególnych odcinkach xj= 70 km/h i X2= 75 km/h, a wagi (fi) uznaje się za odpowiadające im odcinki trasy, wówczas iloczyny opcji i wag nie będą miały ani znaczenia fizycznego, ani ekonomicznego. W tym przypadku ilorazy nabierają znaczenia po podziale odcinków ścieżki na odpowiadające im prędkości (opcje xi), czyli czas spędzony na przejechaniu poszczególnych odcinków ścieżki (fi / xi). Jeżeli odcinki ścieżki oznaczymy jako fi, to cała ścieżka zostanie wyrażona jako Σfi, a czas spędzony na całej ścieżce jako Σ fi / xi , Następnie średnią prędkość można obliczyć jako iloraz całej trasy podzielony przez całkowity czas spędzony:

W naszym przykładzie otrzymujemy:

Jeżeli przy stosowaniu średniej harmonicznej wagi wszystkich opcji (f) są równe, to zamiast opcji ważonej można zastosować prosta (nieważona) średnia harmoniczna:

gdzie xi to opcje indywidualne; N- liczba wariantów uśrednionej charakterystyki. W przykładzie dotyczącym prędkości można zastosować prostą średnią harmoniczną, jeśli segmenty ścieżki przebyte z różnymi prędkościami były równe.

Każdą wartość średnią należy tak obliczyć, aby przy zastąpieniu każdego wariantu uśrednionej cechy nie uległa zmianie wartość jakiegoś końcowego, ogólnego wskaźnika, który jest powiązany ze wskaźnikiem uśrednionym. Zatem zastępując rzeczywiste prędkości na poszczególnych odcinkach trasy ich wartością średnią (prędkość średnią) dystans całkowity nie powinien się zmieniać.

Formę (wzór) wartości średniej wyznacza charakter (mechanizm) relacji tego wskaźnika końcowego do wskaźnika uśrednionego, dlatego też wskaźnikiem końcowym, którego wartość nie powinna się zmieniać przy zastąpieniu opcji ich wartością średnią, jest zwany wskaźnik określający. Aby wyprowadzić wzór na średnią, należy utworzyć i rozwiązać równanie, wykorzystując relację między wskaźnikiem uśrednionym a wskaźnikiem decydującym. Równanie to konstruuje się poprzez zastąpienie uśrednianych wariantów cechy (wskaźnika) ich wartością średnią.

Oprócz średniej arytmetycznej i średniej harmonicznej w statystyce stosuje się inne typy (formy) średniej. Wszystkie są szczególnymi przypadkami średnia moc. Jeśli obliczymy wszystkie rodzaje średnich mocy dla tych samych danych, to wartości

okażą się takie same, tutaj obowiązuje zasada major-ranty przeciętny. Wraz ze wzrostem wykładnika średniej wzrasta sama wartość średnia. Najczęściej stosowane wzory obliczeniowe w badaniach praktycznych różne rodzaje Wartości średnie mocy przedstawiono w tabeli. 5.2.

Tabela 5.2


Jeśli istnieje, stosuje się średnią geometryczną N współczynniki wzrostu, natomiast poszczególne wartości cechy są z reguły wartości względne dynamika skonstruowana w postaci wartości łańcuchowych, jako stosunek do poprzedniego poziomu każdego poziomu w szeregu dynamiki. Średnia charakteryzuje zatem średnią stopę wzrostu. Przeciętna geometryczna prosta obliczone według wzoru

Formuła ważona średnia geometryczna ma następującą postać:

Powyższe wzory są identyczne, z tym że jeden stosuje się przy bieżących współczynnikach lub tempach wzrostu, a drugi przy wartościach bezwzględnych poziomów szeregów.

Średnia kwadratowa stosowany w obliczeniach z wartościami funkcji kwadratowych, służący do pomiaru stopnia fluktuacji poszczególnych wartości cechy wokół średniej arytmetycznej w szeregu rozkładów i obliczany jest według wzoru

Średni ważony kwadrat obliczone według innego wzoru:

Przeciętny sześcienny służy do obliczeń z wartościami funkcji sześciennych i jest obliczany według wzoru

średnia waga sześcienna:

Wszystkie wartości średnie omówione powyżej można przedstawić w postaci ogólnego wzoru:

gdzie jest wartość średnia; - indywidualne znaczenie; N- liczba jednostek badanej populacji; k- wykładnik określający rodzaj średniej.

W przypadku korzystania z tych samych danych źródłowych tym więcej k w ogólnym wzorze na średnią moc, im większa jest wartość średnia. Wynika z tego, że istnieje naturalna zależność pomiędzy wartościami średnich mocy:

Opisane powyżej wartości średnie dają uogólnione pojęcie o badanej populacji i z tego punktu widzenia ich znaczenie teoretyczne, stosowane i edukacyjne jest bezdyskusyjne. Zdarza się jednak, że średnia wartość nie pokrywa się z żadną z faktycznie istniejących opcji, dlatego oprócz rozważanych średnich w analizie statystycznej wskazane jest wykorzystanie wartości konkretnych opcji, które zajmują bardzo konkretną pozycję w uporządkowane (uszeregowane) serie wartości atrybutów. Wśród tych ilości najczęściej stosowane są strukturalny, Lub opisowy, średni- tryb (Mo) i mediana (Me).

Moda- wartość cechy, która najczęściej występuje w danej populacji. W odniesieniu do szeregu wariacyjnego modą jest najczęściej występująca wartość szeregu rankingowego, czyli opcja występująca z największą częstotliwością. Modę można wykorzystać do określenia najczęściej odwiedzanych sklepów, najczęstszej ceny dowolnego produktu. Pokazuje wielkość cechy charakterystycznej dla znacznej części populacji i jest określana za pomocą wzoru

gdzie x0 jest dolną granicą przedziału; H- wielkość interwału; fm- częstotliwość interwałów; fm_ 1 - częstotliwość poprzedniego interwału; fm+ 1 - częstotliwość kolejnego interwału.

Mediana wywoływana jest opcja znajdująca się w środku rankingu. Mediana dzieli szereg na dwie równe części w taki sposób, że po obu jej stronach znajduje się taka sama liczba jednostek populacji. W tym przypadku połowa jednostek w populacji ma wartość zmiennej zmiennej mniejszą od mediany, a druga połowa ma wartość od niej większą. Medianę stosuje się przy badaniu elementu, którego wartość jest większa lub równa lub jednocześnie mniejsza lub równa połowie elementów szeregu dystrybucyjnego. Mediana daje główny pomysł o tym, gdzie koncentrują się wartości atrybutu, innymi słowy, gdzie znajduje się ich środek.

Opisowy charakter mediany przejawia się w tym, że charakteryzuje ona ilościową granicę wartości zmiennej cechy, jaką posiada połowa jednostek w populacji. Problem znalezienia mediany dla szeregu zmienności dyskretnej można łatwo rozwiązać. Jeżeli wszystkim jednostkom szeregu nadawane są numery seryjne, wówczas numer seryjny opcji mediany ustala się jako (n + 1) / 2 z nieparzystą liczbą członków n. Jeżeli liczba członków szeregu jest liczbą parzystą , wówczas mediana będzie średnią wartością dwóch opcji mających numery seryjne N/ 2 i N / 2 + 1.

Wyznaczając medianę w szeregu zmian przedziału, należy najpierw określić przedział, w którym się ona znajduje (przedział medianowy). Przedział ten charakteryzuje się tym, że jego skumulowana suma częstotliwości jest równa lub przekracza połowę sumy wszystkich częstotliwości szeregu. Medianę szeregu zmian przedziałowych oblicza się za pomocą wzoru

Gdzie X0- dolna granica interwału; H- wielkość interwału; fm- częstotliwość interwałów; F- liczba członków serii;

∫m-1 jest sumą skumulowanych wyrazów szeregu poprzedzającego dany.

Oprócz mediany, aby pełniej scharakteryzować strukturę badanej populacji, wykorzystuje się także inne wartości opcji, które zajmują bardzo konkretną pozycję w szeregu rankingowym. Obejmują one kwartyle I decyle. Kwartyle dzielą szereg według sumy częstości na 4 równe części, a decyle na 10 równych części. Istnieją trzy kwartyle i dziewięć decyli.

Mediana i moda w odróżnieniu od średniej arytmetycznej nie eliminują różnic indywidualnych w wartościach cechy zmiennej i dlatego stanowią dodatkowe i bardzo ważne cechy populacji statystycznej. W praktyce często stosuje się je zamiast średniej lub wraz z nią. Obliczanie mediany i postaci jest szczególnie wskazane w przypadkach, gdy badana populacja zawiera pewną liczbę jednostek o bardzo dużej lub bardzo małej wartości zmiennej cechy. Te wartości opcji, które nie są zbyt charakterystyczne dla populacji, wpływając na wartość średniej arytmetycznej, nie wpływają na wartości mediany i mody, co czyni te ostatnie bardzo cennymi wskaźnikami z punktu widzenia ekonomii i statystyki analiza.

Wskaźniki zmienności

Celem badań statystycznych jest identyfikacja podstawowych właściwości i wzorców badanej populacji statystycznej. W procesie sumarycznego przetwarzania statystycznych danych obserwacyjnych budują się seria dystrybucyjna. Wyróżnia się dwa rodzaje szeregów rozkładów – atrybutywne i wariacyjne, w zależności od tego, czy cecha przyjęta za podstawę grupowania ma charakter jakościowy czy ilościowy.

Wariacyjny nazywane są szeregami dystrybucyjnymi skonstruowanymi na zasadzie ilościowej. Wartości cech ilościowych w poszczególnych jednostkach populacji nie są stałe, mniej więcej różnią się od siebie. Ta różnica w wartości cechy nazywa się odmiany. Nazywa się indywidualne wartości liczbowe cechy występującej w badanej populacji warianty wartości. Obecność zmienności w poszczególnych jednostkach populacji wynika z wpływu dużej liczby czynników na kształtowanie się poziomu cechy. Badanie charakteru i stopnia zmienności cech w poszczególnych jednostkach populacji jest najważniejszym zagadnieniem wszelkich badań statystycznych. Wskaźniki zmienności służą do opisu miary zmienności cechy.

Kolejnym ważnym zadaniem badań statystycznych jest określenie roli poszczególnych czynników lub ich grup w kształtowaniu się określonych cech populacji. Aby rozwiązać ten problem, statystyka wykorzystuje specjalne metody badania zmienności, oparte na wykorzystaniu systemu wskaźników, za pomocą których mierzy się zmienność. W praktyce badacz ma do czynienia z dość dużą liczbą wariantów wartości atrybutów, co nie daje wyobrażenia o rozkładzie jednostek według wartości atrybutów w agregacie. Aby to zrobić, ułóż wszystkie warianty wartości charakterystycznych w kolejności rosnącej lub malejącej. Proces ten nazywa się rankingu serialu. Seria rankingowa natychmiast daje ogólne pojęcie o wartościach, jakie dana funkcja przyjmuje łącznie.

Niewystarczalność wartości średniej do wyczerpującego opisu populacji zmusza do uzupełnienia wartości średnich wskaźnikami, które pozwalają ocenić typowość tych średnich poprzez pomiar zmienności (wariacji) badanej cechy. Zastosowanie tych wskaźników zmienności pozwala uczynić analizę statystyczną pełniejszą i bardziej znaczącą, a tym samym uzyskać głębsze zrozumienie istoty badanych zjawisk społecznych.

Najprostsze oznaki zmienności to minimum I maksimum - jest to najmniejsza i największa wartość atrybutu w sumie. Nazywa się liczbą powtórzeń poszczególnych wariantów wartości charakterystycznych częstotliwość powtarzania. Oznaczmy częstotliwość powtarzania się wartości atrybutu fi, suma częstotliwości równa objętości badanej populacji będzie wynosić:

Gdzie k- liczba opcji wartości atrybutów. Wygodnie jest zastąpić częstotliwości częstotliwościami - wi. Częstotliwość- wskaźnik częstotliwości względnej - może być wyrażony w ułamkach jednostki lub procentach i pozwala na porównanie szeregów zmian przy różnej liczbie obserwacji. Formalnie mamy:

Aby zmierzyć zmienność cechy, stosuje się różne wskaźniki bezwzględne i względne. Bezwzględne wskaźniki zmienności obejmują średnie odchylenie liniowe, zakres zmienności, rozproszenie i odchylenie standardowe.

Zakres zmienności(R) reprezentuje różnicę między maksymalnymi i minimalnymi wartościami atrybutu w badanej populacji: R= Xmaks. – Xmin. Wskaźnik ten daje jedynie najbardziej ogólne pojęcie o zmienności badanej cechy, ponieważ pokazuje różnicę tylko między maksymalnymi wartościami opcji. Jest ona zupełnie niezwiązana z częstotliwościami w szeregu wariacyjnym, czyli z naturą rozkładu, a jej zależność może nadać mu niestabilny, losowy charakter jedynie od skrajnych wartości cechy. Rozpiętość zmienności nie dostarcza informacji o charakterystyce badanych populacji i nie pozwala na ocenę stopnia typowości uzyskanych wartości średnich. Zakres stosowania tego wskaźnika ogranicza się do populacji dość jednorodnych, a dokładniej charakteryzuje on zmienność cechy, wskaźnik polegający na uwzględnieniu zmienności wszystkich wartości cechy.

Aby scharakteryzować zmienność cechy, konieczne jest uogólnienie odchyleń wszystkich wartości od dowolnej wartości typowej dla badanej populacji. Takie wskaźniki

odchylenia, takie jak średnie odchylenie liniowe, rozproszenie i odchylenie standardowe, opierają się na uwzględnieniu odchyleń wartości charakterystycznych poszczególnych jednostek populacji od średniej arytmetycznej.

Średnie odchylenie liniowe reprezentuje średnią arytmetyczną wartości bezwzględnych odchyleń poszczególnych opcji od ich średniej arytmetycznej:


Wartość bezwzględna (moduł) odchylenia wariantu od średniej arytmetycznej; F- częstotliwość.

Pierwszy wzór stosuje się, jeżeli każda z opcji występuje łącznie tylko raz, a drugi – szeregowo z nierówną częstotliwością.

Istnieje inny sposób uśredniania odchyleń opcji od średniej arytmetycznej. Ta bardzo powszechna metoda w statystyce sprowadza się do obliczenia kwadratów odchyleń opcji od wartości średniej i ich późniejszego uśrednienia. Otrzymujemy w tym przypadku nowy wskaźnik zmienności – dyspersję.

Dyspersja(σ 2) - średnia kwadratów odchyleń opcji wartości atrybutu od ich wartości średniej:

Drugi wzór stosuje się w przypadku, gdy opcje mają własne wagi (lub częstości szeregu zmian).

W analizie ekonomicznej i statystycznej zwyczajowo ocenia się zmienność cechy najczęściej za pomocą odchylenia standardowego. Odchylenie standardowe(σ) jest pierwiastkiem kwadratowym wariancji:

Średnie odchylenia liniowe i standardowe pokazują, jak bardzo wartość cechy waha się średnio pomiędzy jednostkami badanej populacji i są wyrażone w tych samych jednostkach miary, co opcje.

W praktyce statystycznej często istnieje potrzeba porównania zmienności różnych cech. Na przykład bardzo interesujące jest porównanie różnic w wieku personelu i jego kwalifikacjach, stażu pracy i płacach itp. Do takich porównań nie nadają się wskaźniki bezwzględnej zmienności cech - średnia liniowa i odchylenie standardowe. Nie da się bowiem porównać wahań stażu pracy wyrażonych w latach z wahaniami płac wyrażonych w rublach i kopiejek.

Porównując razem zmienność różnych cech, wygodnie jest zastosować względne miary zmienności. Wskaźniki te oblicza się jako stosunek wskaźników bezwzględnych do średniej arytmetycznej (lub mediany). Wykorzystując zakres zmienności, średnie odchylenie liniowe i odchylenie standardowe jako bezwzględny wskaźnik zmienności, uzyskuje się względne wskaźniki zmienności:


Najczęściej stosowany wskaźnik zmienności względnej, charakteryzujący jednorodność populacji. Populację uważa się za jednorodną, ​​jeśli współczynnik zmienności nie przekracza 33% dla rozkładów bliskich normalnemu.

W większości przypadków dane są skupione wokół jakiegoś centralnego punktu. Zatem, aby opisać dowolny zbiór danych, wystarczy wskazać wartość średnią. Rozważmy kolejno trzy cechy liczbowe, które służą do oszacowania wartości średniej rozkładu: średnią arytmetyczną, medianę i modę.

Przeciętny

Średnia arytmetyczna (często nazywana po prostu średnią) jest najczęstszym oszacowaniem średniej rozkładu. Jest to wynik podzielenia sumy wszystkich zaobserwowanych wartości liczbowych przez ich liczbę. Dla próbki składającej się z liczb X 1, X 2, …, XN, średnia próbki (oznaczona przez ) równa się = (X 1 + X 2 + … + XN) / N, Lub

gdzie jest średnia z próbki, N- wielkość próbki, XIi-ty element próbki.

Pobierz notatkę w formacie lub, przykłady w formacie

Rozważ obliczenie średniej arytmetycznej pięcioletnich średnich rocznych zwrotów 15 funduszy inwestycyjnych z bardzo wysoki poziom ryzyko (ryc. 1).

Ryż. 1. Średnie roczne zyski 15 funduszy inwestycyjnych bardzo wysokiego ryzyka

Średnią próbkę oblicza się w następujący sposób:

Jest to dobry wynik, szczególnie w porównaniu z stopą zwrotu, jaką w tym samym okresie otrzymywali deponenci banków lub spółdzielczych kas oszczędnościowo-kredytowych na poziomie 3–4%. Jeśli posortujemy zwroty, łatwo zauważyć, że osiem funduszy osiąga zwroty powyżej średniej, a siedem poniżej średniej. Średnia arytmetyczna pełni rolę punktu równowagi, w związku z czym fundusze o niskich stopach zwrotu równoważą fundusze o wysokich stopach zwrotu. W obliczeniu średniej biorą udział wszystkie elementy próby. Żadne inne oszacowanie średniej rozkładu nie ma tej właściwości.

Kiedy należy obliczyć średnią arytmetyczną? Ponieważ średnia arytmetyczna zależy od wszystkich elementów w próbie, obecność wartości ekstremalnych znacząco wpływa na wynik. W takich sytuacjach średnia arytmetyczna może zniekształcać znaczenie danych liczbowych. Dlatego przy opisie zbioru danych zawierającego wartości ekstremalne konieczne jest wskazanie mediany lub średniej arytmetycznej i mediany. Na przykład, jeśli usuniemy z próby zwroty funduszu RS Emerging Growth, średnia z próbki zwrotów 14 funduszy spadnie o prawie 1% do 5,19%.

Mediana

Mediana reprezentuje wartość średnia uporządkowana tablica liczb. Jeśli tablica nie zawiera powtarzających się liczb, to połowa jej elementów będzie mniejsza, a połowa większa od mediany. Jeśli próbka zawiera wartości ekstremalne, do oszacowania średniej lepiej jest zastosować medianę, a nie średnią arytmetyczną. Aby obliczyć medianę próbki, należy ją najpierw uporządkować.

Formuła ta jest niejednoznaczna. Jego wynik zależy od tego, czy liczba jest parzysta, czy nieparzysta N:

  • Jeśli próbka zawiera nieparzystą liczbę elementów, mediana wynosi (n+1)/2-ty element.
  • Jeżeli próbka zawiera parzystą liczbę elementów, mediana leży pomiędzy dwoma środkowymi elementami próbki i jest równa średniej arytmetycznej obliczonej z tych dwóch elementów.

Aby obliczyć medianę próbki zawierającej zwroty z 15 funduszy inwestycyjnych bardzo wysokiego ryzyka, należy najpierw posortować surowe dane (rysunek 2). Wtedy mediana będzie przeciwna numerowi środkowego elementu próbki; w naszym przykładzie nr 8. Excel ma specjalną funkcję =MEDIAN(), która działa również z tablicami nieuporządkowanymi.

Ryż. 2. Mediana 15 funduszy

Zatem mediana wynosi 6,5. Oznacza to, że stopa zwrotu z jednej połowy funduszy bardzo wysokiego ryzyka nie przekracza 6,5, a stopa zwrotu z drugiej połowy ją przekracza. Należy zauważyć, że mediana wynosząca 6,5 ​​nie jest dużo większa od średniej wynoszącej 6,08.

Jeśli usuniemy z próby zwrot funduszu RS Emerging Growth, to mediana pozostałych 14 funduszy obniży się do 6,2%, czyli nie tak znacząco jak średnia arytmetyczna (wykres 3).

Ryż. 3. Mediana 14 funduszy

Moda

Termin ten został po raz pierwszy ukuty przez Pearsona w 1894 roku. Moda to liczba, która występuje najczęściej w próbie (najmodniejsza). Moda dobrze opisuje na przykład typową reakcję kierowców na sygnał świetlny nakazujący zatrzymanie się. Klasycznym przykładem zastosowania mody jest wybór rozmiaru buta czy koloru tapety. Jeśli rozkład ma kilka postaci, wówczas mówi się, że jest multimodalny lub multimodalny (ma dwa lub więcej „szczytów”). Daje dystrybucję multimodalną ważna informacja o naturze badanej zmiennej. Na przykład w badaniach socjologicznych, jeśli zmienna reprezentuje preferencję lub postawę wobec czegoś, wówczas multimodalność może oznaczać, że istnieje kilka różnych różne zdania. Multimodalność służy również jako wskaźnik, że próbka nie jest jednorodna, a obserwacje mogą być generowane przez dwa lub więcej „nakładających się” rozkładów. W przeciwieństwie do średniej arytmetycznej wartości odstające nie wpływają na tryb. W przypadku zmiennych losowych o rozkładzie ciągłym, takich jak średni roczny zwrot z funduszy inwestycyjnych, ten tryb czasami w ogóle nie istnieje (lub nie ma sensu). Ponieważ wskaźniki te mogą przyjmować bardzo różne wartości, powtarzające się wartości są niezwykle rzadkie.

Kwartyle

Kwartyle to metryki najczęściej używane do oceny rozkładu danych przy opisywaniu właściwości dużych próbek numerycznych. Podczas gdy mediana dzieli uporządkowaną tablicę na pół (50% elementów tablicy jest mniejszych od mediany, a 50% jest większych), kwartyle dzielą uporządkowany zbiór danych na cztery części. Wartości Q 1 , mediana i Q 3 to odpowiednio 25., 50. i 75. percentyl. Pierwszy kwartyl Q 1 to liczba dzieląca próbę na dwie części: 25% elementów jest mniejszych i 75% jest większych niż pierwszy kwartyl.

Trzeci kwartyl Q 3 to liczba, która również dzieli próbę na dwie części: 75% elementów jest mniejszych, a 25% - więcej niż trzy kwartyl

Aby obliczyć kwartyle w wersjach programu Excel wcześniejszych niż 2007, użyj funkcji =QUARTILE(tablica,część). Począwszy od Excela 2010 używane są dwie funkcje:

  • =KWARTYL.ON(tablica,część)
  • =KWARTYL.EXC(tablica,część)

Te dwie funkcje niewiele dają różne znaczenia(ryc. 4). Na przykład przy obliczaniu kwartylów próby zawierającej średnie roczne zyski 15 funduszy inwestycyjnych bardzo wysokiego ryzyka Q 1 = 1,8 lub –0,7 odpowiednio dla QUARTILE.IN i QUARTILE.EX. Nawiasem mówiąc, wcześniej używana funkcja QUARTILE odpowiada nowoczesnej funkcji QUARTILE.ON. Aby obliczyć kwartyle w programie Excel przy użyciu powyższych wzorów, tablica danych nie musi być uporządkowana.

Ryż. 4. Obliczanie kwartylów w Excelu

Podkreślmy jeszcze raz. Excel może obliczyć kwartyle dla jednej zmiennej dyskretna seria, zawierający wartości zmienna losowa. Obliczanie kwartylów dla rozkładu opartego na częstotliwości podano poniżej w tej sekcji.

Średnia geometryczna

W przeciwieństwie do średniej arytmetycznej, średnia geometryczna pozwala oszacować stopień zmian zmiennej w czasie. Średnia geometryczna to pierwiastek N stopień od pracy N ilości (w Excelu używana jest funkcja =SRGEOM):

G= (X 1 * X 2 * … * X n) 1/n

Podobny parametr – średnią geometryczną stopy zysku – określa wzór:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Gdzie R ja– stopa zysku dla I okres czasu.

Załóżmy na przykład, że początkowa inwestycja wynosi 100 000 USD, pod koniec pierwszego roku spada do 50 000 USD, a pod koniec drugiego roku wraca do początkowego poziomu 100 000 USD. Stopa zwrotu tej inwestycji w ciągu dwóch -rok wynosi 0, gdyż początkowa i końcowa kwota środków są sobie równe. Natomiast średnia arytmetyczna rocznych stóp zwrotu wynosi = (–0,5 + 1) / 2 = 0,25 czyli 25%, gdyż stopa zwrotu w pierwszym roku R 1 = (50 000 – 100 000) / 100 000 = –0,5, a w drugim R 2 = (100 000 – 50 000) / 50 000 = 1. Jednocześnie średnia geometryczna wartości stopy zysku za dwa lata wynosi: G = [(1–0,5) * (1+ 1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Tym samym średnia geometryczna dokładniej odzwierciedla zmianę (dokładniej brak zmian) wielkości inwestycji w okresie dwóch lat niż średnia arytmetyczna.

Interesujące fakty. Po pierwsze, średnia geometryczna będzie zawsze mniejsza niż średnia arytmetyczna tych samych liczb. Z wyjątkiem przypadku, gdy wszystkie wzięte liczby są sobie równe. Po drugie, biorąc pod uwagę właściwości trójkąta prostokątnego, można zrozumieć, dlaczego średnią nazywa się geometryczną. Wysokość trójkąta prostokątnego obniżonego do przeciwprostokątnej jest średnią proporcjonalną między rzutami nóg na przeciwprostokątną, a każda noga jest średnią proporcjonalną między przeciwprostokątną a jej rzutem na przeciwprostokątną (ryc. 5). Daje to geometryczny sposób konstruowania średniej geometrycznej dwóch (długości) odcinków: musisz zbudować okrąg na sumie tych dwóch odcinków jako średnicy, a następnie przywrócić wysokość od punktu ich połączenia do przecięcia z okręgiem poda żądaną wartość:

Ryż. 5. Geometryczny charakter średniej geometrycznej (rysunek z Wikipedii)

Drugą ważną właściwością danych liczbowych jest ich zmiana, charakteryzujące stopień rozproszenia danych. Dwie różne próbki mogą różnić się zarówno średnimi, jak i wariancjami. Jednakże, jak pokazano na ryc. 6 i 7, dwie próbki mogą mieć te same odmiany, ale różne środki, lub te same średnie i zupełnie różne odmiany. Dane odpowiadające wielokątowi B na ryc. 7, zmieniają się znacznie mniej niż dane, na podstawie których zbudowano wielokąt A.

Ryż. 6. Dwa symetryczne rozkłady dzwonowe z tym samym rozrzutem i różnymi wartościami średnimi

Ryż. 7. Dwa symetryczne rozkłady dzwonowe o tych samych wartościach średnich i różnych spreadach

Istnieje pięć szacunków zmienności danych:

Zakres

Rozstęp to różnica pomiędzy największymi i najmniejszymi elementami próbki:

Zasięg = XMaks-XMin

Rozpiętość próby zawierającej średnie roczne zyski 15 funduszy inwestycyjnych bardzo wysokiego ryzyka można obliczyć za pomocą uporządkowanej tablicy (zob. wykres 4): Rozstęp = 18,5 – (–6,1) = 24,6. Oznacza to, że różnica pomiędzy najwyższą i najniższą średnioroczną stopą zwrotu funduszy bardzo wysokiego ryzyka wynosi 24,6%.

Zasięg mierzy ogólny rozkład danych. Chociaż zakres próby jest bardzo prostym oszacowaniem całkowitego rozrzutu danych, jego słabością jest to, że nie uwzględnia dokładnie rozkładu danych pomiędzy elementami minimalnymi i maksymalnymi. Efekt ten jest wyraźnie widoczny na ryc. 8, która ilustruje próbki mające ten sam zakres. Skala B pokazuje, że jeśli próbka zawiera co najmniej jedną wartość ekstremalną, zakres próby jest bardzo niedokładnym oszacowaniem rozrzutu danych.

Ryż. 8. Porównanie trzech próbek o tym samym zakresie; trójkąt symbolizuje podporę skali, a jego położenie odpowiada średniej próbki

Zakres międzykwartylowy

Rozstęp międzykwartylowy, czyli średni, to różnica między trzecim i pierwszym kwartylem próbki:

Rozstęp międzykwartylowy = Q 3 – Q 1

Wartość ta pozwala oszacować rozproszenie 50% pierwiastków i nie uwzględniać wpływu pierwiastków skrajnych. Rozstęp międzykwartylowy próby zawierającej średnie roczne zyski 15 funduszy inwestycyjnych bardzo wysokiego ryzyka można obliczyć, korzystając z danych przedstawionych na ryc. 4 (przykładowo dla funkcji KWARTYL.WYKŁ): Rozstęp międzykwartylowy = 9,8 – (–0,7) = 10,5. Przedział ograniczony liczbami 9,8 i -0,7 nazywany jest często środkową połową.

Należy zauważyć, że wartości Q 1 i Q 3 , a co za tym idzie rozstęp międzykwartylowy, nie zależą od obecności wartości odstających, ponieważ przy ich obliczaniu nie uwzględnia się żadnej wartości, która byłaby mniejsza niż Q 1 lub większa niż Q3. Miary podsumowujące, takie jak mediana, pierwszy i trzeci kwartyl oraz rozstęp międzykwartylowy, na które nie mają wpływu wartości odstające, nazywane są miarami solidnymi.

Chociaż rozstęp i rozstęp międzykwartylowy dostarczają szacunków odpowiednio całkowitego i średniego rozrzutu próbki, żadne z tych szacunków nie uwzględnia dokładnie sposobu rozmieszczenia danych. Wariancja i odchylenie standardowe są pozbawione tej wady. Wskaźniki te pozwalają ocenić stopień, w jakim dane oscylują wokół wartości średniej. Odchylenie próbki jest przybliżeniem średniej arytmetycznej obliczonej z kwadratów różnic między każdym elementem próbki a średnią z próbki. Dla próbki X 1, X 2, ... X n wariancję próbki (oznaczoną symbolem S 2 wyraża się następującym wzorem:

Ogólnie rzecz biorąc, wariancja próbki to suma kwadratów różnic między elementami próbki a średnią próbki, podzielona przez wartość równą wielkości próby minus jeden:

Gdzie - Średnia arytmetyczna, N- wielkość próbki, X ja - I element wyboru X. W programie Excel przed wersją 2007 do obliczenia wariancji próbki używana była funkcja =VARIN(), od wersji 2010 używana jest funkcja =VARIAN().

Najbardziej praktycznym i powszechnie akceptowanym oszacowaniem rozprzestrzeniania się danych jest Odchylenie standardowe próbki. Wskaźnik ten jest oznaczony symbolem S i jest równy pierwiastek kwadratowy z wariancji próbki:

W programie Excel przed wersją 2007 do obliczania odchylenia standardowego próbki używana była funkcja =STDEV.(), od wersji 2010 używana jest funkcja =STDEV.V(). Aby obliczyć te funkcje, tablica danych może być nieuporządkowana.

Ani wariancja próbki, ani odchylenie standardowe próbki nie mogą być ujemne. Jedyną sytuacją, w której wskaźniki S 2 i S mogą wynosić zero, jest sytuacja, gdy wszystkie elementy próby są sobie równe. W tym całkowicie nieprawdopodobnym przypadku rozstęp i rozstęp międzykwartylowy również wynoszą zero.

Dane liczbowe są z natury niestabilne. Każda zmienna może przyjmować wiele różne znaczenia. Na przykład różne fundusze wspólnego inwestowania mają różne stopy zwrotu i straty. Ze względu na zmienność danych liczbowych bardzo ważne jest badanie nie tylko szacunków średniej, które mają charakter podsumowujący, ale także szacunków wariancji, które charakteryzują rozrzut danych.

Rozproszenie i odchylenie standardowe pozwalają ocenić rozrzut danych wokół wartości średniej, innymi słowy określić, ile elementów próbki jest mniejszych od średniej, a ile większych. Dyspersja ma pewne cenne właściwości matematyczne. Jednak jego wartością jest kwadrat jednostki miary - procent kwadratowy, dolar kwadratowy, cal kwadratowy itp. Dlatego naturalną miarą rozproszenia jest odchylenie standardowe wyrażone w zwykłych jednostkach procentu dochodu, dolarach lub calach.

Odchylenie standardowe pozwala oszacować wielkość zmienności elementów próbki wokół wartości średniej. Prawie we wszystkich sytuacjach większość obserwowanych wartości mieści się w przedziale plus minus jedno odchylenie standardowe od średniej. W konsekwencji, znając średnią arytmetyczną elementów próby i odchylenie standardowe próbki, można wyznaczyć przedział, do którego należy większość danych.

Odchylenie standardowe zwrotów dla 15 funduszy inwestycyjnych bardzo wysokiego ryzyka wynosi 6,6 (wykres 9). Oznacza to, że rentowność większości funduszy odbiega od średniej o nie więcej niż 6,6% (tj. waha się w przedziale od -S= 6,2 – 6,6 = –0,4 do +S= 12,8). W rzeczywistości pięcioletni średni roczny zwrot wynoszący 53,3% (8 z 15) funduszy mieści się w tym przedziale.

Ryż. 9. Przykładowe odchylenie standardowe

Należy zauważyć, że podczas sumowania kwadratów różnic elementy próbki, które są dalej od średniej, mają większą wagę niż elementy, które są bliżej średniej. Ta właściwość jest głównym powodem, dla którego do oszacowania średniej rozkładu najczęściej używa się średniej arytmetycznej.

Współczynnik zmienności

W przeciwieństwie do poprzednich szacunków rozrzutu, współczynnik zmienności jest szacunkiem względnym. Jest ona zawsze mierzona jako procent, a nie w jednostkach oryginalnych danych. Współczynnik zmienności, oznaczony symbolami CV, mierzy rozproszenie danych wokół średniej. Współczynnik zmienności jest równy odchyleniu standardowemu podzielonemu przez średnią arytmetyczną i pomnożonym przez 100%:

Gdzie S- odchylenie standardowe próbki, - średnia próbki.

Współczynnik zmienności pozwala porównać dwie próbki, których elementy wyrażone są w różnych jednostkach miary. Na przykład menedżer firmy dostarczającej pocztę zamierza odnowić swoją flotę ciężarówek. Podczas ładowania paczek należy wziąć pod uwagę dwa ograniczenia: wagę (w funtach) i objętość (w stopach sześciennych) każdej paczki. Załóżmy, że w próbce zawierającej 200 worków średnia waga wynosi 26,0 funtów, odchylenie standardowe masy wynosi 3,9 funta, średnia objętość worka wynosi 8,8 stopy sześciennej, a odchylenie standardowe objętości wynosi 2,2 stopy sześciennej. Jak porównać różnice w wadze i objętości paczek?

Ponieważ jednostki miary masy i objętości różnią się od siebie, menedżer musi porównać względny rozrzut tych wielkości. Współczynnik zmienności masy wynosi CV W = 3,9 / 26,0 * 100% = 15%, a współczynnik zmienności objętości wynosi CV V = 2,2 / 8,8 * 100% = 25%. Zatem względna zmiana objętości pakietów jest znacznie większa niż względna zmiana ich wagi.

Formularz dystrybucji

Trzecią ważną właściwością próbki jest kształt jej rozkładu. Rozkład ten może być symetryczny lub asymetryczny. Aby opisać kształt rozkładu, należy obliczyć jego średnią i medianę. Jeśli oba są takie same, zmienną uznaje się za mającą rozkład symetryczny. Jeżeli średnia wartość zmiennej jest większa od mediany, jej rozkład ma dodatnią skośność (ryc. 10). Jeżeli mediana jest większa od średniej, rozkład zmiennej jest ujemnie skośny. Dodatnia skośność występuje, gdy średnia wzrasta do niezwykle wysokich wartości. Ujemna skośność występuje, gdy średnia spada do niezwykle małych wartości. Zmienna ma rozkład symetryczny, jeśli nie przyjmuje żadnych skrajnych wartości w żadnym kierunku, tak że duże i małe wartości zmiennej znoszą się wzajemnie.

Ryż. 10. Trzy typy dystrybucji

Dane pokazane na skali A są wypaczone ujemnie. Rysunek ten przedstawia długi ogon i przechylenie w lewo spowodowane obecnością niezwykle małych wartości. Te niezwykle małe wartości przesuwają wartość średnią w lewo, czyniąc ją mniejszą od mediany. Dane pokazane na skali B rozkładają się symetrycznie. Lewa i prawa połowa rozkładu są swoimi lustrzanymi odbiciami. Duże i małe wartości równoważą się, a średnia i mediana są równe. Dane pokazane na skali B są wypaczone dodatnio. Rysunek ten przedstawia długi ogon i przechylenie w prawo spowodowane obecnością niezwykle wysokich wartości. Te zbyt duże wartości przesuwają średnią w prawo, czyniąc ją większą od mediany.

W programie Excel statystyki opisowe można uzyskać za pomocą dodatku Pakiet analityczny. Przejdź przez menu DaneAnaliza danych, w oknie, które zostanie otwarte, wybierz linię Opisowe statystyki i kliknij OK. W oknie Opisowe statystyki koniecznie wskaż Interwał wejściowy(ryc. 11). Jeśli chcesz zobaczyć statystyki opisowe w tym samym arkuszu, co dane oryginalne, zaznacz przycisk radiowy Interwał wyjściowy i określ komórkę, w której ma się znajdować lewy górny róg wyświetlanych statystyk (w naszym przykładzie $C$1). Jeśli chcesz wyprowadzić dane do nowego arkusza lub nowego skoroszytu, wystarczy zaznaczyć odpowiedni przycisk opcji. Zaznacz pole obok Statystyki podsumowujące. W razie potrzeby możesz również wybrać Poziom trudności,k-ty najmniejszy ik-ty największy.

Jeśli w depozycie Dane w pobliżu Analiza nie widzisz ikony Analiza danych, musisz najpierw zainstalować dodatek Pakiet analityczny(patrz na przykład).

Ryż. 11. Statystyka opisowa pięcioletnich średniorocznych zwrotów funduszy o bardzo wysokim poziomie ryzyka, obliczona przy użyciu dodatku Analiza danych Programy Excela

Excel oblicza szereg statystyk omówionych powyżej: średnią, medianę, modę, odchylenie standardowe, wariancję, zakres ( interwał), minimalną, maksymalną i wielkość próbki ( sprawdzać). Excel oblicza także pewne dla nas nowe statystyki: błąd standardowy, kurtozę i skośność. Standardowy błąd równe odchyleniu standardowemu podzielonemu przez pierwiastek kwadratowy z wielkości próby. Asymetria charakteryzuje odchylenie od symetrii rozkładu i jest funkcją zależną od sześcianu różnic pomiędzy elementami próbki a wartością średnią. Kurtoza jest miarą względnej koncentracji danych wokół średniej w porównaniu z ogonami rozkładu i zależy od różnic pomiędzy elementami próbki a średnią podniesioną do czwartej potęgi.

Oblicz statystyki opisowe dla populacja

Średnia, rozrzut i kształt rozkładu omówione powyżej są cechami określonymi na podstawie próbki. Jeśli jednak zbiór danych zawiera pomiary numeryczne całej populacji, można obliczyć jej parametry. Do takich parametrów zalicza się wartość oczekiwaną, rozproszenie i odchylenie standardowe populacji.

Wartość oczekiwana równa sumie wszystkich wartości w populacji podzielonej przez wielkość populacji:

Gdzie µ - wartość oczekiwana, XI- I obserwacja zmiennej X, N- wielkość populacji ogólnej. W Excelu do obliczeń oczekiwanie matematyczne Używana jest ta sama funkcja, co w przypadku średniej arytmetycznej: =ŚREDNIA().

Wariancja populacji równa sumie kwadratów różnic między elementami populacji ogólnej a matą. oczekiwanie podzielone przez wielkość populacji:

Gdzie σ 2– rozproszenie populacji ogólnej. W programie Excel przed wersją 2007 funkcja =VARP() służy do obliczania wariancji populacji, począwszy od wersji 2010 =VARP().

Odchylenie standardowe populacji równy pierwiastkowi kwadratowemu wariancji populacji:

W programie Excel przed wersją 2007 funkcja =STDEV() służy do obliczania odchylenia standardowego populacji, począwszy od wersji 2010 =STDEV.Y(). Należy zauważyć, że wzory na wariancję populacji i odchylenie standardowe różnią się od wzorów na obliczanie wariancji i odchylenia standardowego próby. Przy obliczaniu przykładowych statystyk S2 I S mianownik ułamka to n – 1 i przy obliczaniu parametrów σ 2 I σ - wielkość populacji ogólnej N.

Praktyczna zasada

W większości sytuacji duża część obserwacji koncentruje się wokół mediany, tworząc klaster. W zbiorach danych o dodatniej skośności skupienie to znajduje się po lewej stronie (tj. poniżej) oczekiwań matematycznych, a w zbiorach o ujemnej skośności skupienie to znajduje się po prawej stronie (tj. powyżej) oczekiwań matematycznych. W przypadku danych symetrycznych średnia i mediana są takie same, a obserwacje skupiają się wokół średniej, tworząc rozkład w kształcie dzwonu. Jeśli rozkład nie jest wyraźnie przekrzywiony, a dane są skupione wokół środka ciężkości, praktyczną zasadą, którą można zastosować do oszacowania zmienności jest to, że jeśli dane mają rozkład w kształcie dzwonu, wówczas około 68% obserwacji mieści się w jedno odchylenie standardowe wartości oczekiwanej, około 95% obserwacji jest oddalonych od oczekiwań matematycznych o więcej niż dwa odchylenia standardowe, a 99,7% obserwacji nie różni się więcej niż o trzy odchylenia standardowe od oczekiwań matematycznych.

Zatem odchylenie standardowe, które jest oszacowaniem średniego odchylenia wokół wartości oczekiwanej, pomaga zrozumieć rozkład obserwacji i zidentyfikować wartości odstające. Ogólna zasada jest taka, że ​​w przypadku rozkładów dzwonowych tylko jedna wartość na dwadzieścia różni się od oczekiwań matematycznych o więcej niż dwa odchylenia standardowe. Dlatego wartości spoza przedziału µ ± 2σ, można uznać za wartości odstające. Ponadto tylko trzy z 1000 obserwacji różnią się od oczekiwań matematycznych o więcej niż trzy odchylenia standardowe. Zatem wartości poza przedziałem µ ± 3σ są prawie zawsze wartościami odstającymi. W przypadku rozkładów, które są silnie skośne lub nie mają kształtu dzwonu, można zastosować praktyczną regułę Bienamaya-Czebyszewa.

Ponad sto lat temu matematycy Bienamay i Czebyszew niezależnie odkryli użyteczną właściwość odchylenia standardowego. Ustalili, że dla dowolnego zbioru danych, niezależnie od kształtu rozkładu, procent obserwacji znajdujących się w odległości od k odchylenia standardowe od oczekiwań matematycznych, nie mniejsze (1 – 1/ k2)*100%.

Na przykład, jeśli k= 2, reguła Bienname-Czebyszewa stwierdza, że ​​co najmniej (1 – (1/2) 2) x 100% = 75% obserwacji musi mieścić się w przedziale µ ± 2σ. Ta zasada dotyczy każdego k, przekraczający jeden. Reguła Bienamaya-Czebyszewa jest bardzo ogólna i obowiązuje dla rozkładów dowolnego typu. Określa minimalną liczbę obserwacji, z której odległość do oczekiwań matematycznych nie przekracza określonej wartości. Jeśli jednak rozkład ma kształt dzwonu, praktyczna zasada dokładniej szacuje koncentrację danych wokół wartości oczekiwanej.

Obliczanie statystyk opisowych dla rozkładu opartego na częstotliwości

Jeżeli oryginalne dane nie są dostępne, jedynym źródłem informacji staje się rozkład częstotliwości. W takich sytuacjach możliwe jest obliczenie przybliżonych wartości ilościowych wskaźników rozkładu, takich jak średnia arytmetyczna, odchylenie standardowe i kwartyle.

Jeśli przykładowe dane są reprezentowane jako rozkład częstotliwości, przybliżenie średniej arytmetycznej można obliczyć, zakładając, że wszystkie wartości w każdej klasie są skoncentrowane w punkcie środkowym klasy:

Gdzie - średnia próbki, N- liczba obserwacji lub wielkość próby, Z- liczba klas w rozkładzie częstotliwości, m j- punkt środkowy J klasa, FJ- odpowiednia częstotliwość J- klasa.

Aby obliczyć odchylenie standardowe z rozkładu częstotliwości, zakłada się również, że wszystkie wartości w obrębie każdej klasy skupiają się w punkcie środkowym klasy.

Aby zrozumieć, w jaki sposób kwartyle szeregu wyznaczane są na podstawie częstości, należy rozważyć obliczenie dolnego kwartyla na podstawie danych za 2013 rok dotyczących rozkładu ludności Rosji według średniego dochodu pieniężnego na mieszkańca (ryc. 12).

Ryż. 12. Udział ludności rosyjskiej w średnim miesięcznym dochodzie pieniężnym na mieszkańca, ruble

Aby obliczyć pierwszy kwartyl szeregu zmian przedziałowych, można skorzystać ze wzoru:

gdzie Q1 jest wartością pierwszego kwartyla, xQ1 jest dolną granicą przedziału zawierającego pierwszy kwartyl (przedział wyznacza się na podstawie skumulowanej częstotliwości, która jako pierwsza przekroczy 25%); i – wartość przedziału; Σf – suma częstotliwości całej próbki; prawdopodobnie zawsze równa 100%; SQ1–1 – skumulowana częstotliwość przedziału poprzedzającego przedział zawierający dolny kwartyl; fQ1 – częstotliwość przedziału zawierającego dolny kwartyl. Wzór na trzeci kwartyl różni się tym, że we wszystkich miejscach należy użyć Q3 zamiast Q1 i zastąpić ¾ zamiast ¼.

W naszym przykładzie (ryc. 12) dolny kwartyl mieści się w przedziale 7000,1 – 10 000, którego skumulowana częstotliwość wynosi 26,4%. Dolna granica tego przedziału wynosi 7000 rubli, wartość przedziału wynosi 3000 rubli, skumulowana częstotliwość przedziału poprzedzającego przedział zawierający dolny kwartyl wynosi 13,4%, częstotliwość przedziału zawierającego dolny kwartyl wynosi 13,0%. Zatem: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 rub.

Pułapki związane ze statystyką opisową

W tym poście przyjrzeliśmy się, jak opisać zbiór danych za pomocą różnych statystyk, które oceniają jego średnią, rozrzut i rozkład. Następnym krokiem jest analiza i interpretacja danych. Do tej pory badaliśmy obiektywne właściwości danych, teraz przechodzimy do ich subiektywnej interpretacji. Badacz napotyka dwa błędy: źle wybrany przedmiot analizy i błędną interpretację wyników.

Analiza zysków 15 funduszy inwestycyjnych bardzo wysokiego ryzyka jest dość bezstronna. Doprowadził do całkowicie obiektywnych wniosków: wszystkie fundusze inwestycyjne mają różną stopę zwrotu, spread zwrotów funduszy waha się od -6,1 do 18,5, a średnia stopa zwrotu wynosi 6,08. Obiektywizm analizy danych zapewnia właściwy dobór sumarycznych wskaźników ilościowych rozkładu. Rozważono kilka metod szacowania średniej i rozrzutu danych oraz wskazano ich zalety i wady. Jak wybrać odpowiednie statystyki, aby zapewnić obiektywną i bezstronną analizę? Jeśli rozkład danych jest lekko przekrzywiony, czy należy wybrać medianę, a nie średnią? Który wskaźnik dokładniej charakteryzuje rozrzut danych: odchylenie standardowe czy zakres? Czy powinniśmy podkreślić, że rozkład jest dodatnio wypaczony?

Z drugiej strony interpretacja danych jest procesem subiektywnym. Różni ludzie do różnych wniosków, interpretując te same wyniki. Każdy ma swój własny punkt widzenia. Ktoś uważa łączną średnioroczną stopę zwrotu 15 funduszy o bardzo wysokim poziomie ryzyka za dobrą i jest całkiem zadowolony z uzyskiwanych dochodów. Inni mogą uważać, że fundusze te przynoszą zbyt niskie zyski. Subiektywność powinna więc być rekompensowana uczciwością, neutralnością i jasnością wniosków.

Zagadnienia etyczne

Analiza danych jest nierozerwalnie związana z kwestiami etycznymi. Należy krytycznie odnosić się do informacji rozpowszechnianych w prasie, radiu, telewizji i Internecie. Z biegiem czasu nauczysz się być sceptyczny nie tylko wobec wyników, ale także celów, tematyki i obiektywności badań. Najlepiej ujął to słynny brytyjski polityk Benjamin Disraeli: „Są trzy rodzaje kłamstw: kłamstwa, przeklęte kłamstwa i statystyki”.

Jak zauważono w nocie, przy wyborze wyników, które powinny zostać zaprezentowane w raporcie, pojawiają się kwestie etyczne. Powinieneś publikować zarówno pozytywne, jak i wyniki negatywne. Ponadto sporządzając raport lub raport pisemny, wyniki muszą być przedstawione rzetelnie, neutralnie i obiektywnie. Należy rozróżnić prezentacje nieudane i nieuczciwe. Aby to zrobić, konieczne jest ustalenie, jakie były intencje mówiącego. Czasami mówiący pomija ważne informacje z niewiedzy, a czasem jest to celowe (np. jeśli posługuje się średnią arytmetyczną do oszacowania średniej wyraźnie wypaczonych danych, aby uzyskać pożądany wynik). Nieuczciwe jest także ukrywanie wyników, które nie odpowiadają punktowi widzenia badacza.

Wykorzystano materiały z książki Levin i wsp. Statystyka dla menedżerów. – M.: Williams, 2004. – s. 25 178–209

Funkcja KWARTYL została zachowana w celu zapewnienia zgodności z wcześniejszymi wersjami programu Excel.