Kako se izračuna povprečje? Izračun povprečij


Povprečna vrednost je splošni kazalnik, ki označuje tipično raven pojava. Izraža vrednost značilnosti na enoto populacije.

Povprečna vrednost je:

1) najbolj tipična vrednost atributa za populacijo;

2) obseg atributa populacije, enakomerno porazdeljen med enote populacije.

Značilnost, za katero se izračuna povprečna vrednost, se v statistiki imenuje "povprečje".

Povprečje vedno posplošuje kvantitativno variacijo lastnosti, tj. v povprečnih vrednostih so izločene individualne razlike med enotami v populaciji zaradi naključnih okoliščin. V nasprotju s povprečjem absolutna vrednost, ki označuje raven značilnosti posamezne enote populacije, ne omogoča primerjave vrednosti značilnosti med enotami, ki pripadajo različnim populacijam. Torej, če morate primerjati ravni plačil delavcev v dveh podjetjih, potem ne morete primerjati ta lastnost dva delavca iz različnih podjetij. Plačila delavcev, izbranih za primerjavo, morda niso značilna za ta podjetja. Če primerjamo obseg plačnih skladov v obravnavanih podjetjih, število zaposlenih ni upoštevano, zato ni mogoče ugotoviti, kje je višina plač višja. Navsezadnje je mogoče primerjati le povprečne kazalnike, tj. Koliko v povprečju zasluži en zaposleni v posameznem podjetju? Zato je treba izračunati povprečna velikost kot posplošujoča značilnost populacije.

Pomembno je opozoriti, da mora med postopkom povprečenja skupna vrednost atributnih ravni oziroma njena končna vrednost (v primeru izračuna povprečnih ravni v dinamični seriji) ostati nespremenjena. Z drugimi besedami, pri izračunu povprečne vrednosti obseg proučevane značilnosti ne sme biti izkrivljen, izrazi, sestavljeni pri izračunu povprečja, pa morajo nujno imeti smisel.

Izračun povprečja je ena od pogostih tehnik posploševanja; kazalnik povprečje zanika skupno (tipično) vsem enotam proučevane populacije, hkrati pa zanemarja razlike posameznih enot. V vsakem pojavu in njegovem razvoju je kombinacija naključja in nujnosti. Pri izračunu povprečij na podlagi zakona velike številke nesreče so preklicane, uravnotežene, tako da je mogoče abstrahirati od nepomembnih značilnosti pojava, od kvantitativnih vrednosti atributa v vsakem posameznem primeru. Zmožnost abstrahiranja od naključnosti posameznih vrednosti in nihanj je znanstvena vrednost povprečij kot splošnih značilnosti agregatov.

Da bi bilo povprečje resnično reprezentativno, mora biti izračunano ob upoštevanju določenih načel.

Poglejmo nekaj splošna načela uporaba povprečnih vrednosti.

1. Povprečje je treba določiti za populacije, sestavljene iz kvalitativno homogenih enot.

2. Povprečje je treba izračunati za populacijo, ki jo sestavlja dovolj veliko število enote.

3. Povprečje je treba izračunati za populacijo, katere enote so v normalnem, naravnem stanju.

4. Povprečje je treba izračunati ob upoštevanju ekonomske vsebine proučevanega kazalnika.

5.2. Vrste povprečij in metode za njihov izračun

Oglejmo si zdaj vrste povprečnih vrednosti, značilnosti njihovega izračuna in področja uporabe. Povprečne vrednosti so razdeljene v dva velika razreda: povprečja moči, strukturna povprečja.

Potenčne sredine vključujejo najbolj znane in pogosto uporabljene vrste, kot so geometrična sredina, aritmetična sredina in kvadratna sredina.

Način in mediana se obravnavata kot strukturna povprečja.

Osredotočimo se na povprečja moči. Povprečja moči so glede na predstavitev izvornih podatkov lahko enostavna ali utežena. Preprosto povprečje Izračuna se na podlagi nezdruženih podatkov in ima naslednjo splošno obliko:

,

kjer je X i različica (vrednost) povprečne značilnosti;

n – možnost števila.

Povprečna teža se izračuna na podlagi združenih podatkov in ima splošen videz

,

kjer je X i varianta (vrednost) povprečne značilnosti ali srednja vrednost intervala, v katerem se meri varianta;

m – povprečni indeks stopnje;

f i – frekvenca, ki kaže, kolikokrat se pojavi i-e vrednost značilnost povprečenja.

Če izračunate vse vrste povprečij za iste začetne podatke, se bodo njihove vrednosti izkazale za drugačne. Tukaj velja pravilo večine povprečij: z naraščanjem eksponenta m narašča tudi ustrezna povprečna vrednost:

V statistični praksi se aritmetične in harmonične utežene sredine uporabljajo pogosteje kot druge vrste uteženih povprečij.

Vrste močnostnih sredstev

Vrsta moči
povprečje

Kazalo
stopnja (m)

Formula za izračun

Enostavno

Tehtano

Harmonično

Geometrijski

Aritmetika

Kvadratični

Kubični

Harmonična sredina ima bolj zapleteno strukturo kot aritmetična sredina. Harmonična sredina se uporablja za izračune, kadar se kot uteži ne uporabljajo enote populacije - nosilci značilnosti, temveč zmnožek teh enot z vrednostmi značilnosti (tj. m = Xf). K povprečnemu harmoničnemu preprostemu se je treba zateči v primerih določanja, na primer, povprečnih stroškov dela, časa, materialov na enoto proizvodnje, na en del za dve (tri, štiri itd.) Podjetji, delavci, ki se ukvarjajo s proizvodnjo iste vrste izdelka, istega dela, izdelka.

Glavna zahteva za formulo za izračun povprečne vrednosti je, da imajo vse stopnje izračuna resnično smiselno utemeljitev; nastala povprečna vrednost bi morala nadomestiti posamezne vrednosti atributa za vsak predmet, ne da bi prekinila povezavo med posameznimi in zbirnimi indikatorji. Z drugimi besedami, povprečna vrednost mora biti izračunana tako, da ko vsako posamezno vrednost povprečenega kazalnika nadomestimo z njegovo povprečno vrednostjo, ostane nek končni zbirni kazalnik, tako ali drugače povezan s povprečenim kazalnikom, nespremenjen. Ta vsota se imenuje definiranje saj narava njegovega razmerja s posameznimi vrednostmi določa specifično formulo za izračun povprečne vrednosti. Dokažimo to pravilo na primeru geometrijske sredine.

Formula geometrijske sredine

se najpogosteje uporablja pri izračunu povprečne vrednosti na podlagi posamezne relativne dinamike.

Geometrična sredina se uporablja, če je podano zaporedje verižne relativne dinamike, ki nakazuje na primer povečanje obsega proizvodnje glede na raven prejšnjega leta: i 1, i 2, i 3,…, i n. Očitno je obseg proizvodnje v zadnjem letu določen z njegovo začetno ravnjo (q 0) in kasnejšim povečanjem v letih:

q n =q 0 × i 1 × i 2 ×…×i n .

Če vzamemo q n kot odločilni indikator in nadomestimo posamezne vrednosti kazalnikov dinamike s povprečnimi, pridemo do razmerja

Od tod



Za preučevanje se uporablja posebna vrsta povprečij - strukturna povprečja notranja struktura serije porazdelitve vrednosti atributa, kot tudi za oceno povprečne vrednosti (vrste moči), če njenega izračuna ni mogoče izvesti glede na razpoložljive statistične podatke (na primer, če v obravnavanem primeru ni bilo podatkov tako o obsegu kot proizvodnje in višine stroškov za skupine podjetij) .

Indikatorji se največkrat uporabljajo kot strukturna povprečja moda - največkrat ponovljena vrednost atributa – in mediane – vrednost značilnosti, ki deli urejeno zaporedje svojih vrednosti na dva enaka dela. Posledično pri polovici enot v populaciji vrednost atributa ne presega mediane, pri drugi polovici pa ni manjša od nje.

Če ima značilnost, ki se preučuje, diskretne vrednosti, potem posebne težave Pri izračunu ni modusa ali mediane. Če so podatki o vrednostih atributa X predstavljeni v obliki urejenih intervalov njegove spremembe (intervalne serije), postane izračun načina in mediane nekoliko bolj zapleten. Ker vrednost mediane razdeli celotno populacijo na dva enaka dela, se le-ta znajde v enem od intervalov karakteristike X. Z interpolacijo najdemo vrednost mediane v tem intervalu mediane:

,

kjer je X Me spodnja meja medianega intervala;

h Me – njegova vrednost;

(Vsota m)/2 – polovica skupnega števila opazovanj ali polovica obsega kazalnika, ki se uporablja kot utež v formulah za izračun povprečne vrednosti (v absolutnem ali relativnem smislu);

S Me-1 – vsota opazovanj (ali prostornina utežnega atributa), zbranih pred začetkom medianega intervala;

m Me – število opazovanj ali obseg utežne karakteristike v medianem intervalu (tudi v absolutnem ali relativnem smislu).

Pri izračunu modalne vrednosti značilnosti na podlagi podatkov intervalne serije je treba paziti na dejstvo, da so intervali enaki, saj je od tega odvisen indikator ponovljivosti vrednosti značilnosti X. Za intervalna serija z enakimi intervali, se velikost modusa določi kot

,

kjer je X Mo spodnja vrednost modalnega intervala;

m Mo – število opazovanj ali obseg utežne karakteristike v modalnem intervalu (v absolutnem ali relativnem smislu);

m Mo-1 – enako za interval pred modalnim;

m Mo+1 – enako za interval, ki sledi modalnemu;

h – vrednost intervala spremembe značilnosti v skupinah.

NALOGA 1

Za skupino industrijskih podjetij so za leto poročanja na voljo naslednji podatki


podjetja

Količina izdelka, milijon rubljev.

Povprečno število zaposlenih, oseb.

Dobiček, tisoč rubljev

197,7

10,0

13,5

22,8

1500

136,2

465,5

18,4

1412

97,6

296,2

12,6

1200

44,4

584,1

22,0

1485

146,0

480,0

119,0

1420

110,4

57805

21,6

1390

138,7

204,7

30,6

466,8

19,4

1375

111,8

292,2

113,6

1200

49,6

423,1

17,6

1365

105,8

192,6

30,7

360,5

14,0

1290

64,8

280,3

10,2

33,3

Podjetja je treba združiti v skupine za izmenjavo izdelkov v naslednjih intervalih:

    do 200 milijonov rubljev

    od 200 do 400 milijonov rubljev.

  1. od 400 do 600 milijonov rubljev.

    Za vsako skupino in za vse skupaj določite število podjetij, obseg proizvodnje, povprečno število zaposlenih, povprečno proizvodnjo na zaposlenega. Rezultate združevanja predstavite v obliki statistične tabele. Oblikujte sklep.

    REŠITEV

    Podjetja bomo združili po produktni menjavi, izračunali število podjetij, obseg proizvodnje in povprečno število zaposlenih po enostavni povprečni formuli. Rezultati združevanja in izračunov so povzeti v tabeli.

    Skupine po obsegu izdelkov


    podjetja

    Količina izdelka, milijon rubljev.

    Povprečni letni stroški osnovnih sredstev, milijonov rubljev.

    Srednji spanec

    sočno število zaposlenih ljudi.

    Dobiček, tisoč rubljev

    Povprečna proizvodnja na zaposlenega

    1 skupina

    do 200 milijonov rubljev

    1,8,12

    197,7

    204,7

    192,6

    10,0

    9,4

    8,8

    900

    817

    13,5

    30,6

    30,7

    28,2

    2567

    74,8

    0,23

    Povprečna raven

    198,3

    24,9

    2. skupina

    od 200 do 400 milijonov rubljev.

    4,10,13,14

    196,2

    292,2

    360,5

    280,3

    12,6

    113,6

    14,0

    10,2

    1200

    1200

    1290

    44,4

    49,6

    64,8

    33,3

    1129,2

    150,4

    4590

    192,1

    0,25

    Povprečna raven

    282,3

    37,6

    1530

    64,0

    3 skupina

    od 400 do

    600 milijonov

    2,3,5,6,7,9,11

    592

    465,5

    584,1

    480,0

    578,5

    466,8

    423,1

    22,8

    18,4

    22,0

    119,0

    21,6

    19,4

    17,6

    1500

    1412

    1485

    1420

    1390

    1375

    1365

    136,2

    97,6

    146,0

    110,4

    138,7

    111,8

    105,8

    3590

    240,8

    9974

    846,5

    0,36

    Povprečna raven

    512,9

    34,4

    1421

    120,9

    Skupaj skupaj

    5314,2

    419,4

    17131

    1113,4

    0,31

    V povprečju

    379,6

    59,9

    1223,6

    79,5

    Zaključek. Tako je v obravnavani populaciji največ podjetij po obsegu proizvodnje sodilo v tretjo skupino - sedem oziroma polovica podjetij. V tej skupini so tudi povprečni letni stroški osnovnih sredstev in veliko povprečno število zaposlenih - 9974 ljudi, najmanj donosna pa so podjetja prve skupine.

    NALOGA 2

    O podjetjih družbe so na voljo naslednji podatki

    Številka podjetja, vključenega v podjetje

    I četrtina

    II četrtina

    Proizvodnja izdelka, tisoč rubljev.

    Človeški dnevi, ki so jih delavci opravili

    Povprečna proizvodnja na delavca na dan, rub.

    59390,13

Povprečna vrednost- to je splošni kazalnik, ki označuje kvalitativno homogeno populacijo glede na določeno kvantitativno značilnost. na primer povprečna starost osebe, obsojene zaradi tatvine.

V sodni statistiki se povprečne vrednosti uporabljajo za označevanje:

Povprečni čas za obravnavo primerov te kategorije;

Povprečna velikost zahtevka;

Povprečno število tožencev na zadevo;

Povprečna škoda;

Povprečna obremenitev sodnikov itd.

Povprečje je vedno poimenovana vrednost in ima enako dimenzijo kot značilnost posamezne enote populacije. Vsaka povprečna vrednost označuje populacijo, ki jo proučujemo, glede na katero koli spremenljivo značilnost, zato se za vsako povprečno vrednostjo skriva niz porazdelitev enot te populacije glede na značilnost, ki se preučuje. Izbira vrste povprečja je določena z vsebino kazalnika in začetnimi podatki za izračun povprečne vrednosti.

Vse vrste povprečij, ki se uporabljajo v statističnih raziskavah, so razdeljene v dve kategoriji:

1) povprečja moči;

2) strukturna povprečja.

Prva kategorija povprečij vključuje: aritmetična sredina, harmonična sredina, geometrična sredina in efektivna vrednost . Druga kategorija je moda in mediana. Poleg tega ima lahko vsaka od naštetih vrst povprečij moči dve obliki: preprosto in tehtano . Enostavna oblika povprečja se uporablja za pridobitev povprečne vrednosti značilnosti, ki se preučuje, kadar se izračun izvaja na nezdruženih statističnih podatkih ali ko se vsaka možnost v agregatu pojavi samo enkrat. Utežena povprečja so vrednosti, ki upoštevajo, da imajo lahko različice vrednosti atributov različna števila, zato je treba vsako različico pomnožiti z ustrezno frekvenco. Z drugimi besedami, vsaka možnost je "utežena" s svojo pogostostjo. Pogostost se imenuje statistična utež.

Preprosta aritmetična sredina- najpogostejša vrsta povprečja. Je enak vsoti posameznih vrednosti značilnosti, deljenih s skupno število te vrednosti:

Kje x 1 ,x 2 , … ,x N so posamezne vrednosti spremenljive značilnosti (variant), N pa je število enot v populaciji.

Uteženo aritmetično povprečje uporablja se v primerih, ko so podatki predstavljeni v obliki distribucijskih serij ali skupin. Izračuna se kot vsota zmnožkov opcij in njihovih ustreznih frekvenc, deljena z vsoto frekvenc vseh opcij:

Kje x i- pomen jaz th različice značilnosti; f i- pogostost jaz th možnosti.

Tako je vsaka vrednost variant ponderirana s svojo frekvenco, zato se pogostosti včasih imenujejo statistične uteži.


Komentiraj. Ko govorimo o aritmetični sredini, ne da bi navedli njeno vrsto, mislimo na preprosto aritmetično sredino.

Tabela 12.

rešitev. Za izračun uporabimo formulo za tehtano aritmetično povprečje:

Tako sta v povprečju dva obtoženca na eno kazensko zadevo.

Če se izračun povprečne vrednosti izvede z uporabo podatkov, združenih v obliki serije intervalne porazdelitve, morate najprej določiti srednje vrednosti vsakega intervala x"i in nato izračunati povprečno vrednost z uporabo aritmetičnega tehtanega povprečja formulo, v katero je zamenjan x"i namesto xi.

Primer. Podatki o starosti obsojenih storilcev tatvin so predstavljeni v tabeli:

Tabela 13.

Določite povprečno starost kriminalcev, obsojenih za tatvino.

rešitev. Da bi določili povprečno starost kriminalcev na podlagi serije intervalnih variacij, je treba najprej najti srednje vrednosti intervalov. Ker je podana serija intervalov s prvim in zadnjim odprtim intervalom, so vrednosti teh intervalov enake vrednostim sosednjih zaprtih intervalov. V našem primeru sta vrednosti prvega in zadnjega intervala enaki 10.

Zdaj najdemo povprečno starost kriminalcev s formulo tehtanega aritmetičnega povprečja:

Tako je povprečna starost obsojenih za tatvino približno 27 let.

Srednje harmonično preprosto predstavlja recipročno vrednost aritmetične sredine inverznih vrednosti značilnosti:

kjer je 1/ x i so inverzne vrednosti možnosti, N pa je število enot v populaciji.

Primer. Za določitev povprečne letne obremenitve sodnikov okrožnega sodišča pri obravnavanju kazenskih zadev je bila opravljena raziskava obremenitve 5 sodnikov tega sodišča. Izkazalo se je, da je povprečni čas, porabljen za eno kazensko zadevo za vsakega od anketiranih sodnikov, enak (v dnevih): 6, 0, 5, 6, 6, 3, 4, 9, 5, 4. Poiščite povprečne stroške enega kazensko zadevo in povprečno letno obremenitev sodnikov posameznega okrožnega sodišča pri obravnavanju kazenskih zadev.

rešitev. Za določitev povprečnega časa, porabljenega za eno kazensko zadevo, uporabimo harmonično povprečno formulo:

Za poenostavitev izračunov v primeru vzamemo število dni v letu 365, vključno z vikendi (to ne vpliva na metodologijo izračuna in pri izračunu podobnega kazalnika v praksi je treba nadomestiti število delovnih dni v posameznem letu namesto 365 dni). Potem bo povprečna letna obremenitev sodnikov določenega okrožnega sodišča pri obravnavanju kazenskih zadev: 365 (dni) : 5,56 ≈ 65,6 (zadeve).

Če bi uporabili preprosto aritmetično povprečno formulo za določitev povprečnega časa, porabljenega za eno kazensko zadevo, bi dobili:

365 (dnevi): 5,64 ≈ 64,7 (primeri), tj. povprečna obremenitev sodnikov se je izkazala za manjšo.

Preverimo veljavnost tega pristopa. Za to bomo uporabili podatke o času, porabljenem za eno kazensko zadevo za vsakega sodnika, in izračunali število kazenskih zadev, ki jih obravnava vsak od njih na leto.

Temu primerno dobimo:

365(dni) : 6 ≈ 61 (primeri), 365(dni) : 5,6 ≈ 65,2 (primeri), 365(dni) : 6,3 ≈ 58 (primeri),

365(dni) : 4,9 ≈ 74,5 (primeri), 365(dni) : 5,4 ≈ 68 (primeri).

Zdaj pa izračunajmo povprečno letno obremenitev sodnikov določenega okrožnega sodišča pri obravnavanju kazenskih zadev:

Tisti. povprečna letna obremenitev je enaka kot pri uporabi harmoničnega povprečja.

Tako z uporabo aritmetične sredine v v tem primeru nezakonito.

V primerih, ko so različice značilnosti in njihove volumetrične vrednosti (zmnožek različic in frekvence) znane, same frekvence pa niso znane, se uporabi utežena harmonična povprečna formula:

,

Kje x i so vrednosti možnosti atributa in w i so volumetrične vrednosti možnosti ( w i = x i f i).

Primer. Podatki o ceni enote istovrstnega izdelka, ki ga proizvajajo različne institucije kazenskega sistema, in o obsegu njegove prodaje so podani v tabeli 14.

Tabela 14

Poiščite povprečno prodajno ceno izdelka.

rešitev. Pri izračunu povprečne cene moramo uporabiti razmerje med količino prodaje in številom prodanih enot. Ne poznamo števila prodanih enot, poznamo pa količino prodaje blaga. Zato bomo za iskanje povprečne cene prodanega blaga uporabili formulo tehtanega harmoničnega povprečja. Dobimo

Če tukaj uporabite formulo za aritmetično povprečje, lahko dobite povprečno ceno, ki bo nerealna:

Geometrijska sredina se izračuna tako, da se iz produkta vseh vrednosti različic atributa izvleče koren stopnje N:

,

Kje x 1 ,x 2 , … ,x N- posamezne vrednosti spremenljive lastnosti (različice) in

N- število enot v populaciji.

Ta vrsta povprečja se uporablja za izračun povprečnih stopenj rasti časovnih vrst.

Srednji kvadrat se uporablja za izračun standardnega odklona, ​​ki je indikator variacije in bo obravnavan v nadaljevanju.

Za določitev strukture prebivalstva se uporabljajo posebni povprečni kazalniki, ki vključujejo mediana in moda , ali tako imenovana strukturna povprečja. Če je aritmetična sredina izračunana na podlagi uporabe vseh variant vrednosti atributa, potem mediana in moda označujeta vrednost variante, ki zavzema določeno povprečno mesto v rangirani (urejeni) seriji. Enote statistične populacije so lahko razvrščene v naraščajočem ali padajočem vrstnem redu glede na različice značilnosti, ki se preučuje.

Mediana (jaz)- to je vrednost, ki ustreza možnosti, ki se nahaja na sredini razvrščene serije. Tako je mediana tista različica rangirane serije, na obeh straneh katere mora biti v tej seriji enako število populacijskih enot.

Če želite najti mediano, morate najprej določiti njeno zaporedno številko v rangirani seriji z uporabo formule:

kjer je N obseg serije (število enot v populaciji).

Če je serija sestavljena iz lihega števila členov, potem je mediana enaka opciji s številko N Me. Če je serija sestavljena iz sodega števila izrazov, potem je mediana definirana kot aritmetična sredina dveh sosednjih možnosti, ki se nahajata na sredini.

Primer. Podana je razvrščena serija 1, 2, 3, 3, 6, 7, 9, 9, 10. Prostornina serije je N = 9, kar pomeni N Me = (9 + 1) / 2 = 5. Zato je Me = 6, tj. peta možnost. Če je vrstica podana s številkami 1, 5, 7, 9, 11, 14, 15, 16, tj. serije s sodim številom členov (N = 8), potem je N Me = (8 + 1) / 2 = 4,5. To pomeni, da je mediana enaka polovici vsote četrte in pete možnosti, tj. Jaz = (9 + 11) / 2 = 10.

V seriji diskretnih variacij je mediana določena z akumuliranimi frekvencami. Pogostosti možnosti, začenši s prvo, se seštevajo, dokler ni presežena mediana. Vrednost zadnjih seštetih opcij bo mediana.

Primer. Poiščite mediano število obtoženih na kazensko zadevo s pomočjo podatkov v tabeli 12.

rešitev. V tem primeru je prostornina variacijske serije N = 154, zato je N Me = (154 + 1) / 2 = 77,5. Če seštejemo frekvence prve in druge možnosti, dobimo: 75 + 43 = 118, tj. smo presegli mediano število. Torej jaz = 2.

V seriji intervalnih variacij porazdelitev najprej označuje interval, v katerem bo mediana. Imenuje se mediana . To je prvi interval, katerega akumulirana frekvenca presega polovico volumna intervalne variacijske serije. Potem je numerična vrednost mediane določena s formulo:

Kje x Jaz- spodnja meja medianega intervala; i je vrednost medianega intervala; S Me-1- akumulirana frekvenca intervala, ki je pred mediano; f jaz- frekvenca medianega intervala.

Primer. Poiščite povprečno starost storilcev kaznivih dejanj, obsojenih za tatvino, na podlagi statističnih podatkov, predstavljenih v tabeli 13.

rešitev. Statistični podatki so predstavljeni z intervalno variacijsko serijo, kar pomeni, da najprej določimo mediani interval. Obseg populacije je N = 162, torej je mediani interval interval 18-28, ker to je prvi interval, katerega akumulirana frekvenca (15 + 90 = 105) presega polovico volumna (162: 2 = 81) intervalne variacijske serije. Zdaj določimo številsko vrednost mediane z zgornjo formulo:

Tako je polovica obsojenih za tatvino mlajših od 25 let.

Moda (Mo) Imenujejo vrednost lastnosti, ki jo najpogosteje najdemo v enotah populacije. Moda se uporablja za identifikacijo vrednosti značilnosti, ki je najbolj razširjena. Za diskretno serijo bo način možnost z najvišjo frekvenco. Na primer za diskretne serije, predstavljene v tabeli 3 Mo= 1, saj ta vrednost ustreza najvišji frekvenci - 75. Za določitev načina intervalne serije najprej določite modalno interval (interval z najvišjo frekvenco). Nato se znotraj tega intervala najde vrednost lastnosti, ki je lahko način.

Njegovo vrednost najdemo po formuli:

Kje x Mo- spodnja meja modalnega intervala; i je vrednost modalnega intervala; f Mo- pogostost modalnega intervala; f Mo-1- frekvenca intervala pred modalnim; f Mo+1- frekvenca intervala, ki sledi modalnemu.

Primer. Poiščite starost storilcev kaznivih dejanj, obsojenih za tatvino, podatki o katerih so predstavljeni v tabeli 13.

rešitev. Najvišja frekvenca ustreza intervalu 18-28, zato mora biti način v tem intervalu. Njegova vrednost je določena z zgornjo formulo:

Tako je največ obsojenih kaznivih dejanj tatvin starih 24 let.

Povprečna vrednost zagotavlja splošno značilnost celotnega pojava, ki ga proučujemo. Vendar pa se lahko dve populaciji, ki imata enake povprečne vrednosti, bistveno razlikujeta med seboj v stopnji nihanja (variacije) vrednosti značilnosti, ki se proučuje. Na primer, na enem sodišču so bile izrečene naslednje kazni zapora: 3, 3, 3, 4, 5, 5, 5, 12, 12, 15 let, na drugem pa 5, 5, 6, 6, 7, 7 let. , 7 , 8, 8, 8 let. V obeh primerih je aritmetična sredina 6,7 ​​leta. Vendar se te populacije med seboj bistveno razlikujejo v razmahu posameznih vrednosti dodeljene dobe zapora glede na povprečno vrednost.

In za prvo sodišče, kjer je ta razpon precej velik, povprečna doba zapora ne odraža celotne populacije. Torej, če se posamezne vrednosti značilnosti med seboj malo razlikujejo, bo aritmetična sredina dokaj indikativna značilnost lastnosti dane populacije. V nasprotnem primeru bo aritmetična sredina nezanesljiva značilnost te populacije in njena uporaba v praksi neučinkovita. Zato je treba upoštevati variacijo vrednosti značilnosti, ki se proučuje.

Različica- to so razlike v vrednostih katere koli značilnosti med različnimi enotami dane populacije v istem obdobju ali časovni točki. Izraz variacija je latinskega izvora - variatio, kar pomeni razlika, sprememba, nihanje. Nastane kot posledica dejstva, da se posamezne vrednosti lastnosti oblikujejo pod skupnim vplivom različnih dejavnikov (pogojev), ki se v vsakem različno kombinirajo. poseben primer. Za merjenje variacije lastnosti se uporabljajo različni absolutni in relativni kazalci.

Glavni kazalniki variacije vključujejo naslednje:

1) obseg variacije;

2) povprečno linearno odstopanje;

3) disperzija;

4) standardni odklon;

5) koeficient variacije.

Oglejmo si na kratko vsakega od njih.

Razpon variacije R je najbolj dostopen absolutni indikator v smislu enostavnosti izračuna, ki je opredeljen kot razlika med največjo in najmanjšo vrednostjo značilnosti za enote dane populacije:

Razpon variacije (razpon nihanj) - pomemben indikator spremenljivost znaka, vendar omogoča opazovanje le skrajnih odstopanj, kar omejuje obseg njegove uporabe. Za natančnejšo opredelitev variacije lastnosti na podlagi njene variabilnosti se uporabljajo drugi kazalci.

Povprečno linearno odstopanje predstavlja aritmetično sredino absolutnih vrednosti odstopanj posameznih vrednosti lastnosti od povprečja in je določena s formulami:

1) Za nezdruženih podatkov

2) Za variacijske serije

Vendar je najpogosteje uporabljena mera variacije disperzija . Označuje mero disperzije vrednosti značilnosti, ki se preučuje, glede na njeno povprečno vrednost. Disperzija je definirana kot povprečje odstopanj na kvadrat.

Preprosta varianta za nezdružene podatke:

.

Uteženo z varianco za variacijsko serijo:

Komentiraj. V praksi je za izračun variance bolje uporabiti naslednje formule:

Za enostavno varianto

.

Za tehtano varianco

Standardni odklon je kvadratni koren variance:

Standardni odklon je merilo zanesljivosti povprečja. Manjši kot je standardni odklon, bolj homogena je populacija in bolje aritmetična sredina odraža celotno populacijo.

Zgoraj obravnavane mere razpršenosti (razpon variacije, disperzija, standardna deviacija) so absolutni indikatorji, po katerih ni vedno mogoče oceniti stopnje variabilnosti značilnosti. Pri nekaterih problemih je treba uporabiti relativne indekse sipanja, eden izmed njih je koeficient variacije.

Koeficient variacije- razmerje med standardnim odklonom in aritmetično sredino, izraženo v odstotkih:

Koeficient variacije se uporablja ne le za primerjalno oceno variacije različnih lastnosti ali iste lastnosti v različnih populacijah, temveč tudi za karakterizacijo homogenosti populacije. Statistična populacija se šteje za kvantitativno homogeno, če koeficient variacije ne presega 33 % (za porazdelitve, ki so blizu normalne porazdelitve).

Primer. O prestajanju kazni zapora 50 obsojencev, ki so bili odpeljani na prestajanje kazni, ki jih je izreklo sodišče v prevzgojni zavod kazenskega sistema, so na voljo naslednji podatki: 5, 4, 2, 1, 6, 3, 4, 3, 2, 2 , 5, 6, 4, 3 , 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6 , 4, 4, 3, 1 , 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.

1. Sestavite niz porazdelitev glede na zaporne kazni.

2. Poiščite povprečje, varianco in standardni odklon.

3. Izračunajte koeficient variacije in sklepajte o homogenosti ali heterogenosti proučevane populacije.

rešitev. Za sestavo diskretne porazdelitvene serije je treba določiti možnosti in frekvence. Možnost v tem problemu je trajanje zapora, pogostost pa število posameznih možnosti. Po izračunu frekvenc dobimo naslednjo diskretno porazdelitveno serijo:

Poiščimo srednjo vrednost in varianco. Ker so statistični podatki predstavljeni z diskretnimi variacijskimi serijami, bomo za njihov izračun uporabili formule za uteženo aritmetično sredino in disperzijo. Dobimo:

= = 4,1;

= 5,21.

Zdaj izračunamo standardni odklon:

Iskanje koeficienta variacije:

Posledično je statistična populacija kvantitativno heterogena.

Disciplina: Statistika

Možnost št. 2

Povprečne vrednosti, ki se uporabljajo v statistiki

Uvod…………………………………………………………………………………….3

Teoretična naloga

Povprečna vrednost v statistiki, njeno bistvo in pogoji uporabe.

1.1. Bistvo povprečne velikosti in pogoji uporabe………….4

1.2. Vrste povprečij…………………………………………………………8

Praktična naloga

Naloga 1,2,3……………………………………………………………………………………14

Zaključek…………………………………………………………………………………….21

Seznam referenc…………………………………………………………...23

Uvod

Ta preizkus je sestavljen iz dveh delov – teoretičnega in praktičnega. V teoretičnem delu bo podrobno preučena tako pomembna statistična kategorija, kot je povprečna vrednost, da bi ugotovili njeno bistvo in pogoje uporabe ter osvetlili vrste povprečij in metode za njihov izračun.

Kot vemo, statistika preučuje množične družbeno-ekonomske pojave. Vsak od teh pojavov ima lahko drugačen kvantitativni izraz iste značilnosti. Na primer plače delavcev istega poklica ali tržne cene za isti izdelek itd. Povprečne vrednosti označujejo kvalitativne kazalnike komercialne dejavnosti: stroške distribucije, dobiček, donosnost itd.

Za preučevanje katere koli populacije glede na različne (kvantitativno spreminjajoče se) značilnosti statistika uporablja povprečne vrednosti.

Srednje velik subjekt

Povprečna vrednost je posplošujoča kvantitativna značilnost niza podobnih pojavov na podlagi ene spremenljive značilnosti. V gospodarski praksi se uporablja širok nabor kazalnikov, izračunanih kot povprečne vrednosti.

Najpomembnejša lastnost povprečne vrednosti je, da kljub kvantitativnim razlikam v posameznih enotah populacije z enim številom predstavlja vrednost določene lastnosti v celotni populaciji in izraža tisto, kar je skupno vsem enotam proučevane populacije. . Tako z značilnostmi enote populacije označuje celotno populacijo kot celoto.

Povprečne vrednosti so povezane z zakonom velikih števil. Bistvo te povezave je v tem, da se med povprečenjem naključna odstopanja posameznih vrednosti zaradi delovanja zakona velikih števil med seboj izničijo in se v povprečju razkrije glavni razvojni trend, nujnost in vzorec. Povprečne vrednosti vam omogočajo primerjavo kazalnikov, povezanih s populacijami z različnim številom enot.

V sodobnih razmerah razvoja tržnih odnosov v gospodarstvu povprečja služijo kot orodje za preučevanje objektivnih vzorcev družbenoekonomskih pojavov. Vendar pa v ekonomske analize Ne moremo se omejiti le na povprečne kazalce, saj lahko splošna ugodna povprečja skrivajo velike resne pomanjkljivosti v delovanju posameznih gospodarskih subjektov in kalčke novega, progresivnega. Na primer, porazdelitev prebivalstva po dohodku omogoča prepoznavanje nastajanja novih družbene skupine. Zato je treba poleg povprečnih statističnih podatkov upoštevati tudi značilnosti posameznih enot populacije.

Povprečna vrednost je rezultat vseh dejavnikov, ki vplivajo na preučevani pojav. To pomeni, da se pri izračunu povprečnih vrednosti vpliv naključnih (motenj, posameznih) dejavnikov izniči in tako je mogoče določiti vzorec, ki je neločljivo povezan s preučevanim pojavom. Adolphe Quetelet je poudarjal, da je pomen metode povprečij možnost prehoda od posameznega k splošnemu, od naključnega k regularnemu, obstoj povprečij pa je kategorija objektivne realnosti.

Statistika preučuje množične pojave in procese. Vsak od teh pojavov ima tako skupne celotnemu nizu kot posebne, individualne lastnosti. Razliko med posameznimi pojavi imenujemo variacija. Druga lastnost množičnih pojavov je njihova inherentna podobnost značilnosti posameznih pojavov. Torej interakcija elementov množice vodi do omejitve variacije vsaj dela njihovih lastnosti. Ta trend objektivno obstaja. V njeni objektivnosti je razlog za najširšo uporabo povprečnih vrednosti v praksi in teoriji.

Povprečna vrednost v statistiki je splošni kazalnik, ki označuje tipično raven pojava v določenih razmerah kraja in časa, ki odraža vrednost spremenljive značilnosti na enoto kvalitativno homogene populacije.

V gospodarski praksi se uporablja širok nabor kazalnikov, izračunanih kot povprečne vrednosti.

Z uporabo metode povprečij statistika rešuje številne probleme.

Glavni pomen povprečij je v njihovi generalizacijski funkciji, to je zamenjavi številnih različnih posameznih vrednosti značilnosti s povprečno vrednostjo, ki označuje celoten sklop pojavov.

Če povprečna vrednost posplošuje kvalitativno homogene vrednosti lastnosti, potem je tipična značilnost značilnosti v dani populaciji.

Vendar pa je napačno zmanjšati vlogo povprečnih vrednosti samo na karakterizacijo tipičnih vrednosti značilnosti v populacijah, ki so homogene za dano značilnost. V praksi sodobna statistika veliko pogosteje uporablja povprečne vrednosti, ki posplošujejo jasno homogene pojave.

Povprečni nacionalni dohodek na prebivalca, povprečni pridelek žita po vsej državi, povprečna poraba različne izdelke prehrana - to so značilnosti države kot enotnega nacionalnega gospodarskega sistema, to so tako imenovana sistemska povprečja.

Sistemska povprečja lahko označujejo prostorske ali objektne sisteme, ki obstajajo hkrati (država, industrija, regija, planet Zemlja itd.) in dinamični sistemi, podaljšano v času (leto, desetletje, sezona itd.).

Najpomembnejša lastnost povprečne vrednosti je, da odraža tisto, kar je skupno vsem enotam proučevane populacije. Vrednosti atributov posameznih enot populacije nihajo v eno ali drugo smer pod vplivom številnih dejavnikov, med katerimi so lahko osnovni in naključni. Na primer, cena delnice družbe kot celote je določena z njenim finančnim položajem. Hkrati se ob določenih dnevih in na določenih borzah te delnice zaradi prevladujočih okoliščin lahko prodajajo po višjem ali nižjem tečaju. Bistvo povprečja je v tem, da izniči odstopanja značilnih vrednosti posameznih enot populacije, ki nastanejo zaradi delovanja naključnih dejavnikov, in upošteva spremembe, ki jih povzroči delovanje glavnih dejavnikov. To omogoča, da povprečje odraža tipično raven lastnosti in jo abstrahira posamezne značilnosti, lastne posameznim enotam.

Izračun povprečja je ena najpogostejših tehnik posploševanja; povprečni kazalnik odraža tisto, kar je skupno (tipično) vsem enotam proučevane populacije, hkrati pa zanemarja razlike posameznih enot. V vsakem pojavu in njegovem razvoju je kombinacija naključja in nujnosti.

Povprečje je povzetek značilnosti zakonitosti procesa v pogojih, v katerih se pojavlja.

Vsako povprečje označuje proučevano populacijo glede na katero koli značilnost, toda za karakterizacijo katere koli populacije, opisovanje njenih značilnih in kakovostnih lastnosti je potreben sistem povprečnih kazalnikov. Zato se v praksi domače statistike za preučevanje družbenoekonomskih pojavov praviloma izračuna sistem povprečnih kazalnikov. Tako se na primer kazalnik povprečne plače ocenjuje skupaj s kazalniki povprečne proizvodnje, razmerja med kapitalom in delom ter razmerjem med energijo in delom, stopnjo mehanizacije in avtomatizacije dela itd.

Povprečje je treba izračunati ob upoštevanju ekonomske vsebine preučevanega kazalnika. Zato je za posamezen kazalnik, ki se uporablja v socialno-ekonomski analizi, na podlagi znanstvene metode izračuna mogoče izračunati samo eno pravo vrednost povprečja.

Povprečna vrednost je eden najpomembnejših generalizirajočih statističnih kazalcev, ki označuje niz podobnih pojavov glede na neko kvantitativno spremenljivo značilnost. Povprečja v statistiki so splošni kazalniki, števila, ki izražajo tipične značilne razsežnosti družbenih pojavov po eni količinsko spremenljivi značilnosti.

Vrste povprečij

Vrste povprečnih vrednosti se razlikujejo predvsem po tem, katera lastnost, kateri parameter začetne spremenljive mase posameznih vrednosti atributa mora ostati nespremenjen.

Aritmetična sredina

Aritmetična sredina je povprečna vrednost lastnosti, pri izračunu katere skupni obseg lastnosti v agregatu ostane nespremenjen. V nasprotnem primeru lahko rečemo, da je aritmetična sredina povprečni člen. Pri izračunu se skupni obseg atributa miselno enakomerno porazdeli med vse enote populacije.

Aritmetična sredina se uporablja, če so znane vrednosti povprečene značilnosti (x) in število populacijskih enot z določeno značilno vrednostjo (f).

Aritmetično povprečje je lahko preprosto ali tehtano.

Preprosta aritmetična sredina

Enostavno se uporablja, če se vsaka vrednost atributa x pojavi enkrat, tj. za vsak x je vrednost atributa f=1 ali če izvorni podatki niso urejeni in ni znano, koliko enot ima določene vrednosti atributa.

Formula za aritmetično sredino je preprosta:

kje je povprečna vrednost; x – vrednost povprečne značilnosti (varianta), – število enot proučevane populacije.

Uteženo aritmetično povprečje

Za razliko od preprostega povprečja se tehtano aritmetično povprečje uporablja, če se vsaka vrednost atributa x pojavi večkrat, tj. za vsako vrednost lastnosti f≠1. To povprečje se pogosto uporablja pri izračunu povprečja na podlagi serije diskretne porazdelitve:

kjer je število skupin, x je vrednost značilnosti, ki se povpreči, f je teža značilne vrednosti (pogostost, če je f število enot v populaciji; frekvenca, če je f, delež enot z možnostjo x v celotnem obsegu populacije).

Harmonično povprečje

Skupaj z aritmetično sredino statistika uporablja harmonično sredino, inverzno aritmetične sredine inverznih vrednosti atributa. Tako kot aritmetična sredina je lahko enostavna in utežena. Uporablja se, kadar potrebne uteži (f i) v začetnih podatkih niso določene neposredno, ampak so vključene kot faktor v enem od razpoložljivih kazalnikov (tj. ko je znan števec začetnega razmerja povprečja, vendar njegov imenovalec ni znano).

Harmonično povprečno tehtano

Produkt xf daje prostornino povprečne karakteristike x za niz enot in je označen z w. Če izvorni podatki vsebujejo vrednosti značilnosti x, ki se povprečijo, in volumen značilnosti, ki se povpreči w, potem se za izračun povprečja uporabi harmonična utežena metoda:

kjer je x vrednost povprečne značilnosti x (različica); w – teža variant x, obseg povprečne značilnosti.

Harmonično povprečje, neuteženo (enostavno)

Ta srednja oblika, ki se uporablja veliko manj pogosto, ima naslednjo obliko:

kjer je x vrednost povprečne značilnosti; n – število vrednosti x.

Tisti. to je recipročna vrednost preproste aritmetične sredine vzajemnih vrednosti atributa.

V praksi se harmonična enostavna sredina redko uporablja v primerih, ko so vrednosti w za enote populacije enake.

Povprečni kvadrat in srednji kubični

V številnih primerih v gospodarski praksi je treba izračunati povprečno velikost značilnosti, izraženo v kvadratnih ali kubičnih merskih enotah. Nato se uporabi srednji kvadrat (na primer za izračun povprečne velikosti stranice in kvadratov, povprečni premeri cevi, debla itd.) in povprečni kubik (na primer pri določanju povprečne dolžine stranice in kocke).

Če je pri zamenjavi posameznih vrednosti značilnosti s povprečno vrednostjo potrebno ohraniti vsoto kvadratov prvotnih vrednosti nespremenjeno, bo povprečje kvadratna povprečna vrednost, enostavna ali tehtana.

Preprost kvadrat

Simple se uporablja, če se vsaka vrednost atributa x pojavi enkrat, na splošno ima obliko:

kjer je kvadrat vrednosti značilnosti, ki se povprečijo; - število enot v populaciji.

Uteženi srednji kvadrat

Uteženi srednji kvadrat se uporabi, če se vsaka vrednost povprečne značilnosti x pojavi f-krat:

,

kjer je f teža možnosti x.

Kubično povprečje preprosto in tehtano

Povprečno kubično praštevilo je kubični koren količnika deljenja vsote kock posameznih vrednosti atributov z njihovim številom:

kjer so vrednosti atributa, n je njihovo število.

Povprečna kubična teža:

,

kjer je f teža možnosti x.

Kvadratna in kubična sredina imata omejeno uporabo v statistični praksi. Povprečna kvadratna statistika se pogosto uporablja, vendar ne iz samih možnosti x , in od njihovih odstopanj od povprečja pri izračunu indeksov variacije.

Povprečje je mogoče izračunati ne za vse, ampak za določen del enot v populaciji. Primer takega povprečja bi lahko bilo progresivno povprečje kot eno od delnih povprečij, ki se ne izračuna za vse, ampak samo za »najboljše« (na primer za kazalnike nad ali pod posameznimi povprečji).

Geometrijska sredina

Če se vrednosti povprečne značilnosti bistveno razlikujejo med seboj ali so določene s koeficienti (stopnje rasti, indeksi cen), se za izračun uporabi geometrična sredina.

Geometrijsko sredino izračunamo tako, da izluščimo koren stopnje in iz zmnožkov posameznih vrednosti - variant značilnosti X:

kjer je n število možnosti; P - znak izdelka.

Geometrična sredina se najpogosteje uporablja za določanje povprečne hitrosti spremembe v dinamičnih vrstah, pa tudi v serijah porazdelitve.

Povprečne vrednosti so splošni kazalniki, v katerih je izražen učinek splošnih pogojev in vzorca pojava, ki se preučuje. Statistična povprečja so izračunana na podlagi množičnih podatkov pravilno statistično organiziranega množičnega opazovanja (kontinuiranega ali vzorčnega). Vendar pa bo statistično povprečje objektivno in tipično, če je izračunano iz množičnih podatkov za kvalitativno homogeno populacijo (masovni pojavi). Uporaba povprečij naj izhaja iz dialektičnega razumevanja kategorij splošnega in posameznega, množičnega in individualnega.

Kombinacija splošnih povprečij s skupinskimi sredstvi omogoča omejevanje kvalitativno homogenih populacij. Z razdelitvijo množice predmetov, ki sestavljajo ta ali oni kompleksen pojav, v notranje homogene, a kvalitativno različne skupine, ki vsako skupino označujejo s svojim povprečjem, je mogoče razkriti rezerve procesa nastajajoče nove kakovosti. Na primer, porazdelitev prebivalstva po dohodku nam omogoča, da ugotovimo nastanek novih družbenih skupin. V analitičnem delu smo si ogledali posamezen primer uporabe povprečne vrednosti. Če povzamemo, lahko rečemo, da sta obseg in uporaba povprečij v statistiki precej široka.

Praktična naloga

Naloga št. 1

Določite povprečni nakupni tečaj in povprečni prodajni tečaj za en in ameriški dolar

Povprečni nakupni tečaj

Povprečna prodajna stopnja

Naloga št. 2

Dinamika obsega lastnih izdelkov javne prehrane v regiji Čeljabinsk za obdobje 1996-2004 je predstavljena v tabeli v primerljivih cenah (v milijonih rubljev)

Povežite vrstici A in B. Za analizo niza proizvodne dinamike končnih izdelkov izračunaj:

1. Absolutna rast, verižna in osnovna rast ter stopnje rasti

2. Povprečna letna proizvodnja končnih izdelkov

3. Povprečna letna stopnja rasti in povečanje izdelkov podjetja

4. Izvedite analitično poravnavo dinamičnih vrst in izračunajte napoved za leto 2005

5. Grafično upodablja niz dinamike

6. Na podlagi rezultatov dinamike naredite sklep

1) yi B = yi-y1 yi C = yi-y1

y2 B = 2,175 – 2,04 y2 C = 2,175 – 2,04 = 0,135

y3B = 2,505 – 2,04 y3 C = 2,505 – 2,175 = 0,33

y4 B = 2,73 – 2,04 y4 C = 2,73 – 2,505 = 0,225

y5 B = 1,5 – 2,04 y5 C = 1,5 – 2,73 = 1,23

y6 B = 3,34 – 2,04 y6 C = 3,34 – 1,5 = 1,84

y7 B = 3,6 3 – 2,04 y7 C = 3,6 3 – 3,34 = 0,29

y8 B = 3,96 – 2,04 y8 C = 3,96 – 3,63 = 0,33

y9 B = 4,41–2,04 y9 C = 4,41 – 3,96 = 0,45

Tr B2 Tr Ts2

Tr B3 Tr Ts3

Tr B4 Tr Ts4

Tr B5 Tr Ts5

Tr B6 Tr Ts6

Tr B7 Tr Ts7

Tr B8 Tr Ts8

Tr B9 Tr Ts9

Tr B = (TprB *100%) – 100%

Tr B2 = (1,066*100%) – 100% = 6,6%

Tr Ts3 = (1,151*100%) – 100% = 15,1%

2)y milijonov rubljev – povprečna produktivnost izdelka

2,921 + 0,294*(-4) = 2,921-1,176 = 1,745

2,921 + 0,294*(-3) = 2,921-0,882 = 2,039

(yt-y) = (1,745-2,04) = 0,087

(yt-yt) = (1,745-2,921) = 1,382

(y-yt) = (2,04-2,921) = 0,776

Tp

Avtor:

leto 2005=2,921+1,496*4=2,921+5,984=8,905

8,905+2,306*1,496=12,354

8,905-2,306*1,496=5,456

5,456 2005 12,354


Naloga št. 3

Statistični podatki o preskrbljenosti veleprodaje živilskih in neživilskih izdelkov ter maloprodajne mreže regije v letih 2003 in 2004 so predstavljeni v pripadajočih grafih.

Glede na preglednici 1 in 2 je potrebno

1. Poiščite splošni indeks veleprodajne ponudbe živilskih izdelkov v dejanskih cenah;

2. Poiščite splošni indeks dejanskega obsega preskrbe s hrano;

3. Primerjajte splošne indekse in naredite ustrezen zaključek;

4. Poiščite splošni indeks ponudbe neživilskih izdelkov v dejanskih cenah;

5. Poiščite splošni indeks fizičnega obsega ponudbe neživilskih izdelkov;

6. Primerjajte dobljene indekse in sklepajte o neživilskih izdelkih;

7. Poiščite konsolidirane splošne indekse ponudbe celotne blagovne mase v dejanskih cenah;

8. Poiščite konsolidirani splošni indeks fizičnega obsega (za celotno blagovno maso blaga);

9. Primerjajte dobljene sumarne indekse in naredite ustrezen zaključek.

Osnovno obdobje

Obdobje poročanja (2004)

Dobave poročevalskega obdobja po cenah baznega obdobja

1,291-0,681=0,61= - 39

Zaključek

Za zaključek povzamemo. Povprečne vrednosti so splošni kazalniki, v katerih je izražen učinek splošnih pogojev in vzorca pojava, ki se preučuje. Statistična povprečja so izračunana na podlagi množičnih podatkov pravilno statistično organiziranega množičnega opazovanja (kontinuiranega ali vzorčnega). Vendar pa bo statistično povprečje objektivno in tipično, če je izračunano iz množičnih podatkov za kvalitativno homogeno populacijo (masovni pojavi). Uporaba povprečij naj izhaja iz dialektičnega razumevanja kategorij splošnega in posameznega, množičnega in individualnega.

Povprečje odraža skupno v vsakem posamezniku, posameznem objektu, zato postane povprečje velikega pomena za prepoznavanje vzorcev, ki so lastni množičnim družbenim pojavom in nevidni v posameznih pojavih.

Odstopanje posameznika od splošnega je manifestacija razvojnega procesa. V posameznih primerih so lahko postavljeni elementi novega, naprednega. V tem primeru so specifični dejavniki, vzeti v ozadju povprečnih vrednosti, ki označujejo razvojni proces. Zato povprečje odraža značilno, tipično, realno raven preučevanih pojavov. Značilnosti teh nivojev in njihove spremembe v času in prostoru so eden glavnih problemov povprečij. Tako se skozi povprečja kaže na primer značilnost podjetij na določeni stopnji gospodarskega razvoja; spremembe v blaginji prebivalstva se odražajo v povprečnih plačah, družinskih dohodkih nasploh in za posamezne družbene skupine ter ravni potrošnje proizvodov, dobrin in storitev.

Povprečni kazalnik je tipična vrednost (navadna, normalna, prevladujoča kot celota), vendar je taka, ker se oblikuje v normalnih, naravnih pogojih obstoja določenega množičnega pojava, obravnavanega kot celota. Povprečje odraža objektivno lastnost pojava. V resnici pogosto obstajajo samo deviantni pojavi, povprečje kot pojav pa morda ne obstaja, čeprav je koncept tipičnosti pojava izposojen iz realnosti. Povprečna vrednost je odraz vrednosti lastnosti, ki se proučuje, in se zato meri v isti dimenziji kot ta lastnost. Vendar pa obstajajo različne načine približna določitev stopnje porazdelitve prebivalstva za primerjavo zbirnih značilnosti, ki med seboj niso neposredno primerljive, na primer povprečna poseljenost glede na ozemlje (povprečna gostota poseljenosti). Glede na to, kateri dejavnik je treba izločiti, se določi tudi vsebina povprečja.

Kombinacija splošnih povprečij s skupinskimi sredstvi omogoča omejevanje kvalitativno homogenih populacij. Z razdelitvijo množice predmetov, ki sestavljajo ta ali oni kompleksen pojav, v notranje homogene, a kvalitativno različne skupine, ki vsako skupino označujejo s svojim povprečjem, je mogoče razkriti rezerve procesa nastajajoče nove kakovosti. Na primer, porazdelitev prebivalstva po dohodku nam omogoča, da ugotovimo nastanek novih družbenih skupin. V analitičnem delu smo si ogledali posamezen primer uporabe povprečne vrednosti. Če povzamemo, lahko rečemo, da sta obseg in uporaba povprečij v statistiki precej široka.

Bibliografija

1. Gusarov, V.M. Teorija statistike po kakovosti [Besedilo]: učbenik. dodatek / V.M.

Gusarov priročnik za univerze. - M., 1998

2. Edronova, N.N. Splošna teorija statistike [Besedilo]: učbenik / Ed. N.N. Edronova - M.: Finance in statistika 2001 - 648 str.

3. Eliseeva I.I., Yuzbashev M.M. Splošna teorija statistike [Besedilo]: Učbenik / Ed. dopisni član RAS I.I. Elisejeva. – 4. izd., predelana. in dodatno - M.: Finance in statistika, 1999. - 480 str.: ilustr.

4. Efimova M.R., Petrova E.V., Rumyantsev V.N. Splošna teorija statistike: [Besedilo]: Učbenik. - M.: INFRA-M, 1996. - 416 str.

5. Ryauzova, N.N. Splošna teorija statistike [Besedilo]: učbenik / Ed. N.N.

Ryauzova - M.: Finance in statistika, 1984.


Gusarov V.M. Teorija statistike: Učbenik. Priročnik za univerze. - M., 1998.-P.60.

Eliseeva I.I., Yuzbashev M.M. Splošna teorija statistike. - M., 1999.-P.76.

Gusarov V.M. Teorija statistike: Učbenik. Priročnik za univerze. -M., 1998.-P.61.

Povprečne vrednosti se nanašajo na splošne statistične kazalnike, ki dajejo zbirno (končno) značilnost množičnih družbenih pojavov, saj so zgrajene na podlagi velikega števila posameznih vrednosti različnih značilnosti. Da bi razjasnili bistvo povprečne vrednosti, je treba upoštevati posebnosti oblikovanja vrednosti znakov tistih pojavov, po podatkih katerih se izračuna povprečna vrednost.

Znano je, da imajo enote vsakega množičnega pojava številne značilnosti. Katero koli od teh značilnosti vzamemo, bodo njene vrednosti za posamezne enote različne, spreminjajo se oziroma, kot pravijo v statistiki, od ene do druge enote. Na primer, plača zaposlenega je odvisna od njegovih kvalifikacij, narave dela, delovne dobe in številnih drugih dejavnikov, zato se spreminja v zelo širokih mejah. Skupni vpliv vseh dejavnikov določa višino zaslužka posameznega zaposlenega, vendar pa lahko govorimo o povprečni mesečni plači delavcev v različnih panogah gospodarstva. Tu operiramo s tipično, značilno vrednostjo spremenljive značilnosti, ki je dodeljena enoti velike populacije.

To odraža povprečna vrednost splošno, kar je značilno za vse enote proučevane populacije. Hkrati uravnoteži vpliv vseh dejavnikov, ki delujejo na vrednost lastnosti posameznih enot populacije, kot da bi jih medsebojno ugasnili. Raven (oz. velikost) vsakega družbenega pojava določa delovanje dveh skupin dejavnikov. Nekateri od njih so splošni in glavni, nenehno delujoči, tesno povezani z naravo pojava ali procesa, ki se preučuje, in tvorijo tipično za vse enote proučevane populacije, kar se odraža v povprečni vrednosti. Drugi so posameznik, njihov učinek je manj izrazit in je epizodičen, naključen. Delujejo v nasprotni smeri, povzročajo razlike med kvantitativnimi značilnostmi posameznih enot populacije in poskušajo spremeniti konstantno vrednost preučevanih značilnosti. V povprečni vrednosti se učinek posameznih lastnosti izniči. V skupnem vplivu značilnih in posameznih dejavnikov, ki se v splošnih značilnostih uravnoteži in medsebojno izniči, se v splošni obliki kaže temeljni princip, poznan iz matematične statistike. zakon velikih števil.

V agregatu se posamezne vrednosti značilnosti združijo v skupno maso in se tako rekoč raztopijo. Zato Povprečna vrednost deluje kot "neosebno", ki lahko odstopa od posameznih vrednosti lastnosti, ne da bi kvantitativno sovpadalo s katero koli od njih. Povprečna vrednost odraža splošno, značilno in značilno za celotno populacijo zaradi medsebojnega odpravljanja naključnih, netipičnih razlik v njej med značilnostmi njenih posameznih enot, saj je njena vrednost določena kot s skupno rezultanto vseh vzrokov.

Da pa bi povprečna vrednost odražala najbolj tipično vrednost lastnosti, je ne bi smeli določiti za katero koli populacijo, ampak samo za populacije, sestavljene iz kvalitativno homogenih enot. Ta zahteva je glavni pogoj za znanstveno utemeljeno uporabo povprečij in pomeni tesno povezavo med metodo povprečij in metodo skupin pri analizi družbenoekonomskih pojavov. Posledično je povprečna vrednost splošen indikator, ki označuje tipično raven spremenljive značilnosti na enoto homogene populacije v določenih razmerah kraja in časa.

Pri opredeljevanju bistva povprečnih vrednosti je treba poudariti, da pravilen izračun vsake povprečne vrednosti predpostavlja izpolnjevanje naslednjih zahtev:

  • kvalitativno homogenost populacije, iz katere se izračuna povprečna vrednost. To pomeni, da mora izračun povprečnih vrednosti temeljiti na metodi združevanja, ki zagotavlja identifikacijo homogenih, podobnih pojavov;
  • izključitev vpliva naključnih, povsem individualnih vzrokov in dejavnikov na izračun povprečne vrednosti. To dosežemo v primeru, ko izračun povprečja temelji na dovolj masivnem materialu, v katerem se kaže delovanje zakona velikih števil in se vsaka naključnost izniči;
  • Pri izračunu povprečne vrednosti je pomembno ugotoviti namen njenega izračuna in t.i opredelitveni indikator(nepremičnina), na katero naj bo usmerjena.

Opredelitveni indikator lahko deluje kot vsota vrednosti značilnosti, ki se povpreči, vsota njegovih inverznih vrednosti, produkt njegovih vrednosti itd. Razmerje med opredeljujočim indikatorjem in povprečno vrednostjo je izraženo v naslednjem: če se vse vrednosti povprečne značilnosti nadomestijo s povprečno vrednostjo, potem njihova vsota ali produkt v tem primeru ne bo spremenil določevalnega kazalnika. Na podlagi te povezave med opredeljujočim indikatorjem in povprečno vrednostjo je sestavljeno začetno kvantitativno razmerje za neposredni izračun povprečne vrednosti. Sposobnost povprečnih vrednosti, da ohranijo lastnosti statističnih populacij, se imenuje opredelitev lastnine.

Povprečna vrednost, izračunana za celotno populacijo, se imenuje splošna havarija; povprečne vrednosti, izračunane za vsako skupino - skupinska povprečja. Skupno povprečje odraža skupne značilnosti pojava, ki se preučuje, skupinsko povprečje daje značilnost pojava, ki se razvije v specifičnih razmerah dane skupine.

Metode izračunavanja so lahko različne, zato v statistiki obstaja več vrst povprečij, med katerimi so glavne aritmetična sredina, harmonična sredina in geometrična sredina.

V ekonomski analizi je uporaba povprečij glavno orodje za ocenjevanje rezultatov znanstvenega in tehnološkega napredka, družbenega dogajanja ter iskanje rezerv za gospodarski razvoj. Hkrati je treba spomniti, da lahko pretirano zanašanje na povprečne kazalnike vodi do pristranskih zaključkov pri izvajanju ekonomske in statistične analize. To je posledica dejstva, da povprečne vrednosti kot splošni kazalniki ugasnejo in zanemarjajo tiste razlike v kvantitativnih značilnostih posameznih enot populacije, ki dejansko obstajajo in so lahko neodvisno zanimive.

Vrste povprečij

V statistiki se uporabljajo različne vrste povprečij, ki so razdeljena v dva velika razreda:

  • potenčne sredine (harmonična sredina, geometrična sredina, aritmetična sredina, kvadratna sredina, kubična sredina);
  • strukturna sredstva (mod, mediana).

Za izračun povprečja moči potrebno je uporabiti vse razpoložljive karakteristične vrednosti. Moda in mediana so določeni samo s strukturo porazdelitve, zato jih imenujemo strukturna, položajna povprečja. Mediana in način se pogosto uporabljata kot povprečna značilnost v tistih populacijah, kjer je izračun zakona povprečne moči nemogoč ali neizvedljiv.

Najpogostejša vrsta povprečja je aritmetična sredina. Spodaj aritmetična sredina razumemo kot vrednost lastnosti, ki bi jo imela vsaka enota populacije, če bi bila skupna vsota vseh vrednosti značilnosti enakomerno porazdeljena med vse enote populacije. Izračun te vrednosti se zmanjša na seštevanje vseh vrednosti spremenljive značilnosti in deljenje dobljenega zneska s skupnim številom enot v populaciji. Na primer, pet delavcev je izpolnilo naročilo za izdelavo delov, medtem ko je prvi izdelal 5 delov, drugi - 7, tretji - 4, četrti - 10, peti - 12. Ker je v izvornih podatkih vrednost vsakega možnost, ki se zgodi samo enkrat, je treba za določitev povprečne proizvodnje enega delavca uporabiti preprosto aritmetično povprečno formulo:

v našem primeru je povprečna proizvodnja enega delavca enaka

Skupaj s preprosto aritmetično sredino preučujejo tehtano aritmetično povprečje. Na primer, izračunajmo povprečno starost študentov v skupini 20 ljudi, katerih starost se giblje od 18 do 22 let, kjer xi- različice značilnosti, ki se povprečijo, fi- frekvenca, ki kaže, kolikokrat se pojavi i-ti vrednosti v agregatu (tabela 5.1).

Tabela 5.1

Povprečna starost študentov

Z uporabo formule utežene aritmetične sredine dobimo:


Za izbiro utežene aritmetične sredine obstaja določeno pravilo: če obstaja niz podatkov o dveh kazalnikih, za katerega je treba izračunati enega

povprečna vrednost, hkrati pa so znane numerične vrednosti imenovalca njegove logične formule, vrednosti števca pa niso znane, vendar jih je mogoče najti kot produkt teh kazalnikov, potem bi morala biti povprečna vrednost izračunati z uporabo formule za aritmetično tehtano povprečje.

V nekaterih primerih je narava začetnih statističnih podatkov takšna, da izračun aritmetičnega povprečja izgubi pomen in je lahko edini posploševalni kazalnik le druga vrsta povprečja - harmonično povprečje. Trenutno so računske lastnosti aritmetične sredine izgubile pomen pri izračunu splošnih statističnih kazalcev zaradi razširjene uvedbe elektronske računalniške tehnologije. Harmonična povprečna vrednost, ki je lahko tudi enostavna in utežena, je pridobila velik praktični pomen. Če so znane numerične vrednosti števca logične formule in so vrednosti imenovalca neznane, vendar jih je mogoče najti kot delno delitev enega indikatorja z drugim, se povprečna vrednost izračuna z uporabo harmonike formula tehtanega povprečja.

Naj na primer ve, da je avto prvih 210 km prevozil s hitrostjo 70 km/h, preostalih 150 km pa s hitrostjo 75 km/h. Nemogoče je določiti povprečno hitrost avtomobila na celotnem potovanju 360 km z uporabo formule za aritmetično povprečje. Ker so možnosti hitrosti v posameznih odsekih xj= 70 km/h in X2= 75 km/h in se uteži (fi) štejejo za ustrezne odseke poti, potem zmnožki možnosti in uteži ne bodo imeli ne fizičnega ne ekonomskega pomena. Količniki v tem primeru dobijo pomen z razdelitvijo odsekov poti na ustrezne hitrosti (možnosti xi), to je čas, porabljen za prehod posameznih odsekov poti (fi / xi). Če so odseki poti označeni s fi, potem je celotna pot izražena kot Σfi, čas, porabljen na celotni poti, pa kot Σ fi / xi , Nato je povprečno hitrost mogoče najti kot količnik celotne poti, deljen s skupnim porabljenim časom:

V našem primeru dobimo:

Če so pri uporabi harmonične sredine uteži vseh možnosti (f) enake, lahko namesto utežene uporabite enostavna (neutežena) harmonična sredina:

kjer so xi posamezne možnosti; n- število variant povprečne značilnosti. V primeru hitrosti bi lahko uporabili preprosto harmonično povprečje, če bi bili segmenti poti, prevoženi z različnimi hitrostmi, enaki.

Vsako povprečno vrednost je treba izračunati tako, da se, ko nadomesti vsako različico povprečne značilnosti, vrednost nekega končnega splošnega kazalnika, ki je povezan s povprečenim kazalnikom, ne spremeni. Tako se pri zamenjavi dejanskih hitrosti na posameznih odsekih poti z njihovo povprečno vrednostjo (povprečna hitrost) skupna razdalja ne bi smela spremeniti.

Oblika (formula) povprečne vrednosti je določena z naravo (mehanizmom) razmerja tega končnega kazalnika s povprečnim, zato je končni indikator, katerega vrednost se ne sme spremeniti pri zamenjavi možnosti z njihovo povprečno vrednostjo. klical opredelitveni indikator.Če želite izpeljati formulo za povprečje, morate ustvariti in rešiti enačbo z uporabo razmerja med povprečnim indikatorjem in odločilnim. Ta enačba je sestavljena tako, da se različice povprečne značilnosti (kazalnika) nadomestijo z njihovo povprečno vrednostjo.

Poleg aritmetične sredine in harmonične sredine se v statistiki uporabljajo tudi druge vrste (oblike) sredine. Vsi so posebni primeri povprečna moč.Če izračunamo vse vrste povprečij moči za iste podatke, potem vrednosti

se bodo izkazale za enake, tukaj velja pravilo major-ranty povprečje. Z naraščanjem eksponenta povprečja se povečuje tudi sama povprečna vrednost. Najpogosteje uporabljene formule za izračun v praktičnem raziskovanju različne vrste Povprečne vrednosti moči so predstavljene v tabeli. 5.2.

Tabela 5.2


Geometrična sredina se uporablja, kadar obstaja n koeficientov rasti, posamezne vrednosti značilnosti pa so praviloma relativne vrednosti dinamika, zgrajena v obliki verižnih vrednosti, kot razmerje do prejšnje ravni vsake ravni v nizu dinamike. Povprečje torej označuje povprečno stopnjo rasti. Povprečno geometrijsko preprosto izračunano po formuli

Formula utežena geometrična sredina ima naslednjo obliko:

Zgornje formule so enake, vendar se ena uporablja pri trenutnih koeficientih ali stopnjah rasti, druga pa pri absolutnih vrednostih serijskih ravni.

Srednji kvadrat uporablja se pri izračunih z vrednostmi kvadratnih funkcij, uporablja se za merjenje stopnje nihanja posameznih vrednosti značilnosti okoli aritmetične sredine v nizu porazdelitve in se izračuna po formuli

Uteženi srednji kvadrat izračunano po drugi formuli:

Povprečna kubična se uporablja pri računanju z vrednostmi kubičnih funkcij in se izračuna po formuli

povprečna kubična teža:

Vse zgoraj obravnavane povprečne vrednosti je mogoče predstaviti kot splošno formulo:

kje je povprečna vrednost; - individualni pomen; n- število enot proučevane populacije; k- eksponent, ki določa vrsto povprečja.

Če uporabljate iste izvorne podatke, več k v splošni formuli za povprečje moči je večja povprečna vrednost. Iz tega sledi, da obstaja naravno razmerje med vrednostmi povprečij moči:

Zgoraj opisane povprečne vrednosti dajejo splošno predstavo o populaciji, ki se preučuje, in s tega vidika je njihov teoretični, uporabni in izobraževalni pomen nesporen. Vendar se zgodi, da povprečna vrednost ne sovpada z nobeno od dejansko obstoječih možnosti, zato je poleg obravnavanih povprečij v statistični analizi priporočljivo uporabiti vrednosti določenih možnosti, ki zasedajo zelo specifičen položaj v urejene (rangirane) serije vrednosti atributov. Med temi količinami so najpogosteje uporabljene strukturno, oz opisno, povprečno- način (Mo) in mediana (Me).

Moda- vrednost lastnosti, ki se najpogosteje pojavlja v določeni populaciji. V zvezi z variacijsko serijo je način najpogosteje pojavljajoča se vrednost rangirane serije, to je možnost z največjo frekvenco. Modo je mogoče uporabiti pri določanju trgovin, ki so pogosteje obiskane, najpogostejše cene za kateri koli izdelek. Prikazuje velikost značilnosti, ki je značilna za pomemben del populacije in je določena s formulo

kjer je x0 spodnja meja intervala; h- velikost intervala; fm- intervalna frekvenca; fm_ 1 - frekvenca prejšnjega intervala; fm+ 1 - frekvenca naslednjega intervala.

Mediana pokliče se možnost, ki se nahaja na sredini uvrščene vrstice. Mediana deli niz na dva enaka dela tako, da je na obeh straneh enako število populacijskih enot. V tem primeru ima polovica enot v populaciji vrednost spremenljive značilnosti manjšo od mediane, druga polovica pa večjo vrednost od nje. Mediana se uporablja pri proučevanju elementa, katerega vrednost je večja ali enaka ali hkrati manjša ali enaka polovici elementov niza porazdelitve. Mediana daje splošna ideja o tem, kje so koncentrirane vrednosti atributa, z drugimi besedami, kje se nahaja njihovo središče.

Opisna narava mediane se kaže v tem, da označuje kvantitativno mejo vrednosti spremenljive značilnosti, ki jo ima polovica enot v populaciji. Problem iskanja mediane za diskretno variacijsko vrsto je enostavno rešljiv. Če so vse enote serije podane serijske številke, potem je serijska številka mediane možnosti določena kot (n + 1) / 2 z lihim številom članov n. Če je število članov serije sodo število , potem bo mediana povprečna vrednost dveh možnosti, ki imata serijski številki n/ 2 in n / 2 + 1.

Pri določanju mediane v intervalnih variacijskih serijah najprej določimo interval, v katerem se nahaja (mediani interval). Za ta interval je značilno, da je njegova skupna vsota frekvenc enaka ali presega polovico vsote vseh frekvenc niza. Mediana niza intervalnih variacij se izračuna po formuli

Kje X0- spodnja meja intervala; h- velikost intervala; fm- intervalna frekvenca; f- število članov serije;

∫m-1 je vsota akumuliranih členov niza pred danim.

Poleg mediane se za popolnejšo opredelitev strukture proučevane populacije uporabljajo tudi druge vrednosti možnosti, ki zasedajo zelo specifičen položaj v razvrščeni seriji. Tej vključujejo kvartili in decili. Kvartili razdelijo niz glede na vsoto frekvenc na 4 enake dele, decili pa na 10 enakih delov. Obstajajo trije kvartili in devet decilov.

Mediana in način, za razliko od aritmetične sredine, ne odpravita individualnih razlik v vrednosti spremenljivke in sta zato dodatni in zelo pomembni značilnosti statistične populacije. V praksi se pogosto uporabljajo namesto povprečja ali skupaj z njim. Posebej priporočljivo je izračunati mediano in način v primerih, ko proučevana populacija vsebuje določeno število enot z zelo veliko ali zelo majhno vrednostjo spremenljive značilnosti. Te vrednosti možnosti, ki niso zelo značilne za populacijo, sicer vplivajo na vrednost aritmetične sredine, vendar ne vplivajo na vrednosti mediane in mode, zaradi česar sta slednja zelo dragocena indikatorja za ekonomsko in statistično analizo.

Indikatorji variacije

Namen statističnega raziskovanja je ugotoviti osnovne lastnosti in vzorce proučevane statistične populacije. V procesu sumarne obdelave podatkov statističnega opazovanja gradijo distribucijske serije. Obstajata dve vrsti porazdelitvenih nizov - atributivni in variacijski, odvisno od tega, ali je značilnost, ki je osnova za razvrščanje, kvalitativna ali kvantitativna.

Variacijski se imenujejo porazdelitvene serije, zgrajene na kvantitativni osnovi. Vrednosti kvantitativnih značilnosti v posameznih enotah populacije niso konstantne, med seboj se bolj ali manj razlikujejo. Ta razlika v vrednosti značilnosti se imenuje variacije. Imenujejo se posamezne številčne vrednosti značilnosti, ki jih najdemo v populaciji, ki se proučuje različice vrednosti. Prisotnost variacije v posameznih enotah populacije je posledica vpliva velikega števila dejavnikov na oblikovanje ravni lastnosti. Preučevanje narave in stopnje variacije značilnosti v posameznih enotah populacije je najpomembnejše vprašanje vsake statistične raziskave. Indeksi variacije se uporabljajo za opis merila variabilnosti lastnosti.

Druga pomembna naloga statističnega raziskovanja je ugotavljanje vloge posameznih dejavnikov ali njihovih skupin pri variiranju nekaterih značilnosti populacije. Za rešitev tega problema statistika uporablja posebne metode za preučevanje variacije, ki temeljijo na uporabi sistema indikatorjev, s katerimi se meri variacija. V praksi se raziskovalec sooča s precej velikim številom različic vrednosti atributov, ki ne dajejo predstave o porazdelitvi enot po vrednosti atributa v agregatu. Če želite to narediti, uredite vse različice značilnih vrednosti v naraščajočem ali padajočem vrstnem redu. Ta proces se imenuje uvrstitev serije. Uvrščena serija takoj daje splošno predstavo o vrednostih, ki jih ima funkcija v agregatu.

Nezadostnost povprečne vrednosti za izčrpen opis populacije nas prisili, da povprečne vrednosti dopolnimo s kazalniki, ki nam omogočajo, da ocenimo tipičnost teh povprečij z merjenjem variabilnosti (variacije) značilnosti, ki se preučuje. Uporaba teh indikatorjev variacije omogoča, da je statistična analiza popolnejša in smiselnejša ter s tem globlje razumevanje bistva preučevanih družbenih pojavov.

Najenostavnejši znaki variacije so najmanj in največ - to je najmanjša in največja vrednost atributa v agregatu. Imenuje se število ponovitev posameznih variant značilnih vrednosti frekvenca ponavljanja. Označimo pogostost ponavljanja vrednosti atributa fi, vsota frekvenc, ki je enaka obsegu proučevane populacije, bo:

Kje k- število možnosti za vrednosti atributov. Primerno je zamenjati frekvence s frekvencami - wi. Pogostost- indikator relativne frekvence - lahko se izrazi v delčkih enote ali odstotkih in omogoča primerjavo variacijskih serij z različnim številom opazovanj. Formalno imamo:

Za merjenje variacije lastnosti se uporabljajo različni absolutni in relativni kazalci. Absolutni indikatorji variacije vključujejo povprečni linearni odklon, obseg variacije, disperzijo in standardni odklon.

Razpon variacije(R) predstavlja razliko med najvišjo in najmanjšo vrednostjo atributa v proučevani populaciji: R= Xmax - Xmin. Ta indikator daje le najbolj splošno predstavo o spremenljivosti značilnosti, ki se preučuje, saj prikazuje razliko le med največjimi vrednostmi možnosti. Popolnoma ni povezana s frekvencami v variacijskih serijah, to je z naravo porazdelitve, in njena odvisnost lahko daje nestabilen, naključen značaj le na ekstremnih vrednostih značilnosti. Razpon variacije ne zagotavlja nobenih informacij o značilnostih proučevanih populacij in nam ne omogoča ocene stopnje tipičnosti dobljenih povprečnih vrednosti. Področje uporabe tega kazalnika je omejeno na dokaj homogene populacije, natančneje, označuje variacijo lastnosti, kazalnik, ki temelji na upoštevanju variabilnosti vseh vrednosti značilnosti.

Za karakterizacijo variacije značilnosti je treba posplošiti odstopanja vseh vrednosti od katere koli vrednosti, značilne za preučevano populacijo. Takšni kazalniki

variacije, kot so povprečni linearni odklon, disperzija in standardni odklon, temeljijo na upoštevanju odstopanj značilnih vrednosti posameznih enot populacije od aritmetične sredine.

Povprečno linearno odstopanje predstavlja aritmetično sredino absolutnih vrednosti odstopanj posameznih možnosti od njihove aritmetične sredine:


Absolutna vrednost (modul) odstopanja variante od aritmetične sredine; f- pogostost.

Prva formula se uporabi, če se vsaka od možnosti pojavi v agregatu samo enkrat, druga pa v seriji z neenakimi frekvencami.

Obstaja še en način povprečenja odstopanj opcij od aritmetične sredine. Ta zelo pogosta metoda v statistiki se zmanjša na izračun kvadratov odstopanj možnosti od povprečne vrednosti z njihovim kasnejšim povprečenjem. V tem primeru dobimo nov indikator variacije - disperzijo.

Razpršenost(σ 2) - povprečje kvadratnih odstopanj možnosti vrednosti atributa od njihove povprečne vrednosti:

Druga formula se uporabi, če imajo opcije lastne uteži (ali frekvence variacijske serije).

V ekonomski in statistični analizi je običajno variacijo značilnosti najpogosteje oceniti s standardnim odklonom. Standardni odklon(σ) je kvadratni koren variance:

Povprečna linearna in standardna deviacija kažeta, koliko vrednost značilnosti v povprečju niha med enotami proučevane populacije in sta izražena v enakih merskih enotah kot možnosti.

V statistični praksi je pogosto treba primerjati variacije različnih značilnosti. Na primer, zelo zanimiva je primerjava variacij v starosti zaposlenih in njihovih kvalifikacijah, delovni dobi in plačah itd. Za takšne primerjave kazalniki absolutne variabilnosti značilnosti - linearno povprečje in standardni odklon - niso primerni. Dejansko je nemogoče primerjati nihanje delovne dobe, izraženo v letih, z nihanjem plač, izraženo v rubljih in kopejkah.

Ko primerjamo variabilnost različnih značilnosti skupaj, je priročno uporabiti relativne mere variacije. Ti kazalniki se izračunajo kot razmerje med absolutnimi kazalniki in aritmetično sredino (ali mediano). Z uporabo razpona variacije, povprečnega linearnega odklona in standardne deviacije kot absolutnega kazalca variacije dobimo relativne kazalce variabilnosti:


Najpogosteje uporabljen indikator relativne variabilnosti, ki označuje homogenost populacije. Populacija se šteje za homogeno, če koeficient variacije ne presega 33 % za porazdelitve, ki so blizu normalnim.

V večini primerov so podatki skoncentrirani okoli neke osrednje točke. Tako je za opis katerega koli niza podatkov dovolj navesti povprečno vrednost. Zaporedoma razmislimo o treh numeričnih karakteristikah, ki se uporabljajo za oceno povprečne vrednosti porazdelitve: aritmetična sredina, mediana in način.

Povprečje

Aritmetična sredina (pogosto imenovana preprosto povprečje) je najpogostejša ocena srednje vrednosti porazdelitve. Je rezultat deljenja vsote vseh opazovanih številskih vrednosti z njihovim številom. Za vzorec, sestavljen iz številk X 1, X 2, …, Xn, povprečje vzorca (označeno z ) je enako = (X 1 + X 2 + … + Xn) / n, oz

kje je povprečje vzorca, n- Velikost vzorca, Xjazi-ti element vzorcev.

Prenesite opombo v ali obliki, primeri v obliki

Razmislite o izračunu aritmetičnega povprečja petletnih povprečnih letnih donosov 15 vzajemnih skladov z zelo visoka stopnja tveganje (slika 1).

riž. 1. Povprečni letni donosi 15 zelo tveganih vzajemnih skladov

Vzorčno povprečje se izračuna na naslednji način:

To je dober donos, zlasti v primerjavi s 3-4-odstotnim donosom, ki so ga prejeli vlagatelji bank ali kreditnih zadrug v istem časovnem obdobju. Če razvrstimo donose, lahko ugotovimo, da ima osem skladov donose nadpovprečne, sedem pa podpovprečne. Aritmetična sredina deluje kot ravnotežna točka, tako da skladi z nizkimi donosi uravnotežijo sklade z visokimi donosi. Pri izračunu povprečja sodelujejo vsi elementi vzorca. Nobena druga ocena srednje vrednosti porazdelitve nima te lastnosti.

Kdaj izračunati aritmetično sredino? Ker je aritmetična sredina odvisna od vseh elementov v vzorcu, prisotnost ekstremnih vrednosti pomembno vpliva na rezultat. V takšnih situacijah lahko aritmetična sredina popači pomen numeričnih podatkov. Zato je treba pri opisu niza podatkov, ki vsebuje ekstremne vrednosti, navesti mediano ali aritmetično sredino in mediano. Če na primer iz vzorca odstranimo donose sklada RS Emerging Growth, se vzorčno povprečje donosov 14 skladov zmanjša za skoraj 1 % na 5,19 %.

Mediana

Mediana predstavlja srednja vrednost urejen niz števil. Če niz ne vsebuje ponavljajočih se števil, bo polovica njegovih elementov manjša od mediane in polovica večja od nje. Če vzorec vsebuje ekstremne vrednosti, je za oceno sredine bolje uporabiti mediano kot aritmetično sredino. Za izračun mediane vzorca ga je treba najprej naročiti.

Ta formula je dvoumna. Njegov rezultat je odvisen od tega, ali je število sodo ali liho n:

  • Če vzorec vsebuje liho število elementov, je mediana enaka (n+1)/2-ti element.
  • Če vzorec vsebuje sodo število elementov, leži mediana med srednjima elementoma vzorca in je enaka aritmetični sredini, izračunani nad tema dvema elementoma.

Za izračun mediane vzorca, ki vsebuje donose 15 vzajemnih skladov z zelo visokim tveganjem, morate najprej razvrstiti neobdelane podatke (slika 2). Potem bo mediana nasprotna številki srednjega elementa vzorca; v našem primeru št. 8. Excel ima posebno funkcijo =MEDIAN(), ki deluje tudi z neurejenimi nizi.

riž. 2. Mediana 15 sredstev

Tako je mediana 6,5. To pomeni, da donosnost polovice zelo tveganih skladov ne presega 6,5, donosnost druge polovice pa jo presega. Upoštevajte, da mediana 6,5 ​​ni veliko večja od srednje vrednosti 6,08.

Če iz vzorca izločimo donosnost sklada RS Emerging Growth, se mediana preostalih 14 skladov zniža na 6,2 %, torej ne tako pomembno kot aritmetična sredina (slika 3).

riž. 3. Mediana 14 sredstev

Moda

Izraz je prvi skoval Pearson leta 1894. Moda je število, ki se največkrat pojavlja v vzorcu (najbolj modno). Moda dobro opisuje na primer tipično reakcijo voznikov na semaforski znak, da se ustavi. Klasičen primer uporabe mode je izbira velikosti čevljev ali barve tapet. Če ima porazdelitev več načinov, potem rečemo, da je večmodalna ali multimodalna (ima dva ali več "vrhov"). Multimodalna distribucija daje pomembna informacija o naravi preučevane spremenljivke. Na primer, v socioloških raziskavah, če spremenljivka predstavlja preferenco ali odnos do nečesa, potem multimodalnost lahko pomeni, da obstaja več različnih različna mnenja. Multimodalnost služi tudi kot pokazatelj, da vzorec ni homogen in da so lahko opazovanja ustvarjena z dvema ali več "prekrivajočimi se" porazdelitvami. Za razliko od aritmetične sredine izstopajoči ne vplivajo na način. Za zvezno porazdeljene naključne spremenljivke, kot je povprečni letni donos vzajemnih skladov, način včasih sploh ne obstaja (ali nima smisla). Ker lahko ti indikatorji zavzamejo zelo različne vrednosti, so ponavljajoče se vrednosti izjemno redke.

Kvartili

Kvartili so metrike, ki se najpogosteje uporabljajo za vrednotenje porazdelitve podatkov pri opisovanju lastnosti velikih numeričnih vzorcev. Medtem ko mediana razdeli urejeno matriko na pol (50 % elementov matrike je manjših od mediane in 50 % večjih), kvartili razdelijo urejen niz podatkov na štiri dele. Vrednosti Q 1, mediane in Q 3 so 25., 50. oziroma 75. percentil. Prvi kvartil Q 1 je število, ki vzorec razdeli na dva dela: 25 % elementov je manjših od prvega kvartila in 75 % večjih od njega.

Tretji kvartil Q 3 je število, ki prav tako deli vzorec na dva dela: 75 % elementov je manjših, 25 % pa - več kot tri kvartil

Če želite izračunati kvartile v različicah Excela pred 2007, uporabite funkcijo =QUARTILE(array,part). Od Excela 2010 se uporabljata dve funkciji:

  • =QUARTILE.ON(niz,del)
  • =QUARTILE.EXC(matrika,del)

Ti dve funkciji dajeta malo različne pomene(slika 4). Na primer, pri izračunu kvartilov vzorca, ki vsebuje povprečne letne donose 15 vzajemnih skladov z zelo visokim tveganjem, je Q 1 = 1,8 oziroma –0,7 za QUARTILE.IN oziroma QUARTILE.EX. Mimogrede, funkcija QUARTILE, ki je bila prej uporabljena, ustreza sodobni funkciji QUARTILE.ON. Za izračun kvartilov v Excelu z uporabo zgornjih formul podatkovnega niza ni treba razporediti.

riž. 4. Računanje kvartilov v Excelu

Naj še enkrat poudarimo. Excel lahko izračuna kvartile za univariato diskretne serije, ki vsebuje vrednosti naključna spremenljivka. Izračun kvartilov za porazdelitev na podlagi frekvence je podan spodaj v razdelku.

Geometrijska sredina

Za razliko od aritmetičnega povprečja vam geometrično povprečje omogoča, da ocenite stopnjo spremembe spremenljivke skozi čas. Geometrijska sredina je koren n diplomo iz dela n količine (v Excelu se uporablja funkcija =SRGEOM):

G= (X 1 * X 2 * … * X n) 1/n

Podoben parameter - geometrična povprečna vrednost stopnje dobička - se določi s formulo:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Kje R i– stopnja dobička za jazčasovno obdobje.

Denimo, da je začetna naložba 100.000 $. Do konca prvega leta pade na 50.000 $, do konca drugega leta pa se povrne na začetno raven 100.000 $. Stopnja donosa te naložbe v dveh letih -letno obdobje je enako 0, saj sta začetni in končni znesek sredstev enaka. Vendar pa je aritmetično povprečje letnih stopenj donosa = (–0,5 + 1) / 2 = 0,25 ali 25 %, saj je stopnja donosa v prvem letu R 1 = (50.000 – 100.000) / 100.000 = –0,5, in v drugem R 2 = (100.000 – 50.000) / 50.000 = 1. Hkrati je geometrična sredina vrednosti stopnje dobička za dve leti enaka: G = [(1–0,5) * (1+ 1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Geometrijska sredina torej bolj natančno odraža spremembo (natančneje odsotnost sprememb) obsega investicij v dveletnem obdobju kot aritmetična sredina.

Zanimiva dejstva. Prvič, geometrična sredina bo vedno manjša od aritmetične sredine istih števil. Razen v primeru, ko so vse vzete številke med seboj enake. Drugič, z upoštevanjem lastnosti pravokotnega trikotnika lahko razumete, zakaj se povprečje imenuje geometrijsko. Višina pravokotnega trikotnika, spuščena na hipotenuzo, je povprečni sorazmernik med projekcijama krakov na hipotenuzo, vsak krak pa je povprečni sorazmernik med hipotenuzo in njeno projekcijo na hipotenuzo (slika 5). To daje geometrijski način za konstruiranje geometrične sredine dveh segmentov (dolžin): sestaviti morate krog na vsoti teh dveh segmentov kot premera, nato pa višino, obnovljeno od točke njune povezave do presečišča s krogom bo dal želeno vrednost:

riž. 5. Geometrična narava geometrijske sredine (slika iz Wikipedije)

Druga pomembna lastnost numeričnih podatkov je njihova variacija, ki označuje stopnjo razpršenosti podatkov. Dva različna vzorca se lahko razlikujeta v srednjih vrednostih in variancah. Vendar, kot je prikazano na sl. 6 in 7 imata lahko dva vzorca enake variacije, vendar različna povprečja, ali ista povprečja in popolnoma različne variacije. Podatki, ki ustrezajo poligonu B na sl. 7, spreminjajo veliko manj kot podatki, na podlagi katerih je bil poligon A zgrajen.

riž. 6. Dve simetrični zvonasti porazdelitvi z enakim razmazom in različnimi srednjimi vrednostmi

riž. 7. Dve simetrični zvonasti porazdelitvi z enakimi srednjimi vrednostmi in različnimi razmiki

Obstaja pet ocen variacije podatkov:

Obseg

Razpon je razlika med največjim in najmanjšim elementom vzorca:

Razpon = XNajveč – XMin

Razpon vzorca, ki vsebuje povprečne letne donose 15 vzajemnih skladov z zelo visokim tveganjem, je mogoče izračunati z uporabo urejene matrike (glej sliko 4): Razpon = 18,5 – (–6,1) = 24,6. To pomeni, da je razlika med najvišjo in najnižjo povprečno letno donosnostjo zelo tveganih skladov 24,6 %.

Obseg meri celotno širjenje podatkov. Čeprav je obseg vzorca zelo preprosta ocena celotnega širjenja podatkov, je njegova slabost v tem, da ne upošteva natančno, kako so podatki porazdeljeni med najmanjše in največje elemente. Ta učinek je jasno viden na sl. 8, ki prikazuje vzorce z enakim obsegom. Lestvica B dokazuje, da če vzorec vsebuje vsaj eno ekstremno vrednost, je obseg vzorca zelo nenatančna ocena širjenja podatkov.

riž. 8. Primerjava treh vzorcev z enakim razponom; trikotnik simbolizira nosilec lestvice, njegova lokacija pa ustreza vzorčni sredini

Interkvartilni razpon

Interkvartil ali povprečje je razlika med tretjim in prvim kvartilom vzorca:

Interkvartilni razpon = Q 3 – Q 1

Ta vrednost nam omogoča, da ocenimo razpršitev 50 % elementov in ne upoštevamo vpliva ekstremnih elementov. Interkvartilni razpon vzorca, ki vsebuje povprečne letne donose 15 vzajemnih skladov z zelo visokim tveganjem, je mogoče izračunati z uporabo podatkov na sliki. 4 (na primer za funkcijo QUARTILE.EXC): interkvartilni razpon = 9,8 – (–0,7) = 10,5. Interval, omejen s številkama 9,8 in -0,7, se pogosto imenuje srednja polovica.

Upoštevati je treba, da vrednosti Q 1 in Q 3 in s tem interkvartilni razpon niso odvisne od prisotnosti izstopajočih vrednosti, saj njihov izračun ne upošteva nobene vrednosti, ki bi bila manjša od Q 1 ali večja kot Q 3 . Povzete mere, kot so mediana, prvi in ​​tretji kvartil ter interkvartilni razpon, na katere ne vplivajo odstopanja, se imenujejo robustne mere.

Čeprav razpon in interkvartilni razpon zagotavljata ocene celotnega oziroma povprečnega razmika vzorca, nobena od teh ocen ne upošteva natančno, kako so podatki porazdeljeni. Varianca in standardni odklon so brez te pomanjkljivosti. Ti kazalniki vam omogočajo, da ocenite stopnjo nihanja podatkov okoli povprečne vrednosti. Varianca vzorca je približek aritmetične sredine, izračunane iz kvadratov razlik med vsakim vzorčnim elementom in vzorčno sredino. Za vzorec X 1, X 2, ... X n je vzorčna varianca (označena s simbolom S 2) podana z naslednjo formulo:

Na splošno je vzorčna varianca vsota kvadratov razlik med vzorčnimi elementi in vzorčno srednjo vrednostjo, deljena z vrednostjo, ki je enaka velikosti vzorca minus ena:

Kje - aritmetična sredina, n- Velikost vzorca, X i - jaz izbirni element X. V Excelu pred različico 2007 je bila za izračun vzorčne variance uporabljena funkcija =VARIN(), od različice 2010 dalje pa se uporablja funkcija =VARIN().

Najbolj praktična in splošno sprejeta ocena širjenja podatkov je standardni odklon vzorca. Ta indikator je označen s simbolom S in je enak kvadratni koren iz vzorčne variance:

V Excelu pred različico 2007 je bila za izračun standardnega vzorčnega odklona uporabljena funkcija =STDEV.(), od različice 2010 dalje pa funkcija =STDEV.V(). Za izračun teh funkcij je podatkovno polje lahko neurejeno.

Niti vzorčna varianca niti vzorčni standardni odklon ne moreta biti negativna. Edina situacija, v kateri sta lahko indikatorja S 2 in S enaka nič, je, če so vsi elementi vzorca med seboj enaki. V tem popolnoma neverjetnem primeru sta tudi razpon in interkvartilni razpon nič.

Številčni podatki so sami po sebi spremenljivi. Vsaka spremenljivka lahko sprejme veliko različne pomene. Na primer, različni vzajemni skladi imajo različne stopnje donosa in izgube. Zaradi variabilnosti numeričnih podatkov je zelo pomembno preučevati ne le ocene povprečja, ki so sumarne narave, ampak tudi ocene variance, ki označujejo širjenje podatkov.

Disperzija in standardni odklon vam omogočata, da ocenite širjenje podatkov okoli povprečne vrednosti, z drugimi besedami, določite, koliko vzorčnih elementov je nižjih od povprečja in koliko večjih. Disperzija ima nekaj dragocenih matematičnih lastnosti. Vendar je njegova vrednost kvadrat merske enote - kvadratni odstotek, kvadratni dolar, kvadratni palec itd. Zato je naravna mera razpršenosti standardni odklon, ki je izražen v običajnih enotah odstotka dohodka, dolarjih ali palcih.

Standardni odklon vam omogoča, da ocenite količino variacije vzorčnih elementov okoli povprečne vrednosti. V skoraj vseh situacijah je večina opazovanih vrednosti v območju plus ali minus en standardni odklon od povprečja. Posledično je ob poznavanju aritmetične sredine vzorčnih elementov in standardnega vzorčnega odklona mogoče določiti interval, ki mu pripada večina podatkov.

Standardni odklon donosov za 15 vzajemnih skladov z zelo visokim tveganjem je 6,6 (slika 9). To pomeni, da se donosnost večine skladov od povprečne vrednosti razlikuje za največ 6,6 % (tj. niha v območju od –S= 6,2 – 6,6 = –0,4 do +S= 12,8). Pravzaprav je petletni povprečni letni donos 53,3 % (8 od 15) skladov znotraj tega razpona.

riž. 9. Standardni odklon vzorca

Upoštevajte, da so pri seštevanju kvadratov razlik vzorčni elementi, ki so bolj oddaljeni od povprečja, ponderirani močneje kot elementi, ki so bližje povprečju. Ta lastnost je glavni razlog, zakaj se aritmetična sredina najpogosteje uporablja za oceno srednje vrednosti porazdelitve.

Koeficient variacije

Za razliko od prejšnjih ocen razpršenosti je koeficient variacije relativna ocena. Vedno se meri v odstotkih in ne v enotah izvirnih podatkov. Koeficient variacije, označen s simboli CV, meri disperzijo podatkov okoli srednje vrednosti. Koeficient variacije je enak standardni deviaciji, deljeni z aritmetično sredino in pomnoženi s 100 %:

Kje S- standardni odklon vzorca, - povprečje vzorca.

Koeficient variacije omogoča primerjavo dveh vzorcev, katerih elementi so izraženi v različnih merskih enotah. Na primer, vodja službe za dostavo pošte namerava obnoviti svojo floto tovornjakov. Pri nalaganju paketov je treba upoštevati dve omejitvi: težo (v funtih) in prostornino (v kubičnih čevljih) vsakega paketa. Recimo, da je v vzorcu, ki vsebuje 200 vreč, povprečna teža 26,0 funtov, standardni odklon teže 3,9 funtov, povprečna prostornina vreče 8,8 kubičnih čevljev in standardni odklon prostornine 2,2 kubičnih čevljev. Kako primerjati razlike v teži in prostornini paketov?

Ker se merske enote za težo in prostornino med seboj razlikujejo, mora vodja primerjati relativno širjenje teh količin. Koeficient variacije teže je CV W = 3,9 / 26,0 * 100 % = 15 %, koeficient variacije prostornine pa je CV V = 2,2 / 8,8 * 100 % = 25 %. Tako je relativna variacija v prostornini paketov veliko večja od relativne variacije v njihovi teži.

Obrazec za distribucijo

Tretja pomembna lastnost vzorca je oblika njegove porazdelitve. Ta porazdelitev je lahko simetrična ali asimetrična. Za opis oblike porazdelitve je treba izračunati njeno povprečje in mediano. Če sta oba enaka, velja, da je spremenljivka simetrično porazdeljena. Če je srednja vrednost spremenljivke večja od mediane, ima njena porazdelitev pozitivno asimetrijo (slika 10). Če je mediana večja od povprečja, je porazdelitev spremenljivke negativno poševna. Pozitivna asimetrija se pojavi, ko se povprečje poveča na nenavadno visoke vrednosti. Negativna asimetrija se pojavi, ko se povprečje zmanjša na nenavadno majhne vrednosti. Spremenljivka je simetrično porazdeljena, če ne zavzame nobenih ekstremnih vrednosti v obe smeri, tako da se velike in majhne vrednosti spremenljivke medsebojno izničijo.

riž. 10. Tri vrste distribucij

Podatki, prikazani na lestvici A, so negativno poševni. Ta slika prikazuje dolg rep in poševnost v levo, ki jo povzroča prisotnost nenavadno majhnih vrednosti. Te izjemno majhne vrednosti premaknejo povprečno vrednost v levo, zaradi česar je manjša od mediane. Podatki, prikazani na lestvici B, so porazdeljeni simetrično. Leva in desna polovica porazdelitve sta zrcalni sliki samih sebe. Velike in majhne vrednosti se uravnotežijo, povprečje in mediana pa sta enaki. Podatki, prikazani na lestvici B, so pozitivno izkrivljeni. Ta slika prikazuje dolg rep in poševnost v desno, ki sta posledica prisotnosti nenavadno visokih vrednosti. Te prevelike vrednosti premaknejo povprečje v desno, zaradi česar je večje od mediane.

V Excelu lahko opisno statistiko pridobite z dodatkom Paket analize. Pojdite skozi meni podatkiAnaliza podatkov, v oknu, ki se odpre, izberite vrstico Opisna statistika in kliknite V redu. V oknu Opisna statistika obvezno navedite Interval vnosa(Slika 11). Če želite videti opisno statistiko na istem listu kot izvirni podatki, izberite izbirni gumb Izhodni interval in določite celico, kamor naj bo postavljen zgornji levi kot prikazane statistike (v našem primeru $C$1). Če želite izpisati podatke na nov list ali nov delovni zvezek, morate samo izbrati ustrezen izbirni gumb. Potrdite polje zraven Sumarna statistika. Po želji lahko tudi izbirate težavnostna stopnja,kth najmanjši ink-ti največji.

Če na depozit podatki v območju Analiza ne vidite ikone Analiza podatkov, morate najprej namestiti dodatek Paket analize(glej na primer).

riž. 11. Opisna statistika petletnih povprečnih letnih donosov skladov z zelo visokimi stopnjami tveganja, izračunana z dodatkom Analiza podatkov Excel programi

Excel izračuna številne zgoraj obravnavane statistike: povprečje, mediano, način, standardni odklon, varianco, razpon ( interval), najmanjša, največja in velikost vzorca ( preverite). Excel izračuna tudi nekatere statistike, ki so za nas nove: standardna napaka, kurtosis in asimetrija. Standardna napaka enaka standardnemu odklonu, deljenemu s kvadratnim korenom velikosti vzorca. Asimetrija označuje odstopanje od simetrije porazdelitve in je funkcija, ki je odvisna od kuba razlik med vzorčnimi elementi in povprečno vrednostjo. Kurtoza je merilo relativne koncentracije podatkov okoli povprečja v primerjavi z repi porazdelitve in je odvisno od razlik med vzorčnimi elementi in povprečjem, povišanim na četrto potenco.

Izračunaj opisno statistiko za prebivalstvo

Srednja vrednost, razpon in oblika zgoraj obravnavane porazdelitve so značilnosti, določene iz vzorca. Če pa nabor podatkov vsebuje numerične meritve celotne populacije, je mogoče njene parametre izračunati. Takšni parametri vključujejo pričakovano vrednost, disperzijo in standardni odklon populacije.

Pričakovana vrednost enaka vsoti vseh vrednosti v populaciji, deljeni z velikostjo populacije:

Kje µ - pričakovana vrednost, Xjaz- jaz th opazovanje spremenljivke X, N- obseg splošne populacije. V Excelu za izračun matematično pričakovanje Uporabljena je ista funkcija kot za aritmetično sredino: =AVERAGE().

Varianca populacije enaka vsoti kvadratov razlik med elementi generalne populacije in mat. pričakovanje deljeno z velikostjo populacije:

Kje σ 2– razpršenost splošne populacije. V Excelu pred različico 2007 se funkcija =VARP() uporablja za izračun variance populacije, začenši z različico 2010 =VARP().

Standardni odklon populacije enako kvadratnemu korenu variance populacije:

V Excelu pred različico 2007 se funkcija =STDEV() uporablja za izračun standardnega odklona populacije, začenši z različico 2010 =STDEV.Y(). Upoštevajte, da se formule za populacijsko varianco in standardni odklon razlikujejo od formul za izračun vzorčne variance in standardnega odklona. Pri izračunu vzorčne statistike S 2 in S imenovalec ulomka je n – 1, in pri izračunu parametrov σ 2 in σ - obseg splošne populacije N.

Osnovno pravilo

V večini primerov je velik delež opazovanj skoncentriran okoli mediane in tvori skupino. V nizih podatkov s pozitivno asimetrijo se ta grozd nahaja levo (tj. pod) matematičnim pričakovanjem, v nizih z negativno asimetrijo pa se ta gruče nahaja desno (tj. nad) matematičnim pričakovanjem. Pri simetričnih podatkih sta povprečje in mediana enaki, opazovanja pa se združujejo okoli povprečja in tvorijo zvonasto porazdelitev. Če porazdelitev ni jasno poševna in so podatki koncentrirani okoli težišča, je pravilo, ki ga je mogoče uporabiti za oceno variabilnosti, da če imajo podatki zvonasto porazdelitev, je približno 68 % opazovanj znotraj eno standardno deviacijo pričakovane vrednosti.približno 95 % opazovanj ni več kot dve standardni deviaciji oddaljeno od matematičnega pričakovanja in 99,7 % opazovanj ni več kot tri standardne deviacije oddaljeno od matematičnega pričakovanja.

Tako standardni odklon, ki je ocena povprečne variacije okoli pričakovane vrednosti, pomaga razumeti, kako so opazovanja porazdeljena, in identificirati izstopajoče vrednosti. Osnovno pravilo je, da se za zvonaste porazdelitve samo ena vrednost od dvajsetih razlikuje od matematičnega pričakovanja za več kot dva standardna odklona. Zato so vrednosti zunaj intervala µ ± 2σ, se lahko štejejo za izstopajoče. Poleg tega se samo tri od 1000 opazovanj razlikujejo od matematičnega pričakovanja za več kot tri standardne deviacije. Torej vrednosti izven intervala µ ± 3σ so skoraj vedno izstopajoči. Za porazdelitve, ki so zelo poševne ali niso zvonaste, je mogoče uporabiti pravilo Bienamay-Chebysheva.

Pred več kot sto leti sta matematika Bienamay in Chebyshev neodvisno odkrila uporabno lastnost standardnega odklona. Ugotovili so, da je za kateri koli niz podatkov, ne glede na obliko porazdelitve, odstotek opazovanj, ki ležijo v oddaljenosti od k standardni odkloni od matematičnega pričakovanja, ne manj (1 – 1/ k 2)*100 %.

Na primer, če k= 2, pravilo Bienname-Chebyshev navaja, da mora vsaj (1 – (1/2) 2) x 100 % = 75 % opazovanj ležati v intervalu µ ± 2σ. To pravilo velja za vse k, ki presega eno. Pravilo Bienamay-Chebysheva je zelo splošno in velja za porazdelitve katere koli vrste. Določa najmanjše število opazovanj, od katerih razdalja do matematičnega pričakovanja ne presega določene vrednosti. Če pa je porazdelitev v obliki zvona, pravilo natančneje oceni koncentracijo podatkov okoli pričakovane vrednosti.

Izračun deskriptivne statistike za porazdelitev na podlagi frekvence

Če izvirni podatki niso na voljo, postane frekvenčna porazdelitev edini vir informacij. V takšnih situacijah je mogoče izračunati približne vrednosti kvantitativnih kazalcev porazdelitve, kot so aritmetična sredina, standardni odklon in kvartili.

Če so vzorčni podatki predstavljeni kot frekvenčna porazdelitev, je mogoče izračunati približek aritmetične sredine ob predpostavki, da so vse vrednosti v vsakem razredu koncentrirane na sredini razreda:

Kje - povprečje vzorca, n- število opazovanj ali velikost vzorca, z- število razredov v frekvenčni porazdelitvi, m j- sredina j razred, fj- ustrezna frekvenca j- razred.

Za izračun standardnega odklona od frekvenčne porazdelitve se tudi predpostavlja, da so vse vrednosti znotraj vsakega razreda koncentrirane na sredini razreda.

Da bi razumeli, kako se kvartili serije določajo na podlagi frekvenc, upoštevajte izračun spodnjega kvartila na podlagi podatkov za leto 2013 o porazdelitvi ruskega prebivalstva glede na povprečni denarni dohodek na prebivalca (slika 12).

riž. 12. Delež ruskega prebivalstva s povprečnim denarnim dohodkom na prebivalca na mesec, rubljev

Za izračun prvega kvartila niza intervalnih variacij lahko uporabite formulo:

kjer je Q1 vrednost prvega kvartila, xQ1 je spodnja meja intervala, ki vsebuje prvi kvartil (interval je določen z akumulirano frekvenco, ki prva preseže 25 %); i – vrednost intervala; Σf – vsota frekvenc celotnega vzorca; verjetno vedno enako 100 %; SQ1–1 – akumulirana frekvenca intervala pred intervalom, ki vsebuje spodnji kvartil; fQ1 – frekvenca intervala, ki vsebuje spodnji kvartil. Formula za tretji kvartil se razlikuje po tem, da morate na vseh mestih uporabiti Q3 namesto Q1 in nadomestiti ¾ namesto ¼.

V našem primeru (slika 12) je spodnji kvartil v območju 7000,1 – 10.000, katerega akumulirana frekvenca je 26,4 %. Spodnja meja tega intervala je 7000 rubljev, vrednost intervala je 3000 rubljev, akumulirana frekvenca intervala pred intervalom, ki vsebuje spodnji kvartil, je 13,4%, frekvenca intervala, ki vsebuje spodnji kvartil, je 13,0%. Tako: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 rub.

Pasti, povezane z opisno statistiko

V tej objavi smo pogledali, kako opisati nabor podatkov z uporabo različnih statističnih podatkov, ki ocenjujejo njegovo povprečje, širjenje in porazdelitev. Naslednji korak je analiza in interpretacija podatkov. Do sedaj smo proučevali objektivne lastnosti podatkov, sedaj pa prehajamo na njihovo subjektivno interpretacijo. Raziskovalec se sooča z dvema napakama: nepravilno izbranim predmetom analize in nepravilno interpretacijo rezultatov.

Analiza donosov 15 zelo tveganih vzajemnih skladov je precej nepristranska. Pripeljal je do povsem objektivnih zaključkov: vsi vzajemni skladi imajo različne donose, razpon donosov skladov se giblje od -6,1 do 18,5, povprečna donosnost pa je 6,08. Objektivnost analize podatkov je zagotovljena s pravilno izbiro sumarnih kvantitativnih kazalnikov porazdelitve. Obravnavanih je bilo več metod za ocenjevanje povprečja in razpršenosti podatkov ter prikazane njihove prednosti in slabosti. Kako izbrati pravo statistiko za objektivno in nepristransko analizo? Če je porazdelitev podatkov rahlo poševna, ali bi morali izbrati mediano namesto povprečja? Kateri indikator natančneje označuje širjenje podatkov: standardni odklon ali razpon? Ali naj poudarimo, da je distribucija pozitivno nagnjena?

Po drugi strani pa je interpretacija podatkov subjektiven proces. Različni ljudje pridejo do različnih zaključkov pri interpretaciji istih rezultatov. Vsak ima svoje stališče. Nekdo meni, da so skupni povprečni letni donosi 15 skladov z zelo visoko stopnjo tveganja dobri in je zelo zadovoljen s prejetim dohodkom. Drugi morda menijo, da imajo ti skladi prenizke donose. Tako je treba subjektivnost nadomestiti s poštenostjo, nevtralnostjo in jasnostjo sklepov.

Etična vprašanja

Analiza podatkov je neločljivo povezana z etičnimi vprašanji. Biti morate kritični do informacij, ki jih širijo časopisi, radio, televizija in internet. Sčasoma se boste naučili biti skeptični ne le do rezultatov, ampak tudi do ciljev, predmeta in objektivnosti raziskave. Slavni britanski politik Benjamin Disraeli je to najbolje povedal: "Obstajajo tri vrste laži: laži, preklete laži in statistika."

Kot je navedeno v opombi, se pri izbiri rezultatov, ki naj bodo predstavljeni v poročilu, pojavijo etična vprašanja. Morali bi objaviti tako pozitivne kot negativni rezultati. Poleg tega morajo biti pri izdelavi poročila ali pisnega poročila rezultati predstavljeni pošteno, nevtralno in objektivno. Treba je razlikovati med neuspešnimi in nepoštenimi predstavitvami. Za to je treba ugotoviti, kakšne so bile namere govorca. Včasih govorec pomembne informacije izpusti zaradi nevednosti, včasih pa namerno (na primer, če z aritmetično sredino oceni povprečje očitno izkrivljenih podatkov, da bi dobil želeni rezultat). Nepošteno je tudi zamolčanje rezultatov, ki ne ustrezajo raziskovalčevemu stališču.

Uporabljeno je gradivo iz knjige Levin et al. Statistika za menedžerje. – M.: Williams, 2004. – str. 178–209

Funkcija QUARTILE je bila ohranjena zaradi združljivosti s starejšimi različicami Excela.