Kako se računa prosjek. Izračunavanje prosjeka


Prosječna vrijednost je generalizirajući pokazatelj koji karakterizira tipičnu razinu fenomena. Izražava vrijednost atributa, povezanu s jedinicom populacije.

Prosječna vrijednost je:

1) najtipičnija vrijednost atributa za populaciju;

2) obujam znaka populacije, ravnomjerno raspoređen među jedinicama populacije.

Karakteristika za koju se izračunava prosječna vrijednost u statistici se naziva "prosječno".

Prosjek uvijek generalizira kvantitativnu varijaciju svojstva, tj. u prosječnim vrijednostima poništavaju se individualne razlike u jedinicama populacije zbog slučajnih okolnosti. Za razliku od prosjeka, apsolutna vrijednost koja karakterizira razinu obilježja pojedine jedinice populacije ne dopušta usporedbu vrijednosti obilježja za jedinice koje pripadaju različitim populacijama. Dakle, ako trebate usporediti razine primanja radnika u dva poduzeća, onda ne možete usporediti prema dana karakteristika dva radnika iz različitih tvrtki. Plaće radnika odabranih za usporedbu možda nisu tipične za ta poduzeća. Ako uspoređujemo veličinu fondova plaća u promatranim poduzećima, tada se ne uzima u obzir broj zaposlenih te je stoga nemoguće utvrditi gdje je razina plaća viša. U konačnici, mogu se uspoređivati ​​samo prosjeci, tj. Koliko prosječno zarađuje jedan radnik u svakoj tvrtki? Dakle, postoji potreba za izračunavanjem Srednja veličina kao generalizirajuća karakteristika stanovništva.

Važno je napomenuti da u procesu usrednjavanja agregatna vrijednost razina atributa ili njezina konačna vrijednost (u slučaju izračuna prosječnih razina u vremenskoj seriji) mora ostati nepromijenjena. Drugim riječima, pri izračunavanju prosječne vrijednosti, volumen svojstva koje se proučava ne bi trebao biti iskrivljen, a izrazi napravljeni pri izračunavanju prosjeka moraju nužno imati smisla.

Izračunavanje prosjeka jedna je od uobičajenih tehnika generalizacije; prosječni pokazatelj negira ono opće tipično (tipično) za sve jedinice proučavane populacije, istovremeno zanemarujući razlike između pojedinih jedinica. U svakoj pojavi i njenom razvoju postoji kombinacija slučajnosti i nužde. Prilikom izračunavanja prosjeka na temelju djelovanja zakona velike brojke nesreće se međusobno poništavaju, uravnotežuju, stoga je moguće apstrahirati od beznačajnih obilježja pojave, od kvantitativnih vrijednosti atributa u svakom konkretnom slučaju. U sposobnosti apstrahiranja od slučajnosti pojedinačnih vrijednosti, fluktuacija, leži znanstvena vrijednost prosjeka kao generalizirajuće karakteristike agregata.

Kako bi prosjek bio doista tipičan, mora se izračunati uzimajući u obzir određena načela.

Zadržimo se na nekima generalni principi korištenje prosjeka.

1. Prosjek treba odrediti za populacije koje se sastoje od kvalitativno homogenih jedinica.

2. Prosjek treba izračunati za populaciju koja se sastoji od dovoljno veliki broj jedinice.

3. Prosjek treba izračunati za populaciju čije su jedinice u normalnom, prirodnom stanju.

4. Prosjek treba izračunati uzimajući u obzir ekonomski sadržaj pokazatelja koji se proučava.

5.2. Vrste prosjeka i metode njihova izračunavanja

Razmotrimo sada vrste prosjeka, značajke njihovog izračuna i područja primjene. Prosječne vrijednosti podijeljene su u dvije velike klase: prosjeci snage, strukturni prosjeci.

Prosjeci po zakonu potencije uključuju najpoznatije i najčešće korištene vrste, kao što su geometrijska sredina, aritmetička sredina i srednji kvadrat.

Modus i medijan smatraju se strukturnim prosjecima.

Zadržimo se na prosjecima snage. Prosjeci snage, ovisno o prikazu početnih podataka, mogu biti jednostavni i težinski. jednostavni prosjek izračunava se iz negrupiranih podataka i ima sljedeći opći oblik:

,

gdje je X i varijanta (vrijednost) prosječnog obilježja;

n je broj opcija.

Prosječne težine izračunava se prema grupiranim podacima i ima opći oblik

,

gdje je X i varijanta (vrijednost) prosječne značajke ili srednja vrijednost intervala u kojem se varijanta mjeri;

m je eksponent srednje vrijednosti;

f i - frekvencija koja pokazuje koliko se puta pojavljuje i-ta vrijednost prosječni znak.

Ako izračunamo sve vrste prosjeka za iste početne podatke, tada njihove vrijednosti neće biti iste. Ovdje vrijedi pravilo majoracije prosjeka: s povećanjem eksponenta m, odgovarajuća prosječna vrijednost također raste:

U statističkoj praksi češće od drugih vrsta ponderiranih prosjeka koriste se aritmetički i harmonijski ponderirani prosjeci.

Vrste moćnih sredstava

Vrsta snage
sredini

Indeks
stupnjevi (m)

Formula za izračun

Jednostavan

ponderiran

harmonik

Geometrijski

Aritmetika

kvadratni

kubični

Harmonijska sredina ima složeniju strukturu od aritmetičke sredine. Harmonijska sredina se koristi za izračune kada ponderi nisu jedinice populacije - nositelji svojstva, već umnošci tih jedinica i vrijednosti svojstva (tj. m = Xf). Prosječno harmonično vrijeme zastoja treba koristiti u slučajevima određivanja, na primjer, prosječnih troškova rada, vremena, materijala po jedinici proizvodnje, po dijelu za dva (tri, četiri itd.) poduzeća, radnika angažiranih u proizvodnji ista vrsta proizvoda, isti dio, proizvod.

Glavni zahtjev za formulu za izračun prosječne vrijednosti je da sve faze izračuna imaju stvarno smisleno opravdanje; rezultirajuća prosječna vrijednost treba zamijeniti pojedinačne vrijednosti atributa za svaki objekt bez prekidanja veze između pojedinačnih i sumarnih pokazatelja. Drugim riječima, prosječnu vrijednost treba izračunati na način da kada se svaka pojedinačna vrijednost usrednjenog pokazatelja zamijeni njegovom prosječnom vrijednošću, neki konačni zbirni pokazatelj, na ovaj ili onaj način povezan s usrednjenim, ostane nepromijenjen. Ovaj rezultat se zove određujući jer priroda njegovog odnosa s pojedinačnim vrijednostima određuje specifičnu formulu za izračunavanje prosječne vrijednosti. Pokažimo to pravilo na primjeru geometrijske sredine.

Formula geometrijske sredine

najčešće se koristi pri izračunavanju prosječne vrijednosti pojedinih relativnih vrijednosti dinamike.

Geometrijska sredina se koristi ako je dan niz lančanih relativnih vrijednosti dinamike koje pokazuju, na primjer, povećanje proizvodnje u odnosu na razinu prethodne godine: i 1 , i 2 , i 3 ,…, i n . Očito, obujam proizvodnje u prošloj godini određen je njegovom početnom razinom (q 0) i kasnijim rastom tijekom godina:

q n =q 0 × i 1 × i 2 ×…×i n .

Uzimajući q n kao određujući pokazatelj i zamjenjujući pojedinačne vrijednosti dinamičkih pokazatelja prosječnim, dolazimo do relacije

Odavde



Za proučavanje se koristi posebna vrsta prosjeka - strukturni prosjeci unutarnja struktura nizu distribucije karakterističnih vrijednosti, kao i za procjenu prosječne vrijednosti (potencnog tipa), ako se prema raspoloživim statističkim podacima ne može izvršiti njezin izračun (npr. ako u razmatranom primjeru nije bilo podataka o oba obujmu proizvodnje i visini troškova po grupama poduzeća) .

Indikatori se najčešće koriste kao strukturni prosjeci. moda - najčešće ponavljana vrijednost obilježja – i medijan - vrijednost značajke koja dijeli uređeni niz svojih vrijednosti na dva dijela jednaka po broju. Kao rezultat toga, u jednoj polovici populacijskih jedinica vrijednost atributa ne prelazi srednju razinu, au drugoj polovici nije niža od nje.

Ako značajka koja se proučava ima diskretne vrijednosti, tada posebne poteškoće pri izračunu moda i medijana se ne događa. Ako su podaci o vrijednostima atributa X prikazani u obliku uređenih intervala njegove promjene (intervalne serije), izračun moda i medijana postaje nešto kompliciraniji. Budući da vrijednost medijana dijeli cijelu populaciju na dva dijela jednaka po broju, ona završava u jednom od intervala značajke X. Interpolacijom se vrijednost medijana nalazi u ovom intervalu medijana:

,

gdje je X Me donja granica srednjeg intervala;

h Me je njegova vrijednost;

(Zbroj m) / 2 - polovica ukupnog broja opažanja ili polovica volumena pokazatelja koji se koristi kao ponder u formulama za izračun prosječne vrijednosti (u apsolutnom ili relativnom iznosu);

S Me-1 je zbroj opažanja (ili volumen značajke ponderiranja) akumuliran prije početka srednjeg intervala;

m Me je broj opažanja ili volumen značajke ponderiranja u srednjem intervalu (također u apsolutnom ili relativnom smislu).

Prilikom izračunavanja modalne vrijednosti značajke prema podacima intervalne serije, potrebno je obratiti pozornost na činjenicu da su intervali isti, jer o tome ovisi pokazatelj učestalosti vrijednosti značajke X. Za niz intervala s jednakim intervalima, vrijednost načina se određuje kao

,

gdje je X Mo donja vrijednost modalnog intervala;

m Mo je broj opažanja ili volumen značajke težine u modalnom intervalu (u apsolutnom ili relativnom smislu);

m Mo-1 - isto za interval koji prethodi modalnom;

m Mo+1 - isto za interval koji slijedi modal;

h je vrijednost intervala promjene svojstva u skupinama.

ZADATAK 1

Za grupu industrijskih poduzeća za izvještajnu godinu dostupni su sljedeći podaci


poduzeća

Obim proizvodnje, milijun rubalja

Prosječan broj zaposlenih, pers.

Dobit, tisuća rubalja

197,7

10,0

13,5

22,8

1500

136,2

465,5

18,4

1412

97,6

296,2

12,6

1200

44,4

584,1

22,0

1485

146,0

480,0

119,0

1420

110,4

57805

21,6

1390

138,7

204,7

30,6

466,8

19,4

1375

111,8

292,2

113,6

1200

49,6

423,1

17,6

1365

105,8

192,6

30,7

360,5

14,0

1290

64,8

280,3

10,2

33,3

Potrebno je izvršiti grupiranje poduzeća za razmjenu proizvoda, uzimajući sljedeće intervale:

    do 200 milijuna rubalja

    od 200 do 400 milijuna rubalja

  1. od 400 do 600 milijuna rubalja

    Za svaku skupinu i za sve zajedno odredite broj poduzeća, obujam proizvodnje, prosječan broj zaposlenih, prosječni učinak po zaposlenom. Rezultate grupiranja potrebno je prikazati u obliku statističke tablice. Formulirajte zaključak.

    RIJEŠENJE

    Napravimo grupiranje poduzeća za razmjenu proizvoda, izračunavanje broja poduzeća, obujma proizvodnje, prosječnog broja zaposlenih prema formuli jednostavnog prosjeka. Rezultati grupiranja i izračuna sažeti su u tablici.

    Grupe prema obujmu proizvodnje


    poduzeća

    Obim proizvodnje, milijun rubalja

    Prosječna godišnja cijena dugotrajne imovine, milijun rubalja

    prosječno spavanje

    sočan broj zaposlenih, pers.

    Dobit, tisuća rubalja

    Prosječni učinak po radniku

    1 grupa

    do 200 milijuna rubalja

    1,8,12

    197,7

    204,7

    192,6

    10,0

    9,4

    8,8

    900

    817

    13,5

    30,6

    30,7

    28,2

    2567

    74,8

    0,23

    Prosječna razina

    198,3

    24,9

    2 grupa

    od 200 do 400 milijuna rubalja

    4,10,13,14

    196,2

    292,2

    360,5

    280,3

    12,6

    113,6

    14,0

    10,2

    1200

    1200

    1290

    44,4

    49,6

    64,8

    33,3

    1129,2

    150,4

    4590

    192,1

    0,25

    Prosječna razina

    282,3

    37,6

    1530

    64,0

    3 grupa

    od 400 do

    600 milijuna

    2,3,5,6,7,9,11

    592

    465,5

    584,1

    480,0

    578,5

    466,8

    423,1

    22,8

    18,4

    22,0

    119,0

    21,6

    19,4

    17,6

    1500

    1412

    1485

    1420

    1390

    1375

    1365

    136,2

    97,6

    146,0

    110,4

    138,7

    111,8

    105,8

    3590

    240,8

    9974

    846,5

    0,36

    Prosječna razina

    512,9

    34,4

    1421

    120,9

    Ukupno ukupno

    5314,2

    419,4

    17131

    1113,4

    0,31

    Zbirni prosjek

    379,6

    59,9

    1223,6

    79,5

    Zaključak. Dakle, u promatranom agregatu, najveći broj poduzeća prema proizvodu spada u treću skupinu - sedam, odnosno polovica poduzeća. Vrijednost prosječne godišnje vrijednosti dugotrajne imovine također je u ovoj skupini, kao i velika vrijednost prosječnog broja zaposlenih - 9974 ljudi, poduzeća prve skupine su najmanje profitabilna.

    ZADATAK 2

    Imamo sljedeće podatke o poduzećima tvrtke

    Broj poduzeća koje pripada poduzeću

    I četvrt

    II četvrtina

    Izlaz, tisuća rubalja

    Odrađeno radnim čovjek-danima

    Prosječna proizvodnja po radniku po danu, rub.

    59390,13

Prosječna vrijednost- ovo je generalizirajući pokazatelj koji karakterizira kvalitativno homogenu populaciju prema određenom kvantitativnom svojstvu. Na primjer, prosječna dob osobe osuđene za krađu.

U pravosudnoj statistici, prosjeci se koriste za karakterizaciju:

Prosječni rokovi razmatranja predmeta ove kategorije;

Zahtjev srednje veličine;

Prosječan broj okrivljenika po predmetu;

Prosječan iznos štete;

Prosječno opterećenje sudaca itd.

Prosječna vrijednost je uvijek imenovana i ima istu dimenziju kao atribut posebne jedinice populacije. Svaka prosječna vrijednost karakterizira proučavanu populaciju prema bilo kojem promjenjivom atributu, dakle iza svakog prosjeka stoji niz distribucije jedinica ove populacije prema proučavanom atributu. Izbor vrste prosjeka određen je sadržajem pokazatelja i početnim podacima za izračun prosjeka.

Sve vrste prosjeka koji se koriste u statističkim studijama spadaju u dvije kategorije:

1) prosjeci snage;

2) strukturni prosjeci.

Prva kategorija prosjeka uključuje: aritmetička sredina, harmonijska sredina, geometrijska sredina I korijen znači kvadrat . Druga kategorija je moda I medijan. Štoviše, svaka od navedenih vrsta prosjeka snage može imati dva oblika: jednostavan I ponderiran . Jednostavan oblik srednje vrijednosti koristi se za dobivanje srednje vrijednosti osobine koja se proučava kada se izračun temelji na negrupiranim statistikama ili kada se svaka varijanta pojavljuje samo jednom u populaciji. Ponderirani prosjeci nazivaju se vrijednostima koje uzimaju u obzir da opcije za vrijednosti značajke mogu imati različite brojeve, pa se stoga svaka opcija mora pomnožiti s odgovarajućom učestalošću. Drugim riječima, svaka opcija je "vagana" svojom učestalošću. Frekvencija se naziva statistička težina.

jednostavna aritmetička sredina- najčešća vrsta medija. Jednak je zbroju pojedinačnih karakterističnih vrijednosti podijeljenih s ukupni broj ove vrijednosti:

Gdje x 1 ,x 2 , … ,x N- pojedinačne vrijednosti atributa varijable (opcije), i N - broj jedinica populacije.

Aritmetički ponderirani prosjek koristi se kada su podaci prikazani u obliku serije distribucije ili grupiranja. Izračunava se kao zbroj umnožaka opcija i njihovih odgovarajućih učestalosti, podijeljen sa zbrojem učestalosti svih opcija:

Gdje x i- značenje ja-th varijante obilježja; fi- učestalost ja th mogućnosti.

Stoga je svaka vrijednost varijante ponderirana svojom frekvencijom, zbog čega se frekvencije ponekad nazivaju statističkim težinama.


Komentar. Kada je riječ o aritmetičkoj sredini bez navođenja njezine vrste, misli se na prostu aritmetičku sredinu.

Tablica 12

Riješenje. Za izračun koristimo formulu aritmetičkog ponderiranog prosjeka:

Dakle, u prosjeku su dva optuženika po kaznenom predmetu.

Ako se izračun prosječne vrijednosti provodi prema podacima grupiranim u obliku serije intervalne distribucije, tada prvo trebate odrediti srednje vrijednosti ​​​​​​svakog intervala x "i, zatim izračunati prosječnu vrijednost pomoću ponderirane formula aritmetičke sredine, u kojoj je x" i zamijenjen umjesto x i.

Primjer. Podaci o dobi osuđenih za krađe prikazani su u tablici:

Tablica 13

Odredite prosječnu dob kriminalaca osuđenih za krađu.

Riješenje. Kako biste odredili prosječnu dob kriminalaca na temelju serije varijacija intervala, prvo morate pronaći srednje vrijednosti intervala. Budući da je dan niz intervala s otvorenim prvim i zadnjim intervalima, vrijednosti tih intervala uzimaju se jednake vrijednostima susjednih zatvorenih intervala. U našem slučaju, vrijednost prvog i zadnjeg intervala je 10.

Sada nalazimo prosječnu dob kriminalaca pomoću formule ponderirane aritmetičke sredine:

Tako je prosječna dob počinitelja kaznenih djela osuđenih za krađu oko 27 godina.

Prosječna harmonijska jednostavna je recipročna vrijednost aritmetičke sredine recipročnih vrijednosti atributa:

gdje je 1/ x i su recipročni iznosi opcija, a N je broj jedinica populacije.

Primjer. U cilju utvrđivanja prosječnog godišnjeg opterećenja sudaca okružnog suda u procesuiranju kaznenih predmeta, provedeno je istraživanje opterećenosti 5 sudaca ovog suda. Prosječno vrijeme utrošeno na jedan kazneni predmet za svakog od ispitanih sudaca pokazalo se jednakim (u danima): 6, 0, 5, 6, 6, 3, 4, 9, 5, 4. Nađite prosječne troškove za jednog kaznenog predmeta i prosječno godišnje opterećenje sudaca ovog okružnog suda prilikom razmatranja kaznenih predmeta.

Riješenje. Za određivanje prosječnog vremena utrošenog na jedan kazneni predmet koristimo harmoničnu jednostavnu formulu:

Da bismo pojednostavili izračune u primjeru, uzmimo broj dana u godini jednak 365, uključujući vikende (ovo ne utječe na metodu izračuna, a pri izračunavanju sličnog pokazatelja u praksi potrebno je zamijeniti broj radnih sati dana u određenoj godini umjesto 365 dana). Tada će prosječno godišnje opterećenje sudaca ovog okružnog suda pri razmatranju kaznenih predmeta biti: 365 (dana): 5,56 ≈ 65,6 (predmeta).

Ako bismo koristili formulu jednostavne aritmetičke sredine za određivanje prosječnog vremena provedenog na jednom kaznenom predmetu, dobili bismo:

365 (dani): 5,64 ≈ 64,7 (slučajevi), tj. prosječno opterećenje sudaca bilo je manje.

Provjerimo valjanost ovog pristupa. U tu svrhu koristimo podatke o vremenu provedenom na jednom kaznenom predmetu za svakog suca i izračunavamo broj kaznenih predmeta koje svaki od njih razmatra godišnje.

Prema tome dobivamo:

365(dana) : 6 ≈ 61 (slučaj), 365(dana) : 5,6 ≈ 65,2 (slučaj), 365(dana) : 6,3 ≈ 58 (slučaj),

365(dana) : 4,9 ≈ 74,5 (slučajevi), 365(dana) : 5,4 ≈ 68 (slučajevi).

Sada izračunavamo prosječno godišnje opterećenje sudaca ovog okružnog suda prilikom razmatranja kaznenih predmeta:

Oni. prosječno godišnje opterećenje je isto kao i kod korištenja harmonijske sredine.

Dakle, korištenje aritmetičke sredine u ovaj slučaj ilegalno.

U slučajevima kada su poznate varijante značajke, njihove volumetrijske vrijednosti (umnožak varijanti po frekvenciji), ali su same frekvencije nepoznate, primjenjuje se formula harmonijskog ponderiranog prosjeka:

,

Gdje x i su vrijednosti opcija osobina, a w i su volumetrijske vrijednosti opcija ( w i = x i f i).

Primjer. Podaci o jediničnoj cijeni istovrsne robe koju proizvode različite ustanove zatvorskog sustava, te o obujmu njezine realizacije dati su u tablici 14.

Tablica 14

Pronađite prosječnu prodajnu cijenu proizvoda.

Riješenje. Pri izračunavanju prosječne cijene moramo koristiti omjer prodane količine i broja prodanih jedinica. Ne znamo broj prodanih jedinica, ali znamo količinu prodaje robe. Stoga, da bismo pronašli prosječnu cijenu prodane robe, koristimo formulu harmonijskog ponderiranog prosjeka. Dobivamo

Ako ovdje koristite formulu aritmetičke sredine, možete dobiti prosječnu cijenu koja će biti nerealna:

Geometrijska sredina izračunava se izdvajanjem korijena stupnja N iz produkta svih vrijednosti opcija značajki:

,

Gdje x 1 ,x 2 , … ,x N- pojedinačne vrijednosti varijable svojstva (opcije), i

N- broj populacijskih jedinica.

Ova vrsta prosjeka koristi se za izračunavanje prosječnih stopa rasta vremenskih serija.

korijen znači kvadrat koristi se za izračun standardne devijacije, koja je pokazatelj varijacije, a bit će objašnjena u nastavku.

Za utvrđivanje strukture stanovništva koriste se posebni prosjeci koji uključuju medijan I moda , ili tzv. strukturni prosjeci. Ako se aritmetička sredina izračunava na temelju korištenja svih varijanti vrijednosti atributa, tada medijan i mod karakteriziraju vrijednost varijante koja zauzima određeno prosječno mjesto u rangiranoj (poređenoj) seriji. Redoslijed jedinica statističke populacije može se izvršiti uzlaznim ili silaznim redoslijedom varijanti svojstva koje se proučava.

Medijan (ja) je vrijednost koja odgovara varijanti u sredini rangirane serije. Dakle, medijan je ona varijanta rangirane serije, s obje strane koje bi u ovoj seriji trebao biti jednak broj populacijskih jedinica.

Da biste pronašli medijan, prvo trebate odrediti njegov redni broj u rangiranom nizu pomoću formule:

gdje je N obujam niza (broj populacijskih jedinica).

Ako se niz sastoji od neparnog broja članova, tada je medijan jednak varijanti s brojem N Me . Ako se serija sastoji od parnog broja članova, tada se medijan definira kao aritmetička sredina dviju susjednih opcija koje se nalaze u sredini.

Primjer. Zadat je rangirani niz 1, 2, 3, 3, 6, 7, 9, 9, 10. Volumen niza je N = 9, što znači N Me = (9 + 1) / 2 = 5. Prema tome, Me = 6, tj. peta opcija. Ako je nizu dat 1, 5, 7, 9, 11, 14, 15, 16, tj. niza s parnim brojem članova (N = 8), tada je N Me = (8 + 1) / 2 = 4,5. Dakle, medijan je jednak polovici zbroja četvrte i pete opcije, tj. Ja = (9 + 11) / 2 = 10.

U nizu diskretnih varijacija, medijan je određen akumuliranim frekvencijama. Varijantne frekvencije, počevši od prve, zbrajaju se dok se ne premaši srednji broj. Vrijednost zadnjih zbrojenih opcija bit će medijan.

Primjer. Odredite srednji broj okrivljenika po kaznenom predmetu koristeći podatke u tablici 12.

Riješenje. U ovom slučaju, volumen niza varijacija je N = 154, dakle, N Me = (154 + 1) / 2 = 77,5. Zbrajajući frekvencije prve i druge opcije, dobivamo: 75 + 43 = 118, tj. premašili smo srednji broj. Dakle ja = 2.

U nizu intervalnih varijacija distribucije prvo označite interval u kojem će se nalaziti medijan. On je pozvan medijan . Ovo je prvi interval čija kumulativna frekvencija premašuje polovicu volumena niza varijacija intervala. Tada se brojčana vrijednost medijana određuje formulom:

Gdje x Ja- donja granica srednjeg intervala; i - vrijednost srednjeg intervala; S Me-1- akumulirana frekvencija intervala koji prethodi medijanu; f ja- učestalost srednjeg intervala.

Primjer. Odredite srednju dob počinitelja osuđenih za krađu, na temelju statistike prikazane u tablici 13.

Riješenje. Statistički podaci su prikazani nizom intervalnih varijacija, što znači da prvo odredimo srednji interval. Volumen populacije N = 162, dakle, srednji interval je interval 18-28, jer ovo je prvi interval, čija akumulirana frekvencija (15 + 90 = 105) premašuje polovicu volumena (162: 2 = 81) niza varijacija intervala. Sada je numerička vrijednost medijana određena gornjom formulom:

Tako je polovica osuđenih za krađe mlađa od 25 godina.

Moda (Mo) imenovati vrijednost atributa koji se najčešće nalazi u jedinicama populacije. Moda se koristi za identifikaciju vrijednosti osobine koja ima najveću distribuciju. Za diskretnu seriju, način će biti varijanta s najvećom frekvencijom. Na primjer, za diskretnu seriju prikazanu u tablici 3 Mo= 1, budući da ova vrijednost opcija odgovara najvišoj frekvenciji - 75. Da biste odredili način intervalne serije, prvo odredite modalni interval (interval s najvećom frekvencijom). Zatim se unutar tog intervala pronađe vrijednost značajke, koja može biti mod.

Njegova se vrijednost nalazi po formuli:

Gdje x Mo- donja granica modalnog intervala; i - vrijednost modalnog intervala; f Mo- frekvencija modalnog intervala; f Mo-1- učestalost intervala koji prethodi modalnom; f Mo+1- učestalost intervala koji slijedi nakon modalnog.

Primjer. Nađite dob kriminalaca osuđenih za krađu, čiji su podaci prikazani u tablici 13.

Riješenje. Najveća frekvencija odgovara intervalu 18-28, stoga mod mora biti u tom intervalu. Njegova vrijednost određena je gornjom formulom:

Tako je najveći broj kriminalaca osuđenih za krađe star 24 godine.

Prosječna vrijednost daje generalizirajuću karakteristiku ukupnosti fenomena koji se proučava. Međutim, dvije populacije s istim srednjim vrijednostima mogu se značajno razlikovati jedna od druge u pogledu stupnja fluktuacije (varijacije) u vrijednosti proučavanog svojstva. Na primjer, na jednom sudu određene su sljedeće kazne zatvora: 3, 3, 3, 4, 5, 5, 5, 12, 12, 15 godina, a na drugom - 5, 5, 6, 6, 7, 7 godina. , 7 , 8, 8, 8 godina. U oba slučaja aritmetička sredina je 6,7 godina. Međutim, ovi agregati se međusobno značajno razlikuju u rasponu pojedinačnih vrijednosti dodijeljene kazne zatvora u odnosu na prosječnu vrijednost.

A za prvi sud, gdje je ova varijacija prilično velika, prosječna zatvorska kazna ne odražava dobro cjelokupnu populaciju. Dakle, ako se pojedinačne vrijednosti atributa malo razlikuju jedna od druge, tada će aritmetička sredina biti prilično indikativna karakteristika svojstava ove populacije. U protivnom će aritmetička sredina biti nepouzdana karakteristika ove populacije i njena primjena u praksi je neučinkovita. Stoga je potrebno uzeti u obzir varijacije u vrijednostima proučavanog svojstva.

Varijacija- to su razlike u vrijednostima obilježja u različitim jedinicama dane populacije u istom razdoblju ili trenutku u vremenu. Pojam "varijacija" je latinskog porijekla - variatio, što znači razlika, promjena, kolebanje. Nastaje kao rezultat činjenice da se pojedinačne vrijednosti atributa formiraju pod kombiniranim utjecajem različitih čimbenika (uvjeta), koji se kombiniraju na različite načine u svakoj odvojeni slučaj. Za mjerenje varijacije svojstva koriste se različiti apsolutni i relativni pokazatelji.

Glavni pokazatelji varijacije uključuju sljedeće:

1) raspon varijacije;

2) prosječno linearno odstupanje;

3) disperzija;

4) standardna devijacija;

5) koeficijent varijacije.

Ukratko se zadržimo na svakom od njih.

Varijacija raspona R je najpristupačniji apsolutni pokazatelj u smislu lakoće izračuna, koji se definira kao razlika između najveće i najmanje vrijednosti atributa za jedinice ove populacije:

Raspon varijacije (raspon fluktuacija) - važan pokazatelj fluktuacije znaka, ali omogućuje da se vide samo ekstremna odstupanja, što ograničava opseg njegove primjene. Za točniju karakterizaciju varijacije svojstva na temelju njegove fluktuacije koriste se drugi pokazatelji.

Prosječno linearno odstupanje predstavlja aritmetičku sredinu apsolutnih vrijednosti odstupanja pojedinih vrijednosti svojstva od sredine i određuje se formulama:

1) Za negrupisani podaci

2) Za varijacijske serije

Međutim, najčešće korištena mjera varijacije je disperzija . Karakterizira mjeru širenja vrijednosti proučavane osobine u odnosu na njezinu prosječnu vrijednost. Varijanca se definira kao prosjek kvadrata odstupanja.

jednostavna varijanca za negrupisane podatke:

.

Ponderirana varijanca za seriju varijacija:

Komentar. U praksi je bolje koristiti sljedeće formule za izračun varijance:

Za jednostavnu varijancu

.

Za ponderirano odstupanje

Standardna devijacija je kvadratni korijen varijance:

Standardna devijacija je mjera pouzdanosti srednje vrijednosti. Što je manja standardna devijacija, to je populacija homogenija i aritmetička sredina bolje odražava cjelokupnu populaciju.

Gore razmotrene mjere disperzije (raspon varijacije, varijanca, standardna devijacija) su apsolutni pokazatelji prema kojima nije uvijek moguće prosuditi stupanj fluktuacije svojstva. U nekim problemima potrebno je koristiti relativne indekse raspršenja, od kojih je jedan koeficijent varijacije.

Koeficijent varijacije- izraženo kao postotak omjera standardne devijacije i aritmetičke sredine:

Koeficijent varijacije služi ne samo za usporednu procjenu varijacije različitih svojstava ili istog svojstva u različitim populacijama, već i za karakterizaciju homogenosti populacije. Statistička populacija smatra se kvantitativno homogenom ako koeficijent varijacije ne prelazi 33% (za distribucije bliske normalnoj distribuciji).

Primjer. Za 50 osuđenika upućenih na izdržavanje kazne koju je izrekao sud u odgojno-popravnu ustanovu kazneno-popravnog sustava postoje sljedeći podaci: 5, 4, 2, 1, 6, 3, 4, 3, 2, 2 , 5, 6, 4, 3 , 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6 , 4, 4, 3, 1 , 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.

1. Konstruirajte niz distribucije prema uvjetima zatvora.

2. Pronađite srednju vrijednost, varijancu i standardnu ​​devijaciju.

3. Izračunajte koeficijent varijacije i zaključite o homogenosti ili heterogenosti proučavane populacije.

Riješenje. Za konstruiranje diskretnog niza distribucije potrebno je odrediti varijante i frekvencije. Varijanta u ovom problemu je trajanje kazne, a učestalost je broj pojedine varijante. Izračunavanjem frekvencija dobivamo sljedeće diskretne serije distribucije:

Pronađite srednju vrijednost i varijancu. Budući da su statistički podaci predstavljeni diskretnim varijacijskim nizom, za njihov izračun koristit ćemo se formulama aritmetičkog ponderiranog prosjeka i varijance. Dobivamo:

= = 4,1;

= 5,21.

Sada izračunavamo standardnu ​​devijaciju:

Nalazimo koeficijent varijacije:

Posljedično, statistička populacija je kvantitativno heterogena.

Predmet: Statistika

Opcija broj 2

Prosječne vrijednosti koje se koriste u statistici

Uvod……………………………………………………………………………….3

Teorijski zadatak

Prosječna vrijednost u statistici, njezina suština i uvjeti primjene.

1.1. Suština prosječne vrijednosti i uvjeti korištenja………….4

1.2. Vrste prosječnih vrijednosti………………………………………………8

Praktičan zadatak

Zadatak 1,2,3…………………………………………………………………………14

Zaključak…………………………………………………………………………….21

Popis korištene literature………………………………………………...23

Uvod

Ovaj ispit sastoji se od dva dijela – teorijskog i praktičnog. U teoretskom dijelu će se detaljno razmotriti tako važna statistička kategorija kao što je prosječna vrijednost kako bi se identificirala njezina bit i uvjeti primjene, kao i identificirale vrste prosjeka i metode za njihov izračun.

Statistika, kao što znate, proučava masovne društveno-ekonomske pojave. Svaka od ovih pojava može imati različit kvantitativni izraz iste značajke. Na primjer, plaće radnika iste struke ili cijene na tržištu za isti proizvod i sl. Prosječne vrijednosti karakteriziraju kvalitativne pokazatelje komercijalne aktivnosti: troškove distribucije, dobit, profitabilnost itd.

Za proučavanje bilo koje populacije prema različitim (kvantitativno promjenjivim) karakteristikama, statistika koristi prosjeke.

Srednja esencija

Prosječna vrijednost je generalizirajuća kvantitativna karakteristika sveukupnosti istovrsnih pojava prema jednom promjenjivom atributu. U gospodarskoj praksi koristi se širok raspon pokazatelja koji se izračunavaju kao prosjeci.

Najvažnije svojstvo prosječne vrijednosti je da ona kao jedan broj predstavlja vrijednost određenog svojstva u cijeloj populaciji, unatoč njegovim kvantitativnim razlikama u pojedinim jedinicama populacije, te izražava ono zajedničko što je svojstveno svim jedinicama populacije. populacija koja se proučava. Dakle, kroz svojstvo jedinice populacije karakterizira cjelokupno stanovništvo u cjelini.

Prosjeci su povezani sa zakonom velikih brojeva. Bit ovog odnosa leži u činjenici da se pri usrednjavanju slučajnih odstupanja pojedinih veličina, zbog djelovanja zakona velikih brojeva, one međusobno poništavaju i u prosjeku se otkriva glavni trend razvoja, nužnost, pravilnost. Prosječne vrijednosti omogućuju usporedbu pokazatelja koji se odnose na populacije s različitim brojem jedinica.

U suvremenim uvjetima razvoja tržišnih odnosa u gospodarstvu, prosjeci služe kao alat za proučavanje objektivnih obrazaca društveno-ekonomskih pojava. Međutim, u ekonomske analize ne treba se ograničiti samo na prosječne pokazatelje, jer opći povoljni prosjeci mogu prikriti kako velike i ozbiljne nedostatke u poslovanju pojedinih gospodarskih subjekata, tako i klice novog, progresivnog. Na primjer, raspodjela stanovništva prema dohotku omogućuje prepoznavanje formiranja novih društvene grupe. Stoga je, uz prosječne statističke podatke, potrebno voditi računa o karakteristikama pojedinih jedinica populacije.

Prosječna vrijednost je rezultanta svih faktora koji utječu na fenomen koji se proučava. To jest, pri izračunavanju prosječnih vrijednosti, utjecaj slučajnih (perturbativnih, individualnih) faktora međusobno se poništava i stoga je moguće odrediti obrazac svojstven fenomenu koji se proučava. Adolf Quetelet je isticao da je značaj metode prosjeka u mogućnosti prijelaza iz pojedinačnog u opće, od slučajnog u pravilno, a postojanje prosjeka je kategorija objektivne stvarnosti.

Statistika proučava masovne pojave i procese. Svaka od ovih pojava ima kako zajednička cijelom skupu tako i posebna, individualna svojstva. Razlika između pojedinih pojava naziva se varijacija. Drugo svojstvo masovnih pojava je njihova inherentna bliskost karakteristika pojedinačnih pojava. Dakle, međudjelovanje elemenata skupa dovodi do ograničenja varijacije barem dijela njihovih svojstava. Taj trend objektivno postoji. Upravo u njegovoj objektivnosti leži razlog najšire primjene prosječnih vrijednosti u praksi i teoriji.

Prosječna vrijednost u statistici je generalizirajući pokazatelj koji karakterizira tipičnu razinu pojave u određenim uvjetima mjesta i vremena, odražavajući veličinu varijabilnog atributa po jedinici kvalitativno homogene populacije.

U gospodarskoj praksi koristi se širok raspon pokazatelja koji se izračunavaju kao prosjeci.

Uz pomoć metode prosjeka statistika rješava mnoge probleme.

Glavna vrijednost prosjeka je njihova generalizirajuća funkcija, odnosno zamjena mnogih različitih pojedinačnih vrijednosti obilježja prosječnom vrijednošću koja karakterizira cijeli skup pojava.

Ako prosječna vrijednost generalizira kvalitativno homogene vrijednosti svojstva, onda je to tipična karakteristika svojstva u određenoj populaciji.

Međutim, pogrešno je smanjiti ulogu prosječnih vrijednosti samo na karakterizaciju tipičnih vrijednosti značajki u populacijama koje su homogene u smislu ove značajke. U praksi moderna statistika puno češće koristi prosjeke koji generaliziraju jasno homogene pojave.

Prosječni nacionalni dohodak po glavi stanovnika, prosječni prinosi usjeva u zemlji, prosječna potrošnja različite proizvode prehrana - to su karakteristike države kao jedinstvenog gospodarskog sustava, to su tzv.prosjeci sustava.

Prosjeci sustava mogu karakterizirati i prostorne ili objektne sustave koji postoje istovremeno (država, industrija, regija, planet Zemlja, itd.), i dinamički sustavi produženo u vremenu (godina, desetljeće, godišnje doba itd.).

Najvažnije svojstvo prosječne vrijednosti je da odražava ono zajedničko koje je svojstveno svim jedinicama populacije koja se proučava. Vrijednosti atributa pojedinih jedinica populacije fluktuiraju u jednom ili drugom smjeru pod utjecajem mnogih čimbenika, među kojima mogu biti i osnovni i slučajni. Na primjer, cijena dionica korporacije kao cjeline određena je njezinim financijskim položajem. Istovremeno, u određene dane i na pojedinim burzama, zbog nastalih okolnosti, te se dionice mogu prodavati po višem ili nižem tečaju. Bit prosjeka je u tome što on poništava odstupanja vrijednosti atributa pojedinih jedinica populacije, uzrokovana djelovanjem slučajnih čimbenika, te uzima u obzir promjene uzrokovane djelovanjem glavni faktori. To omogućuje da sredstvo odražava tipičnu razinu značajke i apstrahira individualne karakteristike svojstvene pojedinim jedinicama.

Izračunavanje prosjeka jedna je od uobičajenih tehnika generalizacije; prosječni pokazatelj odražava ono opće što je tipično (tipično) za sve jedinice proučavane populacije, dok istovremeno zanemaruje razlike između pojedinih jedinica. U svakoj pojavi i njenom razvoju postoji kombinacija slučajnosti i nužde.

Prosjek je sumarna karakteristika pravilnosti procesa u uvjetima u kojima se odvija.

Svaki prosjek karakterizira proučavanu populaciju prema bilo kojoj osobini, ali da bi se okarakterizirala bilo koja populacija, opisala njezina tipična svojstva i kvalitativna obilježja, potreban je sustav prosječnih pokazatelja. Stoga se u praksi domaće statistike za proučavanje društveno-ekonomskih pojava u pravilu izračunava sustav prosječnih pokazatelja. Tako se, na primjer, pokazatelj prosječne plaće vrednuje zajedno s pokazateljima prosječnog učinka, kapitalno-težinski odnos i snaga-težinski odnos rada, stupanj mehanizacije i automatizacije rada itd.

Prosjek treba izračunati uzimajući u obzir ekonomski sadržaj pokazatelja koji se proučava. Stoga se za pojedini pokazatelj koji se koristi u socio-ekonomskoj analizi može izračunati samo jedna prava vrijednost prosjeka na temelju znanstvene metode izračuna.

Prosječna vrijednost je jedan od najvažnijih generalizirajućih statističkih pokazatelja koji karakterizira ukupnost istovrsnih pojava prema nekom kvantitativno varirajućem svojstvu. Prosjeci u statistici su generalizirajući pokazatelji, brojevi koji izražavaju tipične karakteristične dimenzije društvenih pojava prema jednoj kvantitativno promjenjivoj osobini.

Vrste prosjeka

Vrste prosječnih vrijednosti razlikuju se prvenstveno po tome koje svojstvo, koji parametar početne varirajuće mase pojedinačnih vrijednosti svojstva treba zadržati nepromijenjenim.

Aritmetička sredina

Aritmetička sredina je takva prosječna vrijednost obilježja, pri čijem izračunu ukupni volumen obilježja u agregatu ostaje nepromijenjen. Inače, možemo reći da je aritmetička sredina prosječni zbroj. Kada se izračuna, ukupni volumen atributa mentalno se ravnomjerno raspoređuje među svim jedinicama populacije.

Aritmetička sredina se koristi ako su poznate vrijednosti usrednjenog obilježja (x) i broj jedinica populacije s određenom vrijednošću obilježja (f).

Aritmetička sredina može biti prosta i ponderirana.

jednostavna aritmetička sredina

Jednostavni se koristi ako se svaka vrijednost značajke x pojavljuje jednom, tj. za svaki x, vrijednost značajke je f=1, ili ako izvorni podaci nisu poredani i nije poznato koliko jedinica ima određene vrijednosti značajke.

Jednostavna formula aritmetičke sredine je:

gdje je prosječna vrijednost; x je vrijednost prosječnog obilježja (varijante), je broj jedinica proučavane populacije.

Aritmetički ponderirani prosjek

Za razliku od jednostavnog prosjeka, aritmetički ponderirani prosjek se primjenjuje ako se svaka vrijednost atributa x pojavljuje nekoliko puta, tj. za svaku vrijednost obilježja f≠1. Ovaj prosjek se naširoko koristi u izračunavanju prosjeka na temelju niza diskretne distribucije:

gdje je broj grupa, x je vrijednost prosječne značajke, f je težina vrijednosti značajke (učestalost, ako je f broj jedinica populacije; učestalost, ako je f, udio jedinica s opcijom x u ukupno stanovništvo).

Prosječni harmonik

Uz aritmetičku sredinu, statistika koristi harmonijsku sredinu, recipročnu vrijednost aritmetičke sredine recipročnih vrijednosti atributa. Kao i aritmetička sredina, može biti jednostavna i ponderirana. Koristi se kada potrebni ponderi (f i) u početnim podacima nisu izravno navedeni, već su uključeni kao faktor u jednom od dostupnih pokazatelja (tj. kada je poznat brojnik početnog omjera prosjeka, ali njegov nazivnik je nepoznat).

Prosječna harmonijska težina

Umnožak xf daje volumen prosječne značajke x za skup jedinica i označava se s w. Ako početni podaci sadrže vrijednosti prosječne značajke x i volumen prosječne značajke w, tada se harmonijski ponderirani koristi za izračunavanje prosjeka:

gdje je x vrijednost prosječne značajke x (opcija); w je težina varijanti x, volumen prosječne značajke.

Harmonijska sredina neponderirana (jednostavna)

Ovaj oblik prosjeka, koji se mnogo rjeđe koristi, ima sljedeći oblik:

gdje je x vrijednost prosječne značajke; n je broj x vrijednosti.

Oni. to je recipročna vrijednost jednostavne aritmetičke sredine recipročnih vrijednosti obilježja.

U praksi se harmonijska jednostavna sredina rijetko koristi, u slučajevima kada su vrijednosti w za jedinice populacije jednake.

Korijen srednje kvadratne i srednje kubične vrijednosti

U nekim slučajevima, u gospodarskoj praksi, postoji potreba za izračunavanjem prosječne veličine obilježja, izražene u kvadratnim ili kubičnim jedinicama. Zatim se koristi srednji kvadrat (na primjer, za izračunavanje prosječne veličine stranice i kvadrata, prosječni promjeri cijevi, debla itd.) i srednji kubik (na primjer, kada se određuje prosječna duljina stranice i kocke).

Ako je pri zamjeni pojedinačnih vrijednosti osobine s prosječnom vrijednošću potrebno zadržati zbroj kvadrata izvornih vrijednosti nepromijenjenim, tada će prosjek biti kvadratni prosjek, jednostavan ili ponderiran.

Srednji kvadrat jednostavno

Jednostavni se koristi ako se svaka vrijednost značajke x pojavljuje jednom, općenito izgleda ovako:

gdje je kvadrat vrijednosti prosječne značajke; - broj populacijskih jedinica.

Ponderirana srednja vrijednost kvadrata

Ponderirani srednji kvadrat primjenjuje se ako se svaka vrijednost prosječne značajke x pojavljuje f puta:

,

gdje je f težina opcija x.

Prosječna kubna jednostavna i ponderirana

Prosječni kubni jednostavan je kubni korijen kvocijenta dijeljenja zbroja kocki pojedinačnih vrijednosti značajki njihovim brojem:

gdje su vrijednosti značajke, n je njihov broj.

Prosječna kubična težina:

,

gdje je f težina x opcija.

Korijen srednje kvadratne i kubne sredine ograničene su upotrebe u praksi statistike. Korijen srednje kvadratne statistike naširoko se koristi, ali ne iz samih varijanti x , te od njihovih odstupanja od srednje vrijednosti pri izračunavanju pokazatelja varijacije.

Prosjek se ne može izračunati za sve, već za neki dio populacijskih jedinica. Primjer takvog prosjeka može biti progresivni prosjek kao jedan od privatnih prosjeka, izračunat ne za sve, već samo za "najbolje" (primjerice, za pokazatelje iznad ili ispod individualnih prosjeka).

Geometrijska sredina

Ako su vrijednosti prosječnog atributa značajno odvojene jedna od druge ili su dane koeficijentima (stope rasta, indeksi cijena), tada se za izračun koristi geometrijska sredina.

Geometrijska sredina izračunava se izvlačenjem korijena stupnja i iz proizvoda pojedinačnih vrijednosti - varijanti obilježja X:

gdje je n broj opcija; P je znak djela.

Geometrijska sredina je najčešće korištena za određivanje prosječne stope promjene u vremenskoj seriji, kao iu seriji distribucije.

Prosječne vrijednosti su generalizirajući pokazatelji u kojima se izražava djelovanje općih uvjeta, pravilnost fenomena koji se proučava. Statistički prosjeci izračunavaju se na temelju masovnih podataka pravilno statistički organiziranog masovnog promatranja (kontinuiranog ili oglednog). Međutim, statistički će prosjek biti objektivan i tipičan ako se izračunava iz masovnih podataka za kvalitativno homogenu populaciju (masovni fenomen). Korištenje prosjeka treba polaziti od dijalektičkog shvaćanja kategorija općeg i pojedinačnog, mase i pojedinačnog.

Kombinacija općih srednjih vrijednosti s grupnim srednjim vrijednostima omogućuje ograničavanje kvalitativno homogenih populacija. Podijelivši masu objekata koji čine ovaj ili onaj složeni fenomen u unutarnje homogene, ali kvalitativno različite skupine, karakterizirajući svaku od skupina svojim prosjekom, mogu se otkriti rezerve procesa nastajanja nove kvalitete. Na primjer, raspodjela stanovništva prema dohotku omogućuje prepoznavanje formiranja novih društvenih skupina. U analitičkom dijelu razmotrili smo konkretan primjer korištenja prosječne vrijednosti. Ukratko, možemo reći da je opseg i upotreba prosjeka u statistici prilično širok.

Praktičan zadatak

Zadatak #1

Odredite prosječni kupovni tečaj i prosječni prodajni tečaj od jednog i US dolara

Prosječna stopa kupovine

Prosječna prodajna stopa

Zadatak #2

Dinamika količine vlastitih ugostiteljskih proizvoda Čeljabinske regije za 1996.-2004. prikazana je u tablici u usporedivim cijenama (milijuna rubalja)

Izvršiti zatvaranje redova A i B. Za analizu niza dinamike proizvodnje Gotovi proizvodi izračunati:

1. Apsolutni rast, rast i stope rasta, lančane i osnovne

2. Prosječna godišnja proizvodnja gotovih proizvoda

3. Prosječna godišnja stopa rasta i povećanja proizvoda poduzeća

4. Napravite analitičko poravnanje nizova dinamike i izračunajte prognozu za 2005. godinu

5. Grafički prikazati niz dinamike

6. Donesite zaključak na temelju rezultata dinamike

1) yi B = yi-y1 yi C = yi-y1

y2 B = 2,175 – 2,04 y2 C = 2,175 – 2,04 = 0,135

y3B = 2,505 – 2,04 y3 C = 2,505 – 2,175 = 0,33

y4 B = 2,73 - 2,04 y4 C = 2,73 - 2,505 = 0,225

y5 B = 1,5 – 2,04 y5 C = 1,5 – 2,73 = 1,23

y6 B = 3,34 - 2,04 y6 C = 3, 34 - 1,5 = 1,84

y7 B = 3,6 3 – 2,04 y7 C = 3,6 3 – 3,34 = 0,29

y8 B = 3,96 – 2,04 y8 C = 3,96 – 3,63 = 0,33

y9 B = 4,41–2,04 y9 C = 4, 41 – 3,96 = 0,45

Tr B2 Tr C2

Tr B3 Tr C3

Tr B4 Tr C4

Tr B5 Tr C5

Tr B6 Tr C6

Tr B7 Tr C7

Tr B8 Tr C8

Tr B9 Tr C9

Tr B = (TprB * 100%) - 100%

Tr B2 \u003d (1,066 * 100%) - 100% \u003d 6,6%

Tr C3 \u003d (1,151 * 100%) - 100% \u003d 15,1%

2) g milijuna rubalja – prosječna produktivnost proizvoda

2,921 + 0,294*(-4) = 2,921-1,176 = 1,745

2,921 + 0,294*(-3) = 2,921-0,882 = 2,039

(yt-y) = (1,745-2,04) = 0,087

(yt-yt) = (1,745-2,921) = 1,382

(y-yt) = (2,04-2,921) = 0,776

Tp

Po

2005=2,921+1,496*4=2,921+5,984=8,905

8,905+2,306*1,496=12,354

8,905-2,306*1,496=5,456

5,456 2005 12,354


Zadatak #3

Statistički podaci o veleprodajnim isporukama prehrambenih i neprehrambenih proizvoda te maloprodajnoj mreži regije u 2003. i 2004. godini prikazani su u odgovarajućim grafikonima.

Prema tablicama 1 i 2 potrebno je

1. Odrediti opći indeks veleprodajne ponude prehrambenih proizvoda u stvarnim cijenama;

2. Naći opći indeks stvarne količine zaliha hrane;

3. Usporediti zajedničke indekse i donijeti odgovarajući zaključak;

4. Odrediti opći indeks ponude neprehrambenih proizvoda u stvarnim cijenama;

5. Odrediti opći indeks fizičkog obujma ponude neprehrambenih proizvoda;

6. Usporediti dobivene indekse i donijeti zaključak o neprehrambenim proizvodima;

7. Naći konsolidirane opće indekse ponude za cjelokupnu robnu masu u stvarnim cijenama;

8. Naći konsolidirani opći indeks fizičkog obujma (za cjelokupnu komercijalnu masu robe);

9. Usporedite dobivene kompozitne indekse i izvedite odgovarajući zaključak.

Bazno razdoblje

Izvještajno razdoblje (2004.)

Isporuke izvještajnog razdoblja po cijenama baznog razdoblja

1,291-0,681=0,61= - 39

Zaključak

U zaključku, rezimirajmo. Prosječne vrijednosti su generalizirajući pokazatelji u kojima se izražava djelovanje općih uvjeta, pravilnost fenomena koji se proučava. Statistički prosjeci izračunavaju se na temelju masovnih podataka pravilno statistički organiziranog masovnog promatranja (kontinuiranog ili oglednog). Međutim, statistički će prosjek biti objektivan i tipičan ako se izračunava iz masovnih podataka za kvalitativno homogenu populaciju (masovni fenomen). Korištenje prosjeka treba polaziti od dijalektičkog shvaćanja kategorija općeg i pojedinačnog, mase i pojedinačnog.

Prosjek odražava ono opće što se razvija u svakom pojedinačnom, pojedinačnom objektu, zbog čega prosjek postaje od velike važnosti za prepoznavanje obrazaca svojstvenih masovnim društvenim pojavama i neprimjetnih u pojedinačnim pojavama.

Otklon pojedinca od općeg je manifestacija razvojnog procesa. U pojedinačnim izoliranim slučajevima mogu se postaviti elementi novog, naprednog. U ovom slučaju, specifični čimbenik, uzet u odnosu na pozadinu prosječnih vrijednosti, karakterizira proces razvoja. Prema tome, prosjek odražava karakterističnu, tipičnu, stvarnu razinu proučavanih pojava. Karakteristike tih razina i njihove promjene u vremenu i prostoru jedan su od glavnih problema prosjeka. Tako se kroz prosjeke, na primjer, očituje ono što je svojstveno poduzećima na određenom stupnju ekonomskog razvoja; promjena blagostanja stanovništva odražava se na prosječne plaće, dohotke obitelji u cjelini i za pojedine društvene skupine, razinu potrošnje proizvoda, dobara i usluga.

Prosječna vrijednost je tipična vrijednost (uobičajena, normalna, utvrđena u cjelini), ali je takva po tome što se formira u normalnim, prirodnim uvjetima za postojanje određene masovne pojave, promatrane u cjelini. Prosjek odražava objektivno svojstvo pojave. U stvarnosti često postoje samo devijantne pojave, a prosječno kao pojava ne mora postojati, iako je koncept tipičnosti pojave posuđen iz stvarnosti. Prosječna vrijednost je odraz vrijednosti osobine koja se proučava i stoga se mjeri u istoj dimenziji kao i ta osobina. Međutim, postoje razne načine približno određivanje razine distribucije stanovništva za usporedbu sumarnih obilježja koja nisu međusobno izravno usporediva, na primjer, prosječna naseljenost u odnosu na teritorij (prosječna gustoća naseljenosti). Ovisno o tome koji čimbenik treba eliminirati, naći će se i sadržaj prosjeka.

Kombinacija općih srednjih vrijednosti s grupnim srednjim vrijednostima omogućuje ograničavanje kvalitativno homogenih populacija. Podijelivši masu objekata koji čine ovaj ili onaj složeni fenomen u unutarnje homogene, ali kvalitativno različite skupine, karakterizirajući svaku od skupina svojim prosjekom, mogu se otkriti rezerve procesa nastajanja nove kvalitete. Na primjer, raspodjela stanovništva prema dohotku omogućuje prepoznavanje formiranja novih društvenih skupina. U analitičkom dijelu razmotrili smo konkretan primjer korištenja prosječne vrijednosti. Ukratko, možemo reći da je opseg i upotreba prosjeka u statistici prilično širok.

Bibliografija

1. Gusarov, V.M. Teorija statistike kvalitete [Tekst]: udžbenik. dodatak / V.M.

Gusarov priručnik za sveučilišta. - M., 1998

2. Edronova, N.N. Opća teorija statistike [Tekst]: udžbenik / Ed. N.N. Edronova - M.: Financije i statistika 2001 - 648 str.

3. Eliseeva I.I., Yuzbashev M.M. Opća teorija statistike [Tekst]: Udžbenik / Ed. dopisni član RAS I.I. Eliseeva. – 4. izd., revidirano. i dodatni - M.: Financije i statistika, 1999. - 480s.: ilustr.

4. Efimova M.R., Petrova E.V., Rumyantsev V.N. Opća teorija statistike: [Tekst]: Udžbenik. - M.: INFRA-M, 1996. - 416s.

5. Ryauzova, N.N. Opća teorija statistike [Tekst]: udžbenik / Ed. N.N.

Ryauzova - M.: Financije i statistika, 1984.


Gusarov V.M. Teorija statistike: udžbenik. Dodatak za sveučilišta. - M., 1998.-S.60.

Eliseeva I.I., Yuzbashev M.M. Opća teorija statistike. - M., 1999.-S.76.

Gusarov V.M. Teorija statistike: udžbenik. Dodatak za sveučilišta. -M., 1998.-S.61.

Prosječne vrijednosti se odnose na generalizirajuće statističke pokazatelje koji daju sumarnu (konačnu) karakteristiku masovnih društvenih pojava, budući da se grade na temelju velikog broja pojedinačnih vrijednosti različitog svojstva. Da bi se pojasnila bit prosječne vrijednosti, potrebno je razmotriti značajke formiranja vrijednosti znakova tih pojava, prema kojima se izračunava prosječna vrijednost.

Poznato je da jedinice svake masovne pojave imaju brojne značajke. Koji god od ovih znakova uzmemo, njegove vrijednosti za pojedine jedinice bit će različite, mijenjaju se ili, kako kažu u statistici, variraju od jedinice do jedinice. Tako je, primjerice, plaća zaposlenika određena njegovim kvalifikacijama, prirodom posla, dužinom radnog staža i nizom drugih čimbenika, pa stoga varira u vrlo širokom rasponu. Kumulativni utjecaj svih faktora određuje visinu primanja svakog zaposlenog, međutim, možemo govoriti o prosječnim mjesečnim plaćama radnika u različitim sektorima gospodarstva. Ovdje operiramo tipičnom, karakterističnom vrijednošću varijabilnog atributa, koja se odnosi na jedinicu velike populacije.

Prosjek to odražava Općenito,što je tipično za sve jedinice proučavane populacije. Istodobno, uravnotežuje utjecaj svih čimbenika koji djeluju na veličinu atributa pojedinih jedinica populacije, kao da ih međusobno poništavaju. Razina (ili veličina) svake društvene pojave određena je djelovanjem dviju skupina čimbenika. Neki od njih su općeniti i glavni, stalno djeluju, usko povezani s prirodom pojave ili procesa koji se proučava, a tvore tipičan za sve jedinice proučavane populacije, što se odražava na prosječnu vrijednost. Drugi jesu pojedinac, njihovo djelovanje je manje izraženo i epizodno je, slučajno. Oni djeluju u suprotnom smjeru, uzrokuju razlike između kvantitativnih obilježja pojedinih jedinica populacije, nastojeći promijeniti stalnu vrijednost proučavanih obilježja. Djelovanje pojedinih znakova gasi se u srednjoj vrijednosti. U kumulativnom utjecaju tipičnih i pojedinačnih čimbenika, koji se u generalizirajućim karakteristikama uravnotežuje i međusobno poništava, temeljni zakon velikih brojeva.

U agregatu se pojedinačne vrijednosti znakova spajaju u zajedničku masu i, takoreći, rastvaraju. Stoga i Prosječna vrijednost djeluje kao "bezlično", što može odstupiti od pojedinačnih vrijednosti značajki, a kvantitativno se ne podudara ni s jednom od njih. Prosječna vrijednost odražava opću, karakterističnu i tipičnu za cjelokupnu populaciju zbog međusobnog poništavanja u njoj slučajnih, atipičnih razlika između znakova njezinih pojedinačnih jedinica, budući da je njezina vrijednost određena, takoreći, zajedničkom rezultantom svih uzroci.

Međutim, kako bi prosječna vrijednost odražavala najtipičniju vrijednost svojstva, ne treba je određivati ​​za bilo koje populacije, već samo za populacije koje se sastoje od kvalitativno homogenih jedinica. Ovaj zahtjev je glavni uvjet za znanstveno utemeljenu primjenu prosjeka i podrazumijeva tijesnu vezu između metode prosjeka i metode grupiranja u analizi društveno-ekonomskih pojava. Stoga je prosječna vrijednost generalizirajući pokazatelj koji karakterizira tipičnu razinu varijabilnog svojstva po jedinici homogene populacije u određenim uvjetima mjesta i vremena.

Određujući, dakle, bit prosječnih vrijednosti, mora se naglasiti da ispravan izračun bilo koje prosječne vrijednosti podrazumijeva ispunjenje sljedećih zahtjeva:

  • kvalitativna homogenost populacije na kojoj se računa prosječna vrijednost. To znači da se izračun prosječnih vrijednosti treba temeljiti na metodi grupiranja, koja osigurava odabir homogenih pojava iste vrste;
  • isključivanje utjecaja na izračun prosječne vrijednosti slučajnih, čisto individualnih uzroka i čimbenika. To se postiže kada se izračunavanje prosjeka temelji na dovoljno masivnom materijalu u kojem se očituje djelovanje zakona velikih brojeva, a sve se nezgode međusobno poništavaju;
  • pri izračunavanju prosječne vrijednosti važno je ustanoviti svrhu njezina izračuna i tzv definiranje pokazatelja-tel(nekretnina) na koju treba biti orijentirana.

Indikator koji određuje može djelovati kao zbroj vrijednosti prosječnog atributa, zbroj njegovih recipročnih vrijednosti, proizvod njegovih vrijednosti itd. Odnos između indikatora koji definira i prosječne vrijednosti izražava se na sljedeći način: ako su svi vrijednosti prosječnog atributa zamjenjuju se prosječnom vrijednošću, tada njihov zbroj ili proizvod u ovom slučaju neće promijeniti pokazatelj koji definira. Na temelju ove povezanosti determinirajućeg pokazatelja s prosječnom vrijednošću gradi se početni kvantitativni omjer za izravan izračun prosječne vrijednosti. Sposobnost prosjeka da sačuvaju svojstva statističkih populacija naziva se definiranje imovine.

Prosječna vrijednost izračunata za populaciju kao cjelinu naziva se opća havarija; prosječne vrijednosti izračunate za svaku skupinu - grupni prosjeci. Ukupni prosjek odražava zajedničke značajke fenomena koji se proučava, prosjek grupe karakterizira fenomen koji se razvija u specifičnim uvjetima dane grupe.

Metode izračuna mogu biti različite, stoga se u statistici razlikuje nekoliko vrsta prosjeka, od kojih su glavni aritmetički prosjek, harmonijski prosjek i geometrijski prosjek.

U ekonomskoj analizi uporaba prosjeka glavni je alat za ocjenu rezultata znanstvenog i tehnološkog napretka, društvenih mjera i traženja rezervi za gospodarski razvoj. U isto vrijeme, treba imati na umu da pretjerana usredotočenost na prosjeke može dovesti do pristranih zaključaka prilikom provođenja ekonomske i statističke analize. To je zbog činjenice da prosječne vrijednosti, kao generalizirajući pokazatelji, poništavaju i zanemaruju one razlike u kvantitativnim karakteristikama pojedinih jedinica populacije koje stvarno postoje i mogu biti od samostalnog interesa.

Vrste prosjeka

U statistici se koriste različite vrste prosjeka koji su podijeljeni u dvije velike klase:

  • prosjeci snage (harmonijska sredina, geometrijska sredina, aritmetička sredina, kvadratna sredina, kubna sredina);
  • strukturni prosjeci (mod, medijan).

Izračunati snaga znači moraju se koristiti sve dostupne karakteristične vrijednosti. Moda I medijan određeni su samo strukturom distribucije, stoga se nazivaju strukturnim, položajnim prosjecima. Medijan i način se često koriste kao prosječna karakteristika u onim populacijama gdje je izračunavanje prosječne snage nemoguće ili nepraktično.

Najčešći tip prosjeka je aritmetički prosjek. Pod, ispod aritmetička sredina Podrazumijeva se takva vrijednost obilježja koju bi svaka jedinica populacije imala kada bi zbroj svih vrijednosti obilježja bio ravnomjerno raspoređen među svim jedinicama populacije. Izračun ove vrijednosti svodi se na zbrajanje svih vrijednosti atributa varijable i dijeljenje dobivenog iznosa s ukupnim brojem jedinica populacije. Na primjer, pet radnika izvršilo je narudžbu za izradu dijelova, dok je prvi proizveo 5 dijelova, drugi - 7, treći - 4, četvrti - 10, peti - 12. Budući da je u početnim podacima vrijednost svakog opcija dogodila samo jednom, za određivanje prosječnog učinka jednog radnika treba primijeniti jednostavnu formulu aritmetičke sredine:

tj. U našem primjeru prosječni učinak jednog radnika jednak je

Uz jednostavnu aritmetičku sredinu proučavaju ponderirana aritmetička sredina. Na primjer, izračunajmo prosječnu dob studenata u grupi od 20 ljudi čija se dob kreće od 18 do 22 godine, gdje xi- varijante prosječnog obilježja, fi- učestalost, koja pokazuje koliko se puta javlja i-ti vrijednost u agregatu (tablica 5.1).

Tablica 5.1

Prosječna dob učenika

Primjenom formule ponderirane aritmetičke sredine dobivamo:


Za odabir ponderirane aritmetičke sredine postoji određeno pravilo: ako postoji niz podataka o dva pokazatelja, za jedan od kojih je potrebno izračunati

prosječna vrijednost, a istovremeno su poznate numeričke vrijednosti nazivnika njegove logičke formule, a vrijednosti brojnika su nepoznate, ali se mogu pronaći kao produkt tih pokazatelja, tada bi se prosječna vrijednost trebala izračunati pomoću formule aritmetičkog ponderiranog prosjeka.

U nekim slučajevima, priroda početnih statističkih podataka je takva da izračun aritmetičke sredine gubi smisao i jedini generalizirajući pokazatelj može biti samo druga vrsta prosječne vrijednosti - prosječni harmonijski. Trenutno su računalna svojstva aritmetičke sredine izgubila svoju važnost u izračunu generalizirajućih statističkih pokazatelja zbog širokog uvođenja elektroničkih računala. Prosječna harmonijska vrijednost, koja je također jednostavna i ponderirana, stekla je veliku praktičnu važnost. Ako su numeričke vrijednosti brojnika logičke formule poznate, a vrijednosti nazivnika su nepoznate, ali se mogu pronaći kao privatno dijeljenje jednog pokazatelja s drugim, tada se prosječna vrijednost izračunava ponderiranim harmonijska srednja formula.

Na primjer, neka se zna da je automobil prvih 210 km prešao brzinom od 70 km/h, a preostalih 150 km brzinom od 75 km/h. Nemoguće je pomoću formule aritmetičke sredine odrediti prosječnu brzinu automobila na cijelom putu od 360 km. Budući da su opcije brzine u pojedinim dionicama xj= 70 km/h i X2= 75 km/h, a težine (fi) su odgovarajući segmenti puta, tada umnošci opcija po težinama neće imati niti fizičko niti ekonomsko značenje. U tom slučaju ima smisla segmente puta podijeliti na odgovarajuće brzine (opcije xi), odnosno vrijeme utrošeno na prolazak pojedinih dijelova puta (fi / xi). Ako su segmenti puta označeni s fi, tada se cijeli put izražava kao Σfi, a vrijeme provedeno na cijelom putu izražava se kao Σ fi / xi , Tada se prosječna brzina može pronaći kao kvocijent ukupne udaljenosti podijeljene s ukupnim utrošenim vremenom:

U našem primjeru dobivamo:

Ako su pri korištenju prosječne harmonijske težine svih opcija (f) jednake, tada umjesto ponderirane, možete koristiti jednostavna (neponderirana) harmonijska sredina:

gdje xi - pojedinačne opcije; n- broj varijanti prosječnog obilježja. U primjeru s brzinom, jednostavna harmonijska sredina mogla bi se primijeniti ako su segmenti puta prijeđenog različitim brzinama jednaki.

Svaku prosječnu vrijednost treba izračunati tako da se pri zamjeni svake varijante prosječnog obilježja ne promijeni vrijednost nekog konačnog, generalizirajućeg pokazatelja koji je povezan s prosječnim pokazateljem. Dakle, kada se stvarne brzine na pojedinim dionicama puta zamijene njihovom prosječnom vrijednošću (prosječnom brzinom), ukupna udaljenost se ne bi trebala mijenjati.

Oblik (formula) prosječne vrijednosti određen je prirodom (mehanizmom) odnosa ovog konačnog pokazatelja s prosječnim, dakle konačnim pokazateljem, čija se vrijednost ne bi trebala mijenjati kada se opcije zamijene njihovom prosječnom vrijednošću , Zove se definirajući pokazatelj. Da biste dobili prosječnu formulu, morate sastaviti i riješiti jednadžbu koristeći odnos prosječnog pokazatelja s određujućim. Ova se jednadžba konstruira zamjenom varijanti prosječne značajke (indikatora) njihovom prosječnom vrijednošću.

Osim aritmetičke sredine i harmonijske sredine, u statistici se koriste i druge vrste (oblici) sredine. Sve su to posebni slučajevi. prosjek stupnja. Ako izračunamo sve vrste prosjeka potencije za iste podatke, onda vrijednosti

bit će isti, ovdje vrijedi pravilo majoracija srednji. Kako eksponent srednje vrijednosti raste, tako raste i sama srednja vrijednost. Najčešće korištene formule za izračun u praktičnim istraživanjima razne vrste prosjeci snage prikazani su u tablici. 5.2.

Tablica 5.2


Geometrijska sredina se primjenjuje kada je dostupna. nčimbenici rasta, dok su pojedinačne vrijednosti svojstva u pravilu relativne vrijednosti dinamika izgrađena u obliku lančanih vrijednosti, kao omjer prema prethodnoj razini svake razine u nizu dinamike. Prosjek tako karakterizira prosječnu stopu rasta. geometrijska sredina jednostavna izračunati po formuli

Formula ponderirana geometrijska sredina ima sljedeći oblik:

Gore navedene formule su identične, ali jedna se primjenjuje na trenutne koeficijente ili stope rasta, a druga - na apsolutne vrijednosti razina serije.

korijen znači kvadrat koristi se pri računanju s vrijednostima kvadratnih funkcija, koristi se za mjerenje stupnja fluktuacije pojedinačnih vrijednosti atributa oko aritmetičke sredine u seriji distribucije i izračunava se formulom

Ponderirana srednja vrijednost kvadrata izračunati pomoću druge formule:

Prosječna kubna koristi se pri računanju s vrijednostima kubičnih funkcija i izračunava se formulom

ponderirani prosječni kubni:

Sve gore navedene prosječne vrijednosti mogu se predstaviti kao opća formula:

gdje je prosječna vrijednost; - individualna vrijednost; n- broj jedinica proučavane populacije; k- eksponent, koji određuje vrstu prosjeka.

Kada koristite iste izvorne podatke, to više k u općoj formuli srednje snage, veća je srednja vrijednost. Iz ovoga slijedi da postoji pravilan odnos između vrijednosti sredstava snage:

Gore opisane prosječne vrijednosti daju generaliziranu predodžbu o populaciji koja se proučava, a s tog gledišta njihov teorijski, primijenjeni i kognitivni značaj je neosporan. No događa se da se vrijednost prosjeka ne podudara ni s jednom od stvarno postojećih opcija, stoga je, osim razmatranih prosjeka, u statističkoj analizi preporučljivo koristiti vrijednosti specifičnih opcija koje zauzimaju dosta određen položaj u uređenom (rangiranom) nizu vrijednosti atributa. Među tim količinama najčešće se koriste strukturalni, ili opisno, prosječno- mod (Mo) i medijan (Me).

Moda- vrijednost svojstva koje se najčešće nalazi u ovoj populaciji. Što se tiče varijacijskog niza, mod je vrijednost koja se najčešće pojavljuje u rangiranom nizu, tj. varijanta s najvećom učestalošću. Moda se može koristiti za određivanje najposjećenijih trgovina, najčešće cijene za bilo koji proizvod. Prikazuje veličinu obilježja karakterističnog za značajan dio populacije, a određuje se formulom

gdje je x0 donja granica intervala; h- vrijednost intervala; fm- frekvencija intervala; fm_ 1 - frekvencija prethodnog intervala; fm+ 1 - učestalost sljedećeg intervala.

medijan naziva se varijanta koja se nalazi u središtu rangiranog reda. Medijan dijeli niz na dva jednaka dijela na način da se s obje njegove strane nalazi isti broj populacijskih jedinica. Pritom je u jednoj polovici populacijskih jedinica vrijednost varijabilnog atributa manja od medijana, au drugoj polovici veća od nje. Medijan se koristi kada se ispituje element čija je vrijednost veća ili jednaka ili istovremeno manja ili jednaka polovici elemenata serije distribucije. Medijan daje Generalna ideja o tome gdje su koncentrirane vrijednosti obilježja, drugim riječima, gdje se nalazi njihovo središte.

Opisna priroda medijana očituje se u činjenici da karakterizira kvantitativnu granicu vrijednosti različitog atributa, koje posjeduje polovica populacijskih jedinica. Problem pronalaženja medijana za diskretni varijacijski niz rješava se jednostavno. Ako su sve jedinice niza dodijeljene rednim brojevima, tada je redni broj medijalne varijante definiran kao (n + 1) / 2 s neparnim brojem članova n. Ako je broj članova niza paran broj, tada će medijan biti prosjek dviju varijanti sa serijskim brojevima n/ 2 i n / 2 + 1.

Pri određivanju medijana u intervalnim varijacijskim serijama prvo se određuje interval u kojem se nalazi (interval medijana). Ovaj interval karakterizira činjenica da je njegov akumulirani zbroj frekvencija jednak ili premašuje polovicu zbroja svih frekvencija niza. Izračun medijana serije intervalnih varijacija provodi se prema formuli

Gdje X0- donja granica intervala; h- vrijednost intervala; fm- frekvencija intervala; f- broj članova serije;

∫m-1 - zbroj akumuliranih članova niza koji prethodi ovom.

Uz medijan, za potpuniju karakterizaciju strukture proučavane populacije, koriste se i druge vrijednosti opcija koje zauzimaju sasvim određenu poziciju u rangiranoj seriji. To uključuje kvartili I decili. Kvartili dijele niz zbrojem frekvencija na 4 jednaka dijela, a decili - na 10 jednakih dijelova. Postoje tri kvartila i devet decila.

Medijan i mod, za razliku od aritmetičke sredine, ne gase individualne razlike u vrijednostima varijabilnog atributa i stoga su dodatne i vrlo važne karakteristike statističke populacije. U praksi se često koriste umjesto prosjeka ili uz njega. Posebno je korisno izračunati medijan i modus u onim slučajevima kada proučavana populacija sadrži određeni broj jedinica s vrlo velikom ili vrlo malom vrijednošću varijabilnog atributa. Ove vrijednosti opcija, koje nisu baš karakteristične za populaciju, iako utječu na vrijednost aritmetičke sredine, ne utječu na vrijednosti medijana i moda, što potonje čini vrlo vrijednim pokazateljima za ekonomsku i statističku analizu .

Indikatori varijacije

Svrha statističke studije je identificirati glavna svojstva i obrasce proučavane statističke populacije. U postupku sumarne obrade podataka statističkih opažanja gradimo distribucijski vodovi. Postoje dvije vrste serija distribucije - atributivne i varijacijske, ovisno o tome je li atribut uzet kao osnova grupiranja kvalitativni ili kvantitativni.

varijacijski nazvane serije distribucije izgrađene na kvantitativnoj osnovi. Vrijednosti kvantitativnih obilježja za pojedine jedinice populacije nisu konstantne, više ili manje se međusobno razlikuju. Ova razlika u vrijednosti neke osobine naziva se varijacije. Nazivaju se zasebne numeričke vrijednosti svojstva koje se pojavljuju u proučavanoj populaciji vrijednosne opcije. Prisutnost varijacije u pojedinim jedinicama populacije posljedica je utjecaja velikog broja čimbenika na formiranje razine svojstava. Proučavanje prirode i stupnja varijacije znakova u pojedinim jedinicama populacije najvažnije je pitanje svake statističke studije. Indikatori varijacije koriste se za opisivanje mjere varijabilnosti svojstva.

Druga važna zadaća statističkih istraživanja jest utvrđivanje uloge pojedinih čimbenika ili njihovih skupina u varijaciji pojedinih obilježja stanovništva. Za rješavanje takvog problema u statistici se koriste posebne metode proučavanja varijacije koje se temelje na korištenju sustava pokazatelja koji mjere varijacije. U praksi se istraživač suočava s dovoljno velikim brojem opcija za vrijednosti atributa, što ne daje ideju o raspodjeli jedinica prema vrijednosti atributa u agregatu. Da biste to učinili, sve varijante vrijednosti atributa raspoređene su uzlaznim ili silaznim redoslijedom. Ovaj proces se zove red poredak. Rangirani niz odmah daje opću ideju o vrijednostima koje značajka zauzima u agregatu.

Nedovoljnost prosječne vrijednosti za iscrpnu karakterizaciju populacije čini nužnim dopuniti prosječne vrijednosti pokazateljima koji omogućuju procjenu tipičnosti tih prosjeka mjerenjem fluktuacije (varijacije) osobine koja se proučava. Korištenje ovih pokazatelja varijacije omogućuje da se statistička analiza učini potpunijom i sadržajnijom, a time i bolje razumijevanje suštine proučavanih društvenih pojava.

Najjednostavniji znakovi varijacije su minimum I maksimum - ovo je najmanja i najveća vrijednost obilježja u populaciji. Poziva se broj ponavljanja pojedinih varijanti vrijednosti značajki stopa ponavljanja. Označimo učestalost ponavljanja vrijednosti obilježja fi, zbroj učestalosti jednak volumenu proučavane populacije bit će:

Gdje k- broj varijanti vrijednosti atributa. Prikladno je zamijeniti frekvencije frekvencijama - w.i. Frekvencija- pokazatelj relativne učestalosti - može se izraziti u dijelovima jedinice ili postotku i omogućuje vam usporedbu nizova varijacija s različitim brojem opažanja. Formalno imamo:

Za mjerenje varijacije svojstva koriste se različiti apsolutni i relativni pokazatelji. Apsolutni pokazatelji varijacije uključuju srednju linearnu devijaciju, raspon varijacije, varijancu, standardnu ​​devijaciju.

Varijacija raspona(R) je razlika između maksimalne i minimalne vrijednosti svojstva u proučavanoj populaciji: R= Xmax - Xmin. Ovaj pokazatelj daje samo najopćenitiju ideju o fluktuaciji osobine koja se proučava, jer pokazuje razliku samo između graničnih vrijednosti opcija. Potpuno je nepovezan s frekvencijama u varijacijskom nizu, odnosno s prirodom distribucije, a njegova ovisnost može dati nestabilan, slučajan karakter samo od ekstremnih vrijednosti atributa. Raspon varijacije ne daje nikakve informacije o značajkama proučavanih populacija i ne dopušta nam procjenu stupnja tipičnosti dobivenih prosječnih vrijednosti. Opseg ovog pokazatelja ograničen je na prilično homogene populacije, točnije, karakterizira varijaciju svojstva, pokazatelj koji se temelji na uzimanju u obzir varijabilnosti svih vrijednosti svojstva.

Da bi se okarakterizirala varijacija osobine, potrebno je generalizirati odstupanja svih vrijednosti od bilo koje vrijednosti tipične za populaciju koja se proučava. Takvi pokazatelji

varijacije, kao što su srednja linearna devijacija, varijanca i standardna devijacija, temelje se na razmatranju odstupanja vrijednosti atributa pojedinih jedinica populacije od aritmetičke sredine.

Prosječno linearno odstupanje je aritmetička sredina apsolutnih vrijednosti odstupanja pojedinih opcija od njihove aritmetičke sredine:


Apsolutna vrijednost (modul) varijantnog odstupanja od aritmetičke sredine; f- frekvencija.

Prva formula se primjenjuje ako se svaka od opcija pojavljuje u agregatu samo jednom, a druga - u nizu s nejednakim frekvencijama.

Postoji još jedan način za izračunavanje prosjeka odstupanja opcija od aritmetičke sredine. Ova metoda, koja je vrlo česta u statistici, svodi se na izračunavanje kvadrata odstupanja opcija od srednje vrijednosti i njihovo usrednjavanje. U ovom slučaju dobivamo novi pokazatelj varijacije - varijancu.

Disperzija(σ 2) - prosjek kvadratnih odstupanja varijanti vrijednosti osobina od njihove prosječne vrijednosti:

Druga formula se koristi ako varijante imaju vlastite težine (ili učestalosti serije varijacija).

U ekonomskoj i statističkoj analizi uobičajeno je ocjenjivati ​​varijaciju atributa najčešće koristeći standardnu ​​devijaciju. Standardna devijacija(σ) je kvadratni korijen varijance:

Srednja linearna i srednja kvadratna odstupanja pokazuju koliko vrijednost atributa u prosjeku fluktuira za jedinice proučavane populacije, a izražene su u istim jedinicama kao i varijante.

U statističkoj praksi često postaje potrebno usporediti varijacije različitih obilježja. Na primjer, od velikog je interesa usporediti varijacije u dobi osoblja i njihovim kvalifikacijama, radnom stažu i plaćama itd. Za takve usporedbe pokazatelji apsolutne varijabilnosti znakova - prosječna linearna i standardna devijacija - nisu prikladni. . Nemoguće je, naime, usporediti fluktuaciju radnog staža, izraženu u godinama, s fluktuacijom plaća, izraženu u rubljama i kopejkama.

Pri usporedbi varijabilnosti raznih svojstava u agregatu zgodno je koristiti relativne pokazatelje varijabilnosti. Ovi se pokazatelji izračunavaju kao omjer apsolutnih pokazatelja i aritmetičke sredine (ili medijana). Koristeći kao apsolutni pokazatelj varijacije raspon varijacije, prosječnu linearnu devijaciju, standardnu ​​devijaciju, dobivaju se relativni pokazatelji fluktuacije:


Najčešće korišten pokazatelj relativne volatilnosti, koji karakterizira homogenost populacije. Skup se smatra homogenim ako koeficijent varijacije ne prelazi 33% za distribucije bliske normalnim.

U većini slučajeva podaci su koncentrirani oko neke središnje točke. Stoga je za opis bilo kojeg skupa podataka dovoljno navesti prosječnu vrijednost. Razmotrite tri numeričke karakteristike koje se koriste za procjenu srednje vrijednosti distribucije: aritmetičku sredinu, medijan i modus.

Prosjek

Aritmetička sredina (često se naziva jednostavno srednja vrijednost) je najčešća procjena srednje vrijednosti distribucije. To je rezultat dijeljenja zbroja svih promatranih numeričkih vrijednosti njihovim brojem. Za uzorak brojeva X 1, X 2, ..., Xn, srednja vrijednost uzorka (označena simbolom ) jednako \u003d (X 1 + X 2 + ... + Xn) / n, ili

gdje je srednja vrijednost uzorka, n- veličina uzorka, xjai-ti element uzorci.

Preuzmite bilješku u ili formatu, primjere u formatu

Razmislite o izračunavanju aritmetičke sredine petogodišnjih prosječnih godišnjih prinosa 15 uzajamnih fondova s ​​vrlo visoka razina rizik (slika 1).

Riža. 1. Prosječni godišnji prinos na 15 investicijskih fondova vrlo visokog rizika

Srednja vrijednost uzorka izračunava se na sljedeći način:

Ovo je dobar povrat, posebno u usporedbi s povratom od 3-4% koji su štediše banaka ili kreditnih unija primili u istom vremenskom razdoblju. Ako sortirate vrijednosti povrata, lako je vidjeti da osam fondova ima povrat iznad, a sedam - ispod prosjeka. Aritmetička sredina djeluje kao točka ravnoteže, tako da fondovi s niskim prihodima uravnotežuju fondove s visokim prihodima. U izračun prosjeka uključeni su svi elementi uzorka. Niti jedan od drugih procjenitelja sredine distribucije nema ovo svojstvo.

Kada izračunati aritmetičku sredinu. Budući da aritmetička sredina ovisi o svim elementima uzorka, prisutnost ekstremnih vrijednosti značajno utječe na rezultat. U takvim situacijama aritmetička sredina može iskriviti značenje numeričkih podataka. Stoga, kada se opisuje skup podataka koji sadrži ekstremne vrijednosti, potrebno je navesti medijan ili aritmetičku sredinu i medijan. Na primjer, ako se prinos fonda RS Emerging Growth ukloni iz uzorka, prosjek uzorka prinosa 14 fondova smanjuje se za gotovo 1% na 5,19%.

Medijan

Medijan je srednja vrijednost uređeni niz brojeva. Ako niz ne sadrži brojeve koji se ponavljaju, tada će polovica njegovih elemenata biti manja od, a polovica veća od medijana. Ako uzorak sadrži ekstremne vrijednosti, za procjenu srednje vrijednosti bolje je koristiti medijan nego aritmetičku sredinu. Da biste izračunali medijan uzorka, prvo ga morate sortirati.

Ova formula je dvosmislena. Njegov rezultat ovisi o tome je li broj paran ili neparan. n:

  • Ako uzorak sadrži neparan broj stavki, medijan je (n+1)/2-ti element.
  • Ako uzorak sadrži paran broj elemenata, medijan se nalazi između dva srednja elementa uzorka i jednak je aritmetičkoj sredini izračunatoj preko ta dva elementa.

Kako bismo izračunali medijan za uzorak od 15 uzajamnih fondova vrlo visokog rizika, prvo moramo sortirati neobrađene podatke (Slika 2). Tada će medijan biti nasuprot broju srednjeg elementa uzorka; u našem primjeru broj 8. Excel ima posebnu funkciju =MEDIAN() koja radi i s neuređenim nizovima.

Riža. 2. Medijan 15 sredstava

Dakle, medijan je 6,5. To znači da polovica vrlo rizičnih fondova ne prelazi 6,5, dok druga polovica to čini. Imajte na umu da je medijan od 6,5 malo veći od medijana od 6,08.

Ako iz uzorka izuzmemo profitabilnost fonda RS Emerging Growth, onda će medijan preostalih 14 fondova pasti na 6,2%, odnosno ne tako značajno kao aritmetička sredina (slika 3).

Riža. 3. Medijan 14 sredstava

Moda

Pojam je prvi uveo Pearson 1894. Fashion je broj koji se najčešće pojavljuje u uzorku (the most fashionable). Moda dobro opisuje, primjerice, tipičnu reakciju vozača na prometni znak za zaustavljanje prometa. Klasičan primjer korištenja mode je izbor veličine proizvedene serije cipela ili boje tapeta. Ako distribucija ima više modova, tada se kaže da je multimodalna ili multimodalna (ima dva ili više "vrha"). Multimodalnost distribucije daje važna informacija o prirodi varijable koja se proučava. Na primjer, u sociološkim istraživanjima, ako varijabla predstavlja preferenciju ili stav prema nečemu, tada multimodalnost može značiti da postoji nekoliko određenih različita mišljenja. Multimodalnost je također pokazatelj da uzorak nije homogen i da opažanja mogu biti generirana dvjema ili više "preklapajućih" distribucija. Za razliku od aritmetičke sredine, outlieri ne utječu na način. Za kontinuirano distribuirane slučajne varijable, kao što su prosječni godišnji prinosi zajedničkih fondova, način ponekad uopće ne postoji (ili nema smisla). Budući da ti pokazatelji mogu poprimiti različite vrijednosti, ponavljajuće vrijednosti izuzetno su rijetke.

Kvartili

Kvartili su mjere koje se najčešće koriste za procjenu distribucije podataka kada se opisuju svojstva velikih numeričkih uzoraka. Dok medijan dijeli uređeni niz napola (50% elemenata niza manje je od medijana, a 50% je veće), kvartili razbijaju uređeni skup podataka na četiri dijela. Q 1 , medijan i Q 3 vrijednosti su 25., 50. odnosno 75. percentil. Prvi kvartil Q 1 je broj koji dijeli uzorak na dva dijela: 25% elemenata je manje od, a 75% je više od prvog kvartila.

Treći kvartil Q 3 je broj koji također dijeli uzorak na dva dijela: 75% elemenata su manji, a 25% više od trećine kvartil.

Za izračun kvartila u verzijama Excela prije 2007. korištena je funkcija =QUARTILE(niz, dio). Počevši od programa Excel 2010, primjenjuju se dvije funkcije:

  • =QUARTILE.ON(niz, dio)
  • =QUARTILE.EXC(niz, dio)

Ove dvije funkcije daju malo razna značenja(slika 4). Na primjer, kada se izračunavaju kvartili uzorka koji sadrži podatke o prosječnom godišnjem prinosu 15 uzajamnih fondova vrlo visokog rizika, Q 1 = 1,8 ili -0,7 za QUARTILE.INC odnosno QUARTILE.EXC. Usput, ranije korištena funkcija QUARTILE odgovara modernoj funkciji QUARTILE.ON. Za izračunavanje kvartila u Excelu pomoću gornjih formula, polje podataka može se ostaviti bez reda.

Riža. 4. Izračunajte kvartile u Excelu

Naglasimo još jednom. Excel može izračunati kvartile za univarijantu diskretne serije, koji sadrži vrijednosti nasumična varijabla. Izračun kvartila za distribuciju temeljenu na frekvenciji dan je u odjeljku u nastavku.

geometrijska sredina

Za razliku od aritmetičke sredine, geometrijska sredina mjeri koliko se varijabla promijenila tijekom vremena. Geometrijska sredina je korijen n stupanj od proizvoda n vrijednosti (u Excelu se koristi funkcija = CUGEOM):

G= (X 1 * X 2 * ... * X n) 1/n

Sličan parametar - geometrijska sredina stope povrata - određuje se formulom:

G \u003d [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

Gdje R i- stopa povrata ja-to vremensko razdoblje.

Na primjer, pretpostavimo da početno ulaganje iznosi 100 000 USD. Do kraja prve godine padne na 50 000 USD, a do kraja druge godine oporavi se na početnih 100 000 USD. Stopa povrata na ovo ulaganje tijekom dvije godine godišnji period je jednak 0, budući da su početni i konačni iznos sredstava međusobno jednaki. Međutim, aritmetički prosjek godišnjih stopa povrata je = (-0,5 + 1) / 2 = 0,25 ili 25%, budući da je stopa povrata u prvoj godini R 1 = (50 000 - 100 000) / 100 000 = -0,5 , i u drugom R 2 = (100 000 - 50 000) / 50 000 = 1. Istodobno je geometrijska sredina stope povrata za dvije godine: G = [(1–0,5) * (1 + 1 )] 1 /2 – 1 = ½ – 1 = 1 – 1 = 0. Dakle, geometrijska sredina točnije odražava promjenu (točnije, izostanak promjene) u obujmu ulaganja tijekom dvogodišnjeg razdoblja od aritmetičke sredine.

Zanimljivosti. Prvo, geometrijska sredina će uvijek biti manja od aritmetičke sredine istih brojeva. Osim u slučaju kada su svi uzeti brojevi međusobno jednaki. Drugo, nakon razmatranja svojstava pravokutnog trokuta, može se razumjeti zašto se sredina naziva geometrijskom. Visina pravokutnog trokuta, spuštena na hipotenuzu, je prosječni proporcional između projekcija kateta na hipotenuzu, a svaka kateta je prosječni proporcional između hipotenuze i svoje projekcije na hipotenuzu (sl. 5). Ovo daje geometrijski način konstruiranja geometrijske sredine dva segmenta (duljina): trebate izgraditi krug na zbroju ta dva segmenta kao promjer, zatim visinu, vraćenu od točke njihovog spajanja do sjecišta s krug, dat će željenu vrijednost:

Riža. 5. Geometrijska priroda geometrijske sredine (slika iz Wikipedije)

Drugo važno svojstvo numeričkih podataka je njihovo varijacija karakteriziraju stupanj disperzije podataka. Dva različita uzorka mogu se razlikovati i po srednjim vrijednostima i po varijacijama. Međutim, kao što je prikazano na sl. 6 i 7, dva uzorka mogu imati istu varijaciju, ali različite srednje vrijednosti, ili istu srednju vrijednost, a potpuno različite varijacije. Podaci koji odgovaraju poligonu B na sl. 7 mijenjaju mnogo manje od podataka od kojih je izgrađen poligon A.

Riža. 6. Dvije simetrične zvonaste distribucije s istim rasponom i različitim srednjim vrijednostima

Riža. 7. Dvije simetrične zvonaste distribucije s istim srednjim vrijednostima i različitim raspršenjem

Postoji pet procjena varijacije podataka:

djelokrug

Raspon je razlika između najvećeg i najmanjeg elementa uzorka:

Povucite = XMax-XMin

Raspon uzorka koji sadrži prosječne godišnje prinose 15 uzajamnih fondova vrlo visokog rizika može se izračunati pomoću uređenog niza (vidi sliku 4): raspon = 18,5 - (-6,1) = 24,6. To znači da je razlika između najvećeg i najnižeg prosječnog godišnjeg prinosa za vrlo rizične fondove 24,6%.

Raspon mjeri ukupno širenje podataka. Iako je raspon uzorka vrlo jednostavna procjena ukupnog širenja podataka, njegova slabost je što ne uzima u obzir točno kako su podaci raspoređeni između minimalnih i maksimalnih elemenata. Ovaj učinak se dobro vidi na sl. 8 koja ilustrira uzorke koji imaju isti raspon. Ljestvica B pokazuje da ako uzorak sadrži barem jednu ekstremnu vrijednost, raspon uzorka je vrlo netočna procjena raspršenosti podataka.

Riža. 8. Usporedba tri uzorka s istim rasponom; trokut simbolizira potporu ravnoteže, a njegov položaj odgovara prosječnoj vrijednosti uzorka

Interkvartilni Raspon

Interkvartil ili srednji raspon je razlika između trećeg i prvog kvartila uzorka:

Interkvartilni raspon \u003d Q 3 - Q 1

Ova vrijednost omogućuje procjenu širenja 50% elemenata i ne uzima u obzir utjecaj ekstremnih elemenata. Interkvartilni raspon za uzorak koji sadrži podatke o prosječnim godišnjim prinosima 15 vrlo visokorizičnih zajedničkih fondova može se izračunati pomoću podataka na slici. 4 (na primjer, za funkciju QUARTILE.EXC): Interkvartilni raspon = 9,8 - (-0,7) = 10,5. Interval između 9,8 i -0,7 često se naziva središnja polovica.

Treba napomenuti da vrijednosti Q 1 i Q 3, a time i interkvartilni raspon, ne ovise o prisutnosti outliera, jer njihov izračun ne uzima u obzir bilo koju vrijednost koja bi bila manja od Q 1 ili veća od Q 3 . Ukupne kvantitativne karakteristike, kao što su medijan, prvi i treći kvartil te interkvartilni raspon, na koje ne utječu outlieri, nazivaju se robusnim pokazateljima.

Iako raspon i interkvartilni raspon daju procjenu ukupnog i srednjeg raspršenja uzorka, nijedna od ovih procjena ne uzima u obzir točno kako su podaci distribuirani. Varijanca i standardna devijacija bez ovog nedostatka. Ovi pokazatelji omogućuju procjenu stupnja fluktuacije podataka oko srednje vrijednosti. Varijanca uzorka je aproksimacija aritmetičke sredine izračunate iz kvadrata razlika između svakog elementa uzorka i srednje vrijednosti uzorka. Za uzorak X 1 , X 2 , ... X n varijanca uzorka (označena simbolom S 2 dana je sljedećom formulom:

Općenito, varijanca uzorka je zbroj kvadrata razlika između elemenata uzorka i srednje vrijednosti uzorka, podijeljen s vrijednošću jednakom veličini uzorka minus jedan:

Gdje - aritmetička sredina, n- veličina uzorka, X i - ja-th ogledni element x. U Excelu prije verzije 2007. za izračun varijance uzorka koristila se funkcija =VAR(), a od verzije 2010. koristi se funkcija =VAR.V().

Najpraktičnija i široko prihvaćena procjena raspršenosti podataka je standardna devijacija. Ovaj indikator je označen simbolom S i jednak je korijen iz varijance uzorka:

U Excelu prije verzije 2007. za izračun standardne devijacije korištena je funkcija =STDEV(), a od verzije 2010. koristi se funkcija =STDEV.V(). Za izračun ovih funkcija, polje podataka može biti neuređeno.

Niti varijanca uzorka niti standardna devijacija uzorka ne mogu biti negativne. Jedina situacija u kojoj indikatori S 2 i S mogu biti nula je ako su svi elementi uzorka jednaki. U ovom potpuno nevjerojatnom slučaju raspon i interkvartilni raspon također su nula.

Numerički podaci su sami po sebi nepostojani. Svaka varijabla može poprimiti skup različite vrijednosti. Na primjer, različiti zajednički fondovi imaju različite stope povrata i gubitka. Zbog varijabilnosti numeričkih podataka, vrlo je važno proučavati ne samo procjene srednje vrijednosti, koje su sumativne prirode, već i procjene varijance, koje karakteriziraju raspršenost podataka.

Varijanca i standardna devijacija omogućuju nam da procijenimo širenje podataka oko srednje vrijednosti, drugim riječima, da odredimo koliko je elemenata uzorka manje od srednje vrijednosti, a koliko ih je veće. Disperzija ima neka vrijedna matematička svojstva. Međutim, njegova vrijednost je kvadrat jedinice mjere - kvadratni postotak, kvadratni dolar, kvadratni inč itd. Stoga je prirodna procjena varijance standardna devijacija, koja se izražava u uobičajenim mjernim jedinicama - postotak prihoda, dolari ili inči.

Standardna devijacija omogućuje procjenu količine fluktuacije elemenata uzorka oko srednje vrijednosti. U gotovo svim situacijama, većina promatranih vrijednosti leži unutar plus ili minus jedne standardne devijacije od srednje vrijednosti. Dakle, poznavajući aritmetičku sredinu elemenata uzorka i standardnu ​​devijaciju uzorka, moguće je odrediti interval kojemu pripada glavnina podataka.

Standardna devijacija prinosa na 15 investicijskih fondova vrlo visokog rizika je 6,6 (Slika 9). To znači da se profitabilnost većine fondova razlikuje od prosječne vrijednosti ne više od 6,6% (tj. varira u rasponu od – S= 6,2 – 6,6 = –0,4 do + S= 12,8). Zapravo, ovaj interval sadrži petogodišnji prosječni godišnji povrat od 53,3% (8 od 15) sredstava.

Riža. 9. Standardna devijacija

Imajte na umu da u procesu zbrajanja kvadrata razlika stavke koje su dalje od srednje vrijednosti dobivaju veću težinu od stavki koje su bliže. Ovo je svojstvo glavni razlog zašto se aritmetička sredina najčešće koristi za procjenu srednje vrijednosti distribucije.

Koeficijent varijacije

Za razliku od prethodnih procjena raspršenosti, koeficijent varijacije je relativna procjena. Uvijek se mjeri kao postotak, a ne u izvornim podatkovnim jedinicama. Koeficijent varijacije, označen simbolima CV, mjeri raspršenost podataka oko srednje vrijednosti. Koeficijent varijacije jednak je standardnoj devijaciji podijeljenoj s aritmetičkom sredinom i pomnoženoj sa 100%:

Gdje S- standardna devijacija uzorka, - srednja vrijednost uzorka.

Koeficijent varijacije omogućuje vam usporedbu dva uzorka čiji su elementi izraženi u različitim mjernim jedinicama. Na primjer, voditelj službe za dostavu pošte namjerava unaprijediti vozni park kamiona. Prilikom utovara paketa, postoje dvije vrste ograničenja koje treba uzeti u obzir: težina (u funtama) i volumen (u kubičnim stopama) svakog paketa. Pretpostavimo da je u uzorku od 200 vrećica prosječna težina 26,0 funti, standardna devijacija težine 3,9 funti, prosječni volumen pakiranja 8,8 kubičnih stopa, a standardna devijacija volumena 2,2 kubične stope. Kako usporediti raspored težine i volumena paketa?

Budući da se mjerne jedinice za težinu i obujam razlikuju jedna od druge, menadžer mora usporediti relativno širenje ovih vrijednosti. Koeficijent varijacije težine je CV W = 3,9 / 26,0 * 100% = 15%, a koeficijent varijacije volumena CV V = 2,2 / 8,8 * 100% = 25%. Stoga je relativno raspršenje volumena paketa puno veće od relativnog raspršenja njihovih težina.

Obrazac distribucije

Treće važno svojstvo uzorka je oblik njegove distribucije. Ova distribucija može biti simetrična ili asimetrična. Da bi se opisao oblik distribucije, potrebno je izračunati njenu srednju vrijednost i medijan. Ako su te dvije mjere iste, kaže se da je varijabla simetrično raspodijeljena. Ako je srednja vrijednost varijable veća od medijana, njezina distribucija ima pozitivnu asimetriju (slika 10). Ako je medijan veći od srednje vrijednosti, distribucija varijable je negativno iskrivljena. Pozitivna asimetrija se javlja kada se srednja vrijednost poveća na neobično visoke vrijednosti. Negativna asimetrija se javlja kada se srednja vrijednost smanji na neobično male vrijednosti. Varijabla je simetrično raspodijeljena ako ne poprima nikakve ekstremne vrijednosti ni u jednom smjeru, tako da se velike i male vrijednosti varijable međusobno poništavaju.

Riža. 10. Tri vrste distribucija

Podaci prikazani na A skali imaju negativnu asimetriju. Ova slika prikazuje dugi rep i lijevo zakrivljenje uzrokovano neobično malim vrijednostima. Ove izuzetno male vrijednosti pomiču srednju vrijednost ulijevo i ona postaje manja od medijana. Podaci prikazani na skali B raspoređeni su simetrično. Lijeva i desna polovica distribucije su njihove zrcalne slike. Velike i male vrijednosti uravnotežuju jedna drugu, a srednja vrijednost i medijan su jednaki. Podaci prikazani na skali B imaju pozitivnu asimetriju. Ova slika pokazuje dugačak rep i zakrivljenost udesno, uzrokovanu prisutnošću neobično visokih vrijednosti. Ove prevelike vrijednosti pomiču srednju vrijednost udesno i ona postaje veća od medijana.

U Excelu se deskriptivna statistika može dobiti pomoću dodatka Paket analiza. Prođite kroz izbornik PodaciAnaliza podataka, u prozoru koji se otvori odaberite liniju Opisne statistike i kliknite U redu. U prozoru Opisne statistike obavezno naznačiti interval unosa(slika 11). Ako želite vidjeti deskriptivnu statistiku na istom listu kao i izvorni podaci, odaberite radio gumb izlazni interval i odredite ćeliju u koju želite smjestiti gornji lijevi kut prikazane statistike (u našem primjeru $C$1). Ako želite ispisati podatke na novi list ili u novu radnu knjigu, jednostavno odaberite odgovarajući radio gumb. Označite okvir pored Konačna statistika. Po želji, također možete birati Razina težine,k-ti najmanji ik-ti najveći.

Ako je na depozit Podaci u području Analiza ne vidite ikonu Analiza podataka, prvo morate instalirati dodatak Paket analiza(vidi, na primjer,).

Riža. 11. Deskriptivna statistika petogodišnjih prosječnih godišnjih prinosa fondova s ​​vrlo visokim razinama rizika, izračunatih korištenjem dodatka Analiza podataka Excel programi

Excel izračunava niz statistika o kojima je gore bilo riječi: srednja vrijednost, medijan, način, standardna devijacija, varijanca, raspon ( interval), minimalna, maksimalna i veličina uzorka ( ček). Osim toga, Excel izračunava neke nove statistike za nas: standardnu ​​pogrešku, kurtozu i asimetriju. standardna pogreška jednako je standardnom odstupanju podijeljenom s kvadratnim korijenom veličine uzorka. asimetrija karakterizira odstupanje od simetrije distribucije i funkcija je koja ovisi o kubu razlika između elemenata uzorka i srednje vrijednosti. Kurtoza je mjera relativne koncentracije podataka oko srednje vrijednosti u odnosu na repove distribucije, a ovisi o razlikama između uzorka i srednje vrijednosti podignute na četvrtu potenciju.

Izračun deskriptivne statistike za populacija

Srednja vrijednost, raspršenost i oblik distribucije o kojima se gore govori su karakteristike koje se temelje na uzorku. Međutim, ako skup podataka sadrži numerička mjerenja cijele populacije, tada se njegovi parametri mogu izračunati. Ovi parametri uključuju srednju vrijednost, varijancu i standardnu ​​devijaciju populacije.

Očekivana vrijednost jednak je zbroju svih vrijednosti opće populacije podijeljenom s volumenom opće populacije:

Gdje µ - očekivana vrijednost, xja- ja-th varijabla promatranje x, N- obujam opće populacije. U Excelu za izračunavanje matematičko očekivanje koristi se ista funkcija kao i za aritmetičku sredinu: =AVERAGE().

Varijanca populacije jednak zbroju kvadrata razlika između elemenata opće populacije i mat. očekivanje podijeljeno s veličinom populacije:

Gdje σ2 je varijanca opće populacije. Excel prije verzije 2007 koristi funkciju =VAR() za izračun varijance populacije, počevši od verzije 2010 =VAR.G().

standardna devijacija stanovništva jednak je kvadratnom korijenu varijance populacije:

Excel prije verzije 2007 koristi =STDEV() za izračun standardne devijacije populacije, počevši od verzije 2010 =STDEV.Y(). Imajte na umu da se formule za varijancu populacije i standardnu ​​devijaciju razlikuju od formula za varijancu uzorka i standardnu ​​devijaciju. Prilikom izračunavanja statistike uzorka S2 I S nazivnik razlomka je n - 1, a pri izračunu parametara σ2 I σ - obujam opće populacije N.

praktično pravilo

U većini situacija, veliki dio opažanja koncentriran je oko medijana, tvoreći klaster. U skupovima podataka s pozitivnom asimetrijom, ovaj se klaster nalazi lijevo (tj. ispod) od matematičkog očekivanja, a u skupovima s negativnom asimetrijom, ovaj se klaster nalazi desno (tj. iznad) od matematičkog očekivanja. Simetrični podaci imaju istu srednju vrijednost i medijan, a opažanja se grupiraju oko srednje vrijednosti, tvoreći raspodjelu u obliku zvona. Ako distribucija nema izraženu asimetriju, a podaci su koncentrirani oko određenog težišta, za procjenu varijabilnosti može se upotrijebiti pravilo koje kaže: ako podaci imaju zvonoliku distribuciju, tada je približno 68% opažanja je manje od jedne standardne devijacije od matematičkog očekivanja, Otprilike 95% opažanja je unutar dvije standardne devijacije očekivane vrijednosti, a 99,7% opažanja je unutar tri standardne devijacije očekivane vrijednosti.

Stoga standardna devijacija, koja je procjena prosječne fluktuacije oko matematičkog očekivanja, pomaže razumjeti kako su opažanja raspoređena i identificirati odstupanja. Iz praktičnog pravila proizlazi da se za zvonaste raspodjele samo jedna vrijednost od dvadeset razlikuje od matematičkog očekivanja za više od dvije standardne devijacije. Dakle, vrijednosti izvan intervala µ ± 2σ, mogu se smatrati ekstremima. Osim toga, samo tri od 1000 opažanja razlikuju se od matematičkog očekivanja za više od tri standardne devijacije. Dakle, vrijednosti izvan intervala µ ± 3σ su gotovo uvijek izvanredni. Za distribucije koje su jako iskrivljene ili nemaju oblik zvona, može se primijeniti Biename-Chebyshevljevo pravilo.

Prije više od stotinu godina matematičari Bienamay i Chebyshev neovisno su otkrili korisno svojstvo standardne devijacije. Otkrili su da za bilo koji skup podataka, bez obzira na oblik distribucije, postotak opažanja koja leže na udaljenosti koja ne prelazi k standardna odstupanja od matematičkog očekivanja, ne manje (1 – 1/ 2)*100%.

Na primjer, ako k= 2, Biename-Chebyshevljevo pravilo kaže da najmanje (1 - (1/2) 2) x 100% = 75% opažanja mora ležati u intervalu µ ± 2σ. Ovo pravilo vrijedi za sve k prekoračenje jedan. Biename-Chebyshevljevo pravilo je vrlo općenite prirode i vrijedi za distribucije bilo koje vrste. Označava minimalni broj opažanja čija udaljenost do matematičkog očekivanja ne prelazi zadanu vrijednost. Međutim, ako je distribucija u obliku zvona, praktično pravilo točnije procjenjuje koncentraciju podataka oko srednje vrijednosti.

Izračunavanje deskriptivne statistike za distribuciju temeljenu na frekvenciji

Ako izvorni podaci nisu dostupni, distribucija učestalosti postaje jedini izvor informacija. U takvim situacijama možete izračunati približne vrijednosti kvantitativnih pokazatelja distribucije, kao što su aritmetička sredina, standardna devijacija, kvartili.

Ako su podaci uzorka predstavljeni kao distribucija frekvencije, može se izračunati približna vrijednost aritmetičke sredine, uz pretpostavku da su sve vrijednosti unutar svake klase koncentrirane na sredini klase:

Gdje - srednja vrijednost uzorka, n- broj promatranja ili veličinu uzorka, S- broj razreda u frekvencijskoj distribuciji, mj- središnja točka j- razred, fj- frekvencija koja odgovara j-ti razred.

Kako bi se izračunala standardna devijacija od distribucije frekvencije, također se pretpostavlja da su sve vrijednosti unutar svake klase koncentrirane na sredini klase.

Da bismo razumjeli kako se kvartili niza određuju na temelju frekvencija, razmotrimo izračun donjeg kvartila na temelju podataka za 2013. o distribuciji ruskog stanovništva prema prosječnom novčanom dohotku po glavi stanovnika (slika 12).

Riža. 12. Udio stanovništva Rusije s novčanim dohotkom po stanovniku u prosjeku mjesečno, rubalja

Za izračun prvog kvartila serije varijacija intervala, možete koristiti formulu:

gdje je Q1 vrijednost prvog kvartila, xQ1 je donja granica intervala koji sadrži prvi kvartil (interval je određen akumuliranom frekvencijom, prva prelazi 25%); i je vrijednost intervala; Σf je zbroj frekvencija cijelog uzorka; vjerojatno uvijek jednako 100%; SQ1–1 je kumulativna frekvencija intervala koji prethodi intervalu koji sadrži donji kvartil; fQ1 je frekvencija intervala koji sadrži donji kvartil. Formula za treći kvartil razlikuje se po tome što na svim mjestima umjesto Q1 trebate koristiti Q3 i zamijeniti ¾ umjesto ¼.

U našem primjeru (slika 12), donji kvartil je u rasponu 7000,1 - 10,000, čija je kumulativna učestalost 26,4%. Donja granica ovog intervala je 7000 rubalja, vrijednost intervala je 3000 rubalja, akumulirana frekvencija intervala koji prethodi intervalu koji sadrži donji kvartil je 13,4%, učestalost intervala koji sadrži donji kvartil je 13,0%. Dakle: Q1 \u003d 7000 + 3000 * (¼ * 100 - 13,4) / 13 \u003d 9677 rubalja.

Zamke povezane s deskriptivnom statistikom

U ovoj bilješci pogledali smo kako opisati skup podataka koristeći različite statistike koje procjenjuju njegovu srednju vrijednost, raspršenost i distribuciju. Sljedeći korak je analiza i interpretacija podataka. Do sada smo proučavali objektivna svojstva podataka, a sada se okrećemo njihovoj subjektivnoj interpretaciji. Istraživača čekaju dvije pogreške: pogrešno odabran predmet analize i pogrešna interpretacija rezultata.

Analiza uspješnosti 15 uzajamnih fondova vrlo visokog rizika prilično je nepristrana. Doveo je do potpuno objektivnih zaključaka: svi investicijski fondovi imaju različite prinose, raspon prinosa fondova kreće se od -6,1 do 18,5, a prosječni prinos je 6,08. Objektivnost analize podataka osigurava se pravilnim odabirom ukupnih kvantitativnih pokazatelja distribucije. Razmotreno je nekoliko metoda za procjenu srednje vrijednosti i raspršenosti podataka, te su naznačene njihove prednosti i nedostaci. Kako odabrati pravu statistiku koja daje objektivnu i nepristranu analizu? Ako je distribucija podataka malo iskrivljena, treba li odabrati medijan umjesto aritmetičke sredine? Koji pokazatelj točnije karakterizira širenje podataka: standardna devijacija ili raspon? Treba li naznačiti pozitivnu asimetriju distribucije?

S druge strane, interpretacija podataka je subjektivan proces. Razliciti ljudi dolaze do različitih zaključaka, tumačeći iste rezultate. Svatko ima svoje stajalište. Netko ukupne prosječne godišnje prinose 15 fondova s ​​vrlo visokim stupnjem rizika smatra dobrim i prilično je zadovoljan ostvarenim prihodom. Drugi mogu misliti da ti fondovi imaju preniske povrate. Dakle, subjektivnost treba kompenzirati iskrenošću, neutralnošću i jasnoćom zaključaka.

Etički problemi

Analiza podataka neraskidivo je povezana s etičkim pitanjima. Treba biti kritičan prema informacijama koje šire novine, radio, televizija i internet. S vremenom ćete naučiti biti skeptični ne samo prema rezultatima, već i prema ciljevima, predmetu i objektivnosti istraživanja. Poznati britanski političar Benjamin Disraeli to je najbolje rekao: “Postoje tri vrste laži: laži, proklete laži i statistika.”

Kao što je navedeno u bilješci, etička pitanja javljaju se pri odabiru rezultata koji bi trebali biti predstavljeni u izvješću. I pozitivno i negativni rezultati. Osim toga, prilikom izrade izvješća ili pisanog izvješća, rezultati moraju biti prikazani iskreno, neutralno i objektivno. Razlikujte loše i nepoštene prezentacije. Da biste to učinili, potrebno je utvrditi koje su bile namjere govornika. Ponekad govornik izostavi važne informacije iz neznanja, a ponekad i namjerno (primjerice, ako koristi aritmetičku sredinu za procjenu sredine jasno iskrivljenih podataka kako bi dobio željeni rezultat). Također je nepošteno prikrivati ​​rezultate koji ne odgovaraju stajalištu istraživača.

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. - M.: Williams, 2004. - str. 178–209 (prikaz, stručni).

Funkcija QUARTILE zadržana je radi usklađivanja s ranijim verzijama Excela