Kako določiti povprečno vrednost značilnosti. Povzetek: Povprečne vrednosti, ki se uporabljajo v statistiki

Povprečne vrednosti se pogosto uporabljajo v statistiki. Povprečne vrednosti označujejo kvalitativne kazalnike komercialne dejavnosti: stroške distribucije, dobiček, donosnost itd.

Povprečje - To je ena izmed običajnih tehnik posploševanja. Pravilno razumevanje bistva povprečja določa njegov poseben pomen v razmerah tržno gospodarstvo, ko povprečje skozi posamezno in naključno omogoča prepoznavanje splošnega in potrebnega, prepoznavanje trenda vzorcev gospodarskega razvoja.

Povprečna vrednost - to so generalizacijski kazalci, v katerih so izraženi učinki splošnih pogojev in vzorcev pojava, ki se preučuje.

Statistična povprečja so izračunana na podlagi množičnih podatkov pravilno statistično organiziranega množičnega opazovanja (kontinuiranega in selektivnega). Vendar pa bo statistično povprečje objektivno in tipično, če je izračunano iz množičnih podatkov za kvalitativno homogeno populacijo (masovni pojavi). Na primer, če izračunate povprečje plače v zadrugah in državnih podjetjih in se rezultat razširi na celotno populacijo, potem je povprečje fiktivno, saj je bilo izračunano na podlagi heterogene populacije in takšno povprečje izgubi vsak pomen.

S pomočjo povprečja se zgladijo razlike v vrednosti značilnosti, ki iz takšnih ali drugačnih razlogov nastanejo v posameznih enotah opazovanja.

Na primer, povprečna produktivnost prodajalca je odvisna od številnih razlogov: kvalifikacije, delovna doba, starost, oblika storitve, zdravje itd.

Povprečni rezultat odraža splošno lastnost celotne populacije.

Povprečna vrednost je odraz vrednosti značilnosti, ki se proučuje, zato se meri v isti dimenziji kot ta značilnost.

Vsaka povprečna vrednost označuje proučevano populacijo glede na eno lastnost. Da bi pridobili popolno in celovito razumevanje populacije, ki se preučuje glede na številne bistvene značilnosti, je na splošno potrebno imeti sistem povprečnih vrednosti, ki lahko opišejo pojav iz različnih zornih kotov.

Obstajajo različna povprečja:

    aritmetična sredina;

    geometrična sredina;

    harmonična sredina;

    srednji kvadrat;

    povprečno kronološko.

Oglejmo si nekaj vrst povprečij, ki se najpogosteje uporabljajo v statistiki.

Aritmetična sredina

Preprosta aritmetična sredina (neutežena) je enaka vsoti posameznih vrednosti atributa, deljeno s številom teh vrednosti.

Posamezne vrednosti značilnosti imenujemo variante in jih označujemo z x(); število populacijskih enot je označeno z n, povprečna vrednost značilnosti pa z . Zato je aritmetična enostavna sredina enaka:

Glede na podatke serije diskretne porazdelitve je jasno, da se iste karakteristične vrednosti (različice) ponavljajo večkrat. Tako se možnost x pojavi skupaj 2-krat, možnost x pa 16-krat itd.

Število enakih vrednosti značilnosti v nizu porazdelitve se imenuje frekvenca ali teža in je označeno s simbolom n.

Izračunajmo povprečno plačo enega delavca v rub.:

Sklad plač za vsako skupino delavcev je enak zmnožku možnosti in frekvence, vsota teh zmnožkov pa daje skupni sklad plač vseh delavcev.

V skladu s tem lahko izračune predstavimo v splošni obliki:

Nastala formula se imenuje utežena aritmetična sredina.

Kot rezultat obdelave je statistično gradivo mogoče predstaviti ne samo v obliki diskretnih porazdelitvenih serij, temveč tudi v obliki intervalnih variacijskih serij z zaprtimi ali odprtimi intervali.

Povprečje za združene podatke se izračuna s formulo tehtanega aritmetičnega povprečja:

V praksi ekonomske statistike je včasih treba izračunati povprečje s skupinskimi povprečji ali povprečji posameznih delov populacije (delna povprečja). V takih primerih se kot možnosti (x) vzamejo skupinska ali zasebna povprečja, na podlagi katerih se skupno povprečje izračuna kot navadno tehtano aritmetično povprečje.

Osnovne lastnosti aritmetične sredine .

Aritmetična sredina ima več lastnosti:

1. Vrednost aritmetične sredine se ne bo spremenila zaradi zmanjšanja ali povečanja frekvence vsake vrednosti značilnosti x za n-krat.

Če vse frekvence delimo ali pomnožimo s poljubnim številom, se povprečna vrednost ne spremeni.

2. Skupni množitelj posameznih vrednosti značilnosti se lahko vzame izven znaka povprečja:

3. Povprečje vsote (razlike) dveh ali več količin je enako vsoti (razliki) njihovih povprečij:

4. Če je x = c, kjer je c konstantna vrednost, potem
.

5. Vsota odstopanj vrednosti atributa X od aritmetične sredine x je enaka nič:

Harmonično povprečje.

Skupaj z aritmetično sredino statistika uporablja harmonično sredino, inverzno aritmetične sredine inverznih vrednosti atributa. Tako kot aritmetična sredina je lahko enostavna in utežena.

Značilnosti variacijskih serij, skupaj s povprečji, sta način in mediana.

Moda - to je vrednost lastnosti (različice), ki se najpogosteje ponavlja v proučevani populaciji. Za serije diskretne porazdelitve bo način vrednost različice z najvišjo frekvenco.

Za serije intervalne porazdelitve z enakimi intervali je način določen s formulo:

Kje
- začetna vrednost intervala, ki vsebuje modus;

- vrednost modalnega intervala;

- pogostost modalnega intervala;

- frekvenca intervala pred modalnim;

- frekvenca intervala, ki sledi modalnemu.

Mediana - to je možnost, ki se nahaja na sredini variacijske serije. Če je porazdelitvena serija diskretna in ima liho število članov, bo mediana možnost, ki se nahaja na sredini urejene serije (urejena serija je razporeditev populacijskih enot v naraščajočem ali padajočem vrstnem redu).

Povprečna vrednost je z analitičnega vidika najbolj dragocena in univerzalna oblika izražanja statističnih kazalcev. Najpogostejše povprečje - aritmetično povprečje - ima številne matematične lastnosti, ki jih je mogoče uporabiti pri njegovem izračunu. Hkrati se je pri izračunu določenega povprečja vedno priporočljivo zanašati na njegovo logično formulo, ki je razmerje med obsegom atributa in obsegom populacije. Za vsako povprečje obstaja le eno pravo začetno razmerje, katerega izvajanje bo morda potrebno, odvisno od razpoložljivih podatkov različne oblike povprečje. Vendar v vseh primerih, kjer narava vrednosti, ki se povpreči, pomeni prisotnost uteži, je nemogoče uporabiti njihove neutežene formule namesto formul uteženega povprečja.

Povprečna vrednost je najznačilnejša vrednost lastnosti za populacijo in velikost lastnosti populacije, porazdeljena v enakih deležih med enotami populacije.

Značilnost, za katero se izračuna povprečna vrednost, se imenuje povprečno .

Povprečna vrednost je kazalnik, izračunan s primerjavo absolutnih oz relativne vrednosti. Označena je povprečna vrednost

Povprečna vrednost odraža vpliv vseh dejavnikov, ki vplivajo na preučevani pojav, in je njihova rezultanta. Z drugimi besedami, pri odpravljanju posameznih odstopanj in odpravljanju vpliva primerov povprečna vrednost, ki odraža splošno merilo rezultatov tega ukrepa, deluje kot splošen vzorec preučevanega pojava.

Pogoji za uporabo povprečnih vrednosti:

Ø homogenost proučevane populacije. Če imajo nekateri elementi populacije, na katere vpliva naključni dejavnik, vrednosti lastnosti, ki se preučuje, bistveno drugačne od ostalih, bodo ti elementi vplivali na velikost povprečja za to populacijo. V tem primeru povprečje ne bo izražalo najbolj tipične vrednosti atributa za populacijo. Če je preučevani pojav heterogen, ga je treba razdeliti v skupine, ki vsebujejo homogene elemente. IN v tem primeru izračunajo se skupinska povprečja - skupinska povprečja, ki izražajo najbolj značilno vrednost pojava v posamezni skupini, nato pa se izračuna skupna povprečna vrednost za vse elemente, ki označujejo pojav kot celoto. Izračuna se kot povprečje skupinskih povprečij, ponderiranih s številom elementov populacije, vključenih v vsako skupino;

Ø zadostno skupno število enot;

Ø največje in najmanjše vrednosti značilnosti v proučevani populaciji.

Povprečna vrednost (indikator)je posplošena kvantitativna značilnost značilnosti v sistematičnem agregatu pod posebnimi pogoji kraja in časa.

V statistiki se uporabljajo naslednje oblike (vrste) povprečij, imenovane močnostne in strukturne:

Ø aritmetična sredina(enostavno in tehtano);

preprosto

V večini primerov so podatki skoncentrirani okoli neke osrednje točke. Tako je za opis katerega koli niza podatkov dovolj navesti povprečno vrednost. Zaporedoma razmislimo o treh numeričnih karakteristikah, ki se uporabljajo za oceno povprečne vrednosti porazdelitve: aritmetična sredina, mediana in način.

Povprečje

Aritmetična sredina (pogosto imenovana preprosto povprečje) je najpogostejša ocena srednje vrednosti porazdelitve. Je rezultat deljenja vsote vseh opazovanih številskih vrednosti z njihovim številom. Za vzorec, sestavljen iz številk X 1, X 2, …, Xn, povprečje vzorca (označeno z ) je enako = (X 1 + X 2 + … + Xn) / n, oz

kje je povprečje vzorca, n- Velikost vzorca, Xjazi-ti element vzorcev.

Prenesite opombo v ali obliki, primeri v obliki

Razmislite o izračunu aritmetičnega povprečja petletnih povprečnih letnih donosov 15 vzajemnih skladov z zelo visokim tveganjem (slika 1).

riž. 1. Povprečni letni donosi 15 zelo tveganih vzajemnih skladov

Vzorčno povprečje se izračuna na naslednji način:

To je dober donos, zlasti v primerjavi s 3-4-odstotnim donosom, ki so ga prejeli vlagatelji bank ali kreditnih zadrug v istem časovnem obdobju. Če razvrstimo donose, lahko ugotovimo, da ima osem skladov donose nadpovprečne, sedem pa podpovprečne. Aritmetična sredina deluje kot ravnotežna točka, tako da skladi z nizkimi donosi uravnotežijo sklade z visokimi donosi. Pri izračunu povprečja sodelujejo vsi elementi vzorca. Nobena druga ocena srednje vrednosti porazdelitve nima te lastnosti.

Kdaj izračunati aritmetično sredino? Ker je aritmetična sredina odvisna od vseh elementov v vzorcu, prisotnost ekstremnih vrednosti pomembno vpliva na rezultat. V takšnih situacijah lahko aritmetična sredina popači pomen numeričnih podatkov. Zato je treba pri opisu niza podatkov, ki vsebuje ekstremne vrednosti, navesti mediano ali aritmetično sredino in mediano. Če na primer iz vzorca odstranimo donose sklada RS Emerging Growth, se vzorčno povprečje donosov 14 skladov zmanjša za skoraj 1 % na 5,19 %.

Mediana

Mediana predstavlja srednjo vrednost urejenega niza števil. Če niz ne vsebuje ponavljajočih se števil, bo polovica njegovih elementov manjša od mediane in polovica večja od nje. Če vzorec vsebuje ekstremne vrednosti, je za oceno sredine bolje uporabiti mediano kot aritmetično sredino. Za izračun mediane vzorca ga je treba najprej naročiti.

Ta formula je dvoumna. Njegov rezultat je odvisen od tega, ali je število sodo ali liho n:

  • Če vzorec vsebuje liho število elementov, je mediana enaka (n+1)/2-ti element.
  • Če vzorec vsebuje sodo število elementov, leži mediana med srednjima elementoma vzorca in je enaka aritmetični sredini, izračunani nad tema dvema elementoma.

Za izračun mediane vzorca, ki vsebuje donose 15 vzajemnih skladov z zelo visokim tveganjem, morate najprej razvrstiti neobdelane podatke (slika 2). Potem bo mediana nasprotna številki srednjega elementa vzorca; v našem primeru št. 8. Excel ima posebna funkcija=MEDIAN(), ki deluje tudi z neurejenimi nizi.

riž. 2. Mediana 15 sredstev

Tako je mediana 6,5. To pomeni, da donosnost polovice zelo tveganih skladov ne presega 6,5, donosnost druge polovice pa jo presega. Upoštevajte, da mediana 6,5 ​​ni veliko večja od srednje vrednosti 6,08.

Če iz vzorca izločimo donosnost sklada RS Emerging Growth, se mediana preostalih 14 skladov zniža na 6,2 %, torej ne tako pomembno kot aritmetična sredina (slika 3).

riž. 3. Mediana 14 sredstev

Moda

Izraz je prvi skoval Pearson leta 1894. Moda je število, ki se največkrat pojavlja v vzorcu (najbolj modno). Moda dobro opisuje na primer tipično reakcijo voznikov na semaforski znak, da se ustavi. Klasičen primer uporabe mode je izbira velikosti čevljev ali barve tapet. Če ima porazdelitev več načinov, potem rečemo, da je večmodalna ali multimodalna (ima dva ali več "vrhov"). Multimodalnost porazdelitve zagotavlja pomembne informacije o naravi spremenljivke, ki jo proučujemo. Na primer, v socioloških raziskavah, če spremenljivka predstavlja preferenco ali odnos do nečesa, potem multimodalnost lahko pomeni, da obstaja več različnih različna mnenja. Multimodalnost služi tudi kot pokazatelj, da vzorec ni homogen in da so lahko opazovanja ustvarjena z dvema ali več "prekrivajočimi se" porazdelitvami. Za razliko od aritmetične sredine izstopajoči ne vplivajo na način. Za zvezno porazdeljene naključne spremenljivke, kot je povprečni letni donos vzajemnih skladov, način včasih sploh ne obstaja (ali nima smisla). Ker lahko ti indikatorji zavzamejo zelo različne vrednosti, so ponavljajoče se vrednosti izjemno redke.

Kvartili

Kvartili so metrike, ki se najpogosteje uporabljajo za vrednotenje porazdelitve podatkov pri opisovanju lastnosti velikih numeričnih vzorcev. Medtem ko mediana razdeli urejeno matriko na pol (50 % elementov matrike je manjših od mediane in 50 % večjih), kvartili razdelijo urejen niz podatkov na štiri dele. Vrednosti Q 1, mediane in Q 3 so 25., 50. oziroma 75. percentil. Prvi kvartil Q 1 je število, ki vzorec razdeli na dva dela: 25 % elementov je manjših od prvega kvartila in 75 % večjih od njega.

Tretji kvartil Q 3 je število, ki prav tako deli vzorec na dva dela: 75 % elementov je manjših, 25 % pa - več kot tri kvartil

Če želite izračunati kvartile v različicah Excela pred 2007, uporabite funkcijo =QUARTILE(array,part). Od Excela 2010 se uporabljata dve funkciji:

  • =QUARTILE.ON(niz,del)
  • =QUARTILE.EXC(matrika,del)

Ti dve funkciji dajeta malo različne pomene(slika 4). Na primer, pri izračunu kvartilov vzorca, ki vsebuje povprečne letne donose 15 vzajemnih skladov z zelo visokim tveganjem, je Q 1 = 1,8 oziroma –0,7 za QUARTILE.IN oziroma QUARTILE.EX. Mimogrede, prej uporabljena funkcija QUARTILE ustreza sodobna funkcija KVARTIL VKLJ. Za izračun kvartilov v Excelu z uporabo zgornjih formul podatkovnega niza ni treba razporediti.

riž. 4. Računanje kvartilov v Excelu

Naj še enkrat poudarimo. Excel lahko izračuna kvartile za univariato diskretne serije, ki vsebuje vrednosti naključna spremenljivka. Izračun kvartilov za porazdelitev na podlagi frekvence je podan spodaj v razdelku.

Geometrijska sredina

Za razliko od aritmetičnega povprečja vam geometrično povprečje omogoča, da ocenite stopnjo spremembe spremenljivke skozi čas. Geometrijska sredina je koren n diplomo iz dela n količine (v Excelu se uporablja funkcija =SRGEOM):

G= (X 1 * X 2 * … * X n) 1/n

Podoben parameter - geometrična povprečna vrednost stopnje dobička - se določi s formulo:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Kje R i– stopnja dobička za jazčasovno obdobje.

Denimo, da je začetna naložba 100.000 $. Do konca prvega leta pade na 50.000 $, do konca drugega leta pa se povrne na začetno raven 100.000 $. Stopnja donosa te naložbe v dveh letih -letno obdobje je enako 0, saj sta začetni in končni znesek sredstev enaka. Vendar pa je aritmetično povprečje letnih stopenj donosa = (–0,5 + 1) / 2 = 0,25 ali 25 %, saj je stopnja donosa v prvem letu R 1 = (50.000 – 100.000) / 100.000 = –0,5, in v drugem R 2 = (100.000 – 50.000) / 50.000 = 1. Hkrati je geometrična sredina vrednosti stopnje dobička za dve leti enaka: G = [(1–0,5) * (1+ 1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Geometrijska sredina torej bolj natančno odraža spremembo (natančneje odsotnost sprememb) obsega investicij v dveletnem obdobju kot aritmetična sredina.

Zanimiva dejstva. Prvič, geometrična sredina bo vedno manjša od aritmetične sredine istih števil. Razen v primeru, ko so vse vzete številke med seboj enake. Drugič, z upoštevanjem lastnosti pravokotnega trikotnika lahko razumete, zakaj se povprečje imenuje geometrijsko. Višina pravokotnega trikotnika, spuščena na hipotenuzo, je povprečni sorazmernik med projekcijama krakov na hipotenuzo, vsak krak pa je povprečni sorazmernik med hipotenuzo in njeno projekcijo na hipotenuzo (slika 5). To daje geometrijski način za konstruiranje geometrične sredine dveh segmentov (dolžin): sestaviti morate krog na vsoti teh dveh segmentov kot premera, nato pa višino, obnovljeno od točke njune povezave do presečišča s krogom bo dal želeno vrednost:

riž. 5. Geometrična narava geometrijske sredine (slika iz Wikipedije)

Druga pomembna lastnost numeričnih podatkov je njihova variacija, ki označuje stopnjo razpršenosti podatkov. Dva različna vzorca se lahko razlikujeta v srednjih vrednostih in variancah. Vendar, kot je prikazano na sl. 6 in 7 imata lahko dva vzorca enake variacije, vendar različna povprečja, ali ista povprečja in popolnoma različne variacije. Podatki, ki ustrezajo poligonu B na sl. 7, spreminjajo veliko manj kot podatki, na podlagi katerih je bil poligon A zgrajen.

riž. 6. Dve simetrični zvonasti porazdelitvi z enakim razmazom in različnimi srednjimi vrednostmi

riž. 7. Dve simetrični zvonasti porazdelitvi z enakimi srednjimi vrednostmi in različnimi razmiki

Obstaja pet ocen variacije podatkov:

Obseg

Razpon je razlika med največjim in najmanjšim elementom vzorca:

Razpon = XNajveč – XMin

Razpon vzorca, ki vsebuje povprečne letne donose 15 vzajemnih skladov z zelo visokim tveganjem, je mogoče izračunati z uporabo urejene matrike (glej sliko 4): Razpon = 18,5 – (–6,1) = 24,6. To pomeni, da je razlika med najvišjo in najnižjo povprečno letno donosnostjo zelo tveganih skladov 24,6 %.

Obseg meri celotno širjenje podatkov. Čeprav je obseg vzorca zelo preprosta ocena celotnega širjenja podatkov, je njegova slabost v tem, da ne upošteva natančno, kako so podatki porazdeljeni med najmanjše in največje elemente. Ta učinek je jasno viden na sl. 8, ki prikazuje vzorce z enakim obsegom. Lestvica B dokazuje, da če vzorec vsebuje vsaj eno ekstremno vrednost, je obseg vzorca zelo nenatančna ocena širjenja podatkov.

riž. 8. Primerjava treh vzorcev z enakim razponom; trikotnik simbolizira nosilec lestvice, njegova lokacija pa ustreza vzorčni sredini

Interkvartilni razpon

Interkvartil ali povprečje je razlika med tretjim in prvim kvartilom vzorca:

Interkvartilni razpon = Q 3 – Q 1

Ta vrednost nam omogoča, da ocenimo razpršitev 50 % elementov in ne upoštevamo vpliva ekstremnih elementov. Interkvartilni razpon vzorca, ki vsebuje povprečne letne donose 15 vzajemnih skladov z zelo visokim tveganjem, je mogoče izračunati z uporabo podatkov na sliki. 4 (na primer za funkcijo QUARTILE.EXC): interkvartilni razpon = 9,8 – (–0,7) = 10,5. Interval, omejen s številkama 9,8 in -0,7, se pogosto imenuje srednja polovica.

Upoštevati je treba, da vrednosti Q 1 in Q 3 in s tem interkvartilni razpon niso odvisne od prisotnosti izstopajočih vrednosti, saj njihov izračun ne upošteva nobene vrednosti, ki bi bila manjša od Q 1 ali večja kot Q 3 . Skupaj kvantitativne značilnosti vrednosti, kot so mediana, prvi in ​​tretji kvartil ter interkvartilni razpon, na katere ne vplivajo odstopanja, se imenujejo robustne mere.

Čeprav razpon in interkvartilni razpon zagotavljata ocene celotnega oziroma povprečnega razmika vzorca, nobena od teh ocen ne upošteva natančno, kako so podatki porazdeljeni. Varianca in standardni odklon so brez te pomanjkljivosti. Ti kazalniki vam omogočajo, da ocenite stopnjo nihanja podatkov okoli povprečne vrednosti. Varianca vzorca je približek aritmetične sredine, izračunane iz kvadratov razlik med vsakim vzorčnim elementom in vzorčno sredino. Za vzorec X 1, X 2, ... X n je vzorčna varianca (označena s simbolom S 2) podana z naslednjo formulo:

Na splošno je vzorčna varianca vsota kvadratov razlik med vzorčnimi elementi in vzorčno srednjo vrednostjo, deljena z vrednostjo, ki je enaka velikosti vzorca minus ena:

Kje - aritmetična sredina, n- Velikost vzorca, X i - jaz izbirni element X. V Excelu do različice 2007 za izračune vzorčna varianca uporabljena je bila funkcija =DISP(), od različice 2010 pa funkcija =DISP.V().

Najbolj praktična in splošno sprejeta ocena širjenja podatkov je standardni odklon vzorca. Ta indikator je označen s simbolom S in je enak kvadratni koren iz vzorčne variance:

V Excelu pred različico 2007 je bila za izračun standardnega vzorčnega odklona uporabljena funkcija =STDEV.(), od različice 2010 dalje pa funkcija =STDEV.V(). Za izračun teh funkcij je podatkovno polje lahko neurejeno.

Niti vzorčna varianca niti vzorčni standardni odklon ne moreta biti negativna. Edina situacija, v kateri sta lahko indikatorja S 2 in S enaka nič, je, če so vsi elementi vzorca med seboj enaki. V tem popolnoma neverjetnem primeru sta tudi razpon in interkvartilni razpon nič.

Številčni podatki so sami po sebi spremenljivi. Vsaka spremenljivka lahko sprejme veliko različne pomene. Na primer, različni vzajemni skladi imajo različne stopnje donosa in izgube. Zaradi variabilnosti numeričnih podatkov je zelo pomembno preučevati ne le ocene povprečja, ki so sumarne narave, ampak tudi ocene variance, ki označujejo širjenje podatkov.

Disperzija in standardni odklon vam omogočata, da ocenite širjenje podatkov okoli povprečne vrednosti, z drugimi besedami, določite, koliko vzorčnih elementov je nižjih od povprečja in koliko večjih. Disperzija ima nekaj dragocenih matematičnih lastnosti. Vendar je njegova vrednost kvadrat merske enote - kvadratni odstotek, kvadratni dolar, kvadratni palec itd. Zato je naravna mera razpršenosti standardni odklon, ki je izražen v običajnih enotah odstotka dohodka, dolarjih ali palcih.

Standardni odklon vam omogoča, da ocenite količino variacije vzorčnih elementov okoli povprečne vrednosti. V skoraj vseh situacijah je večina opazovanih vrednosti v območju plus ali minus en standardni odklon od povprečja. Posledično je ob poznavanju aritmetične sredine vzorčnih elementov in standardnega vzorčnega odklona mogoče določiti interval, ki mu pripada večina podatkov.

Standardni odklon donosov za 15 vzajemnih skladov z zelo visokim tveganjem je 6,6 (slika 9). To pomeni, da se donosnost večine skladov od povprečne vrednosti razlikuje za največ 6,6 % (tj. niha v območju od – S= 6,2 – 6,6 = –0,4 do +S= 12,8). Pravzaprav je petletni povprečni letni donos 53,3 % (8 od 15) skladov znotraj tega razpona.

riž. 9. Standardni odklon vzorca

Upoštevajte, da so pri seštevanju kvadratov razlik vzorčni elementi, ki so bolj oddaljeni od povprečja, ponderirani močneje kot elementi, ki so bližje povprečju. Ta lastnost je glavni razlog, zakaj se aritmetična sredina najpogosteje uporablja za oceno srednje vrednosti porazdelitve.

Koeficient variacije

Za razliko od prejšnjih ocen razpršenosti je koeficient variacije relativna ocena. Vedno se meri v odstotkih in ne v enotah izvirnih podatkov. Koeficient variacije, označen s simboli CV, meri disperzijo podatkov okoli srednje vrednosti. Koeficient variacije je enak standardni deviaciji, deljeni z aritmetično sredino in pomnoženi s 100 %:

Kje S- standardni odklon vzorca, - povprečje vzorca.

Koeficient variacije omogoča primerjavo dveh vzorcev, katerih elementi so izraženi v različnih merskih enotah. Na primer, vodja službe za dostavo pošte namerava obnoviti svojo floto tovornjakov. Pri nalaganju paketov je treba upoštevati dve omejitvi: težo (v funtih) in prostornino (v kubičnih čevljih) vsakega paketa. Recimo, da je v vzorcu, ki vsebuje 200 vreč, povprečna teža 26,0 funtov, standardni odklon teže 3,9 funtov, povprečna prostornina vreče 8,8 kubičnih čevljev in standardni odklon prostornine 2,2 kubičnih čevljev. Kako primerjati razlike v teži in prostornini paketov?

Ker se merske enote za težo in prostornino med seboj razlikujejo, mora vodja primerjati relativno širjenje teh količin. Koeficient variacije teže je CV W = 3,9 / 26,0 * 100 % = 15 %, koeficient variacije prostornine pa je CV V = 2,2 / 8,8 * 100 % = 25 %. Tako je relativna variacija v prostornini paketov veliko večja od relativne variacije v njihovi teži.

Obrazec za distribucijo

Tretja pomembna lastnost vzorca je oblika njegove porazdelitve. Ta porazdelitev je lahko simetrična ali asimetrična. Za opis oblike porazdelitve je treba izračunati njeno povprečje in mediano. Če sta oba enaka, velja, da je spremenljivka simetrično porazdeljena. Če je srednja vrednost spremenljivke večja od mediane, ima njena porazdelitev pozitivno asimetrijo (slika 10). Če je mediana večja od povprečja, je porazdelitev spremenljivke negativno poševna. Pozitivna asimetrija se pojavi, ko se povprečje poveča do nenavadnega obsega visoke vrednosti. Negativna asimetrija se pojavi, ko se povprečje zmanjša na nenavadno majhne vrednosti. Spremenljivka je simetrično porazdeljena, če ne zavzame nobenih ekstremnih vrednosti v obe smeri, tako da se velike in majhne vrednosti spremenljivke medsebojno izničijo.

riž. 10. Tri vrste distribucij

Podatki, prikazani na lestvici A, so negativno poševni. Ta slika prikazuje dolg rep in poševnost v levo, ki jo povzroča prisotnost nenavadno majhnih vrednosti. Te izjemno majhne vrednosti premaknejo povprečno vrednost v levo, zaradi česar je manjša od mediane. Podatki, prikazani na lestvici B, so porazdeljeni simetrično. Leva in desna polovica porazdelitve sta zrcalni sliki samih sebe. Velike in majhne vrednosti se uravnotežijo, povprečje in mediana pa sta enaki. Podatki, prikazani na lestvici B, so pozitivno izkrivljeni. Ta slika prikazuje dolg rep in poševnost v desno, ki sta posledica prisotnosti nenavadno visokih vrednosti. Te prevelike vrednosti premaknejo povprečje v desno, zaradi česar je večje od mediane.

V Excelu lahko opisno statistiko pridobite z dodatkom Paket analize. Pojdite skozi meni podatkiAnaliza podatkov, v oknu, ki se odpre, izberite vrstico Opisna statistika in kliknite V redu. V oknu Opisna statistika obvezno navedite Interval vnosa(Slika 11). Če želite videti opisno statistiko na istem listu kot izvirni podatki, izberite izbirni gumb Izhodni interval in določite celico, kamor naj bo postavljen zgornji levi kot prikazane statistike (v našem primeru $C$1). Če želite izpisati podatke na nov list ali nov delovni zvezek, morate samo izbrati ustrezen izbirni gumb. Potrdite polje zraven Sumarna statistika. Po želji lahko tudi izbirate težavnostna stopnja,kth najmanjši ink-ti največji.

Če na depozit podatki v območju Analiza ne vidite ikone Analiza podatkov, morate najprej namestiti dodatek Paket analize(glej na primer).

riž. 11. Opisna statistika petletnih povprečnih letnih donosov skladov z zelo visokimi stopnjami tveganja, izračunana z dodatkom Analiza podatkov Excel programi

Excel izračuna številne zgoraj obravnavane statistike: povprečje, mediano, način, standardni odklon, varianco, razpon ( interval), najmanjša, največja in velikost vzorca ( preverite). Excel izračuna tudi nekatere statistike, ki so za nas nove: standardna napaka, kurtosis in asimetrija. Standardna napaka enaka standardnemu odklonu, deljenemu s kvadratnim korenom velikosti vzorca. Asimetrija označuje odstopanje od simetrije porazdelitve in je funkcija, ki je odvisna od kuba razlik med vzorčnimi elementi in povprečno vrednostjo. Kurtoza je merilo relativne koncentracije podatkov okoli povprečja v primerjavi z repi porazdelitve in je odvisno od razlik med vzorčnimi elementi in povprečjem, povišanim na četrto potenco.

Izračun deskriptivne statistike za populacijo

Srednja vrednost, razpon in oblika zgoraj obravnavane porazdelitve so značilnosti, določene iz vzorca. Če pa nabor podatkov vsebuje numerične meritve celotne populacije, je mogoče njene parametre izračunati. Ti parametri vključujejo pričakovana vrednost, varianco in standardni odklon populacije.

Pričakovana vrednost enaka vsoti vseh vrednosti v populaciji, deljeni z velikostjo populacije:

Kje µ - pričakovana vrednost, Xjaz- jaz th opazovanje spremenljivke X, N- obseg splošne populacije. V Excelu se za izračun matematičnega pričakovanja uporablja ista funkcija kot za aritmetično povprečje: =AVERAGE().

Varianca populacije enaka vsoti kvadratov razlik med elementi generalne populacije in mat. pričakovanje deljeno z velikostjo populacije:

Kje σ 2– razpršenost splošne populacije. V Excelu pred različico 2007 se funkcija =VARP() uporablja za izračun variance populacije, začenši z različico 2010 =VARP().

Standardni odklon populacije enako kvadratnemu korenu variance populacije:

V Excelu pred različico 2007 se funkcija =STDEV() uporablja za izračun standardnega odklona populacije, začenši z različico 2010 =STDEV.Y(). Upoštevajte, da se formule za populacijsko varianco in standardni odklon razlikujejo od formul za izračun vzorčne variance in standardnega odklona. Pri izračunu vzorčne statistike S 2 in S imenovalec ulomka je n – 1, in pri izračunu parametrov σ 2 in σ - obseg splošne populacije N.

Osnovno pravilo

V večini primerov je velik delež opazovanj skoncentriran okoli mediane in tvori skupino. V nizih podatkov s pozitivno asimetrijo se ta grozd nahaja levo (tj. pod) matematičnim pričakovanjem, v nizih z negativno asimetrijo pa se ta gruče nahaja desno (tj. nad) matematičnim pričakovanjem. Pri simetričnih podatkih sta povprečje in mediana enaki, opazovanja pa se združujejo okoli povprečja in tvorijo zvonasto porazdelitev. Če porazdelitev ni jasno poševna in so podatki koncentrirani okoli težišča, je pravilo, ki ga je mogoče uporabiti za oceno variabilnosti, da če imajo podatki zvonasto porazdelitev, je približno 68 % opazovanj znotraj eno standardno deviacijo pričakovane vrednosti.približno 95 % opazovanj ni več kot dve standardni deviaciji oddaljeno od matematičnega pričakovanja in 99,7 % opazovanj ni več kot tri standardne deviacije oddaljeno od matematičnega pričakovanja.

Tako standardni odklon, ki je ocena povprečne variacije okoli pričakovane vrednosti, pomaga razumeti, kako so opazovanja porazdeljena, in identificirati izstopajoče vrednosti. Osnovno pravilo je, da se za zvonaste porazdelitve samo ena vrednost od dvajsetih razlikuje od matematičnega pričakovanja za več kot dva standardna odklona. Zato so vrednosti zunaj intervala µ ± 2σ, se lahko štejejo za izstopajoče. Poleg tega se samo tri od 1000 opazovanj razlikujejo od matematičnega pričakovanja za več kot tri standardne deviacije. Torej vrednosti izven intervala µ ± 3σ so skoraj vedno izstopajoči. Za porazdelitve, ki so zelo poševne ali niso zvonaste, je mogoče uporabiti pravilo Bienamay-Chebysheva.

Pred več kot sto leti sta matematika Bienamay in Chebyshev neodvisno odkrila uporabno lastnost standardnega odklona. Ugotovili so, da je za kateri koli niz podatkov, ne glede na obliko porazdelitve, odstotek opazovanj, ki ležijo v oddaljenosti od k standardni odkloni od matematičnega pričakovanja, ne manj (1 – 1/ k 2)*100 %.

Na primer, če k= 2, pravilo Bienname-Chebyshev navaja, da mora vsaj (1 – (1/2) 2) x 100 % = 75 % opazovanj ležati v intervalu µ ± 2σ. To pravilo velja za vse k, ki presega eno. Pravilo Bienamay-Chebysheva je zelo splošno in velja za porazdelitve katere koli vrste. Določa najmanjše število opazovanj, od katerih razdalja do matematičnega pričakovanja ne presega določene vrednosti. Če pa je porazdelitev v obliki zvona, pravilo natančneje oceni koncentracijo podatkov okoli pričakovane vrednosti.

Izračun deskriptivne statistike za porazdelitev na podlagi frekvence

Če izvirni podatki niso na voljo, postane frekvenčna porazdelitev edini vir informacij. V takšnih situacijah je mogoče izračunati približne vrednosti kvantitativnih kazalcev porazdelitve, kot so aritmetična sredina, standardni odklon in kvartili.

Če so vzorčni podatki predstavljeni kot frekvenčna porazdelitev, je mogoče izračunati približek aritmetične sredine ob predpostavki, da so vse vrednosti v vsakem razredu koncentrirane na sredini razreda:

Kje - povprečje vzorca, n- število opazovanj ali velikost vzorca, z- število razredov v frekvenčni porazdelitvi, m j- sredina j razred, fj- ustrezna frekvenca j- razred.

Za izračun standardnega odklona od frekvenčne porazdelitve se tudi predpostavlja, da so vse vrednosti znotraj vsakega razreda koncentrirane na sredini razreda.

Da bi razumeli, kako se kvartili serije določajo na podlagi frekvenc, upoštevajte izračun spodnjega kvartila na podlagi podatkov za leto 2013 o porazdelitvi ruskega prebivalstva glede na povprečni denarni dohodek na prebivalca (slika 12).

riž. 12. Delež ruskega prebivalstva s povprečnim denarnim dohodkom na prebivalca na mesec, rubljev

Za izračun prvega kvartila niza intervalnih variacij lahko uporabite formulo:

kjer je Q1 vrednost prvega kvartila, xQ1 je spodnja meja intervala, ki vsebuje prvi kvartil (interval je določen z akumulirano frekvenco, ki prva preseže 25 %); i – vrednost intervala; Σf – vsota frekvenc celotnega vzorca; verjetno vedno enako 100 %; SQ1–1 – akumulirana frekvenca intervala pred intervalom, ki vsebuje spodnji kvartil; fQ1 – frekvenca intervala, ki vsebuje spodnji kvartil. Formula za tretji kvartil se razlikuje po tem, da morate na vseh mestih uporabiti Q3 namesto Q1 in nadomestiti ¾ namesto ¼.

V našem primeru (slika 12) je spodnji kvartil v območju 7000,1 – 10.000, katerega akumulirana frekvenca je 26,4 %. Spodnja meja tega intervala je 7000 rubljev, vrednost intervala je 3000 rubljev, akumulirana frekvenca intervala pred intervalom, ki vsebuje spodnji kvartil, je 13,4%, frekvenca intervala, ki vsebuje spodnji kvartil, je 13,0%. Tako: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 rub.

Pasti, povezane z opisno statistiko

V tej objavi smo pogledali, kako opisati nabor podatkov z uporabo različnih statističnih podatkov, ki ocenjujejo njegovo povprečje, širjenje in porazdelitev. Naslednji korak je analiza in interpretacija podatkov. Do sedaj smo proučevali objektivne lastnosti podatkov, sedaj pa prehajamo na njihovo subjektivno interpretacijo. Raziskovalec se sooča z dvema napakama: nepravilno izbranim predmetom analize in nepravilno interpretacijo rezultatov.

Analiza donosov 15 zelo tveganih vzajemnih skladov je precej nepristranska. Pripeljal je do povsem objektivnih zaključkov: vsi vzajemni skladi imajo različne donose, razpon donosov skladov se giblje od -6,1 do 18,5, povprečna donosnost pa je 6,08. Objektivnost analize podatkov je zagotovljena s pravilno izbiro sumarnih kvantitativnih kazalnikov porazdelitve. Obravnavanih je bilo več metod za ocenjevanje povprečja in razpršenosti podatkov ter prikazane njihove prednosti in slabosti. Kako izbrati pravo statistiko za objektivno in nepristransko analizo? Če je porazdelitev podatkov rahlo poševna, ali bi morali izbrati mediano namesto povprečja? Kateri indikator natančneje označuje širjenje podatkov: standardni odklon ali razpon? Ali naj poudarimo, da je distribucija pozitivno nagnjena?

Po drugi strani pa je interpretacija podatkov subjektiven proces. Različni ljudje pridejo do različnih zaključkov pri interpretaciji istih rezultatov. Vsak ima svoje stališče. Nekdo meni, da so skupni povprečni letni donosi 15 skladov z zelo visoko stopnjo tveganja dobri in je zelo zadovoljen s prejetim dohodkom. Drugi morda menijo, da imajo ti skladi prenizke donose. Tako je treba subjektivnost nadomestiti s poštenostjo, nevtralnostjo in jasnostjo sklepov.

Etična vprašanja

Analiza podatkov je neločljivo povezana z etičnimi vprašanji. Biti morate kritični do informacij, ki jih širijo časopisi, radio, televizija in internet. Sčasoma se boste naučili biti skeptični ne le do rezultatov, ampak tudi do ciljev, predmeta in objektivnosti raziskave. Najbolje je povedal slavni britanski politik Benjamin Disraeli: »Obstajajo tri vrste laži: laž, očitna laž in statistiko."

Kot je navedeno v opombi, se pri izbiri rezultatov, ki naj bodo predstavljeni v poročilu, pojavijo etična vprašanja. Morali bi objaviti tako pozitivne kot negativni rezultati. Poleg tega morajo biti pri izdelavi poročila ali pisnega poročila rezultati predstavljeni pošteno, nevtralno in objektivno. Treba je razlikovati med neuspešnimi in nepoštenimi predstavitvami. Za to je treba ugotoviti, kakšne so bile namere govorca. Včasih govorec pomembne informacije izpusti zaradi nevednosti, včasih pa namerno (na primer, če z aritmetično sredino oceni povprečje očitno izkrivljenih podatkov, da bi dobil želeni rezultat). Nepošteno je tudi zamolčanje rezultatov, ki ne ustrezajo raziskovalčevemu stališču.

Uporabljeno je gradivo iz knjige Levin et al. Statistika za menedžerje. – M.: Williams, 2004. – str. 178–209

Funkcija QUARTILE je bila ohranjena zaradi združljivosti s starejšimi različicami Excela.

V statistiki se uporabljajo različne vrste povprečij, ki so razdeljena v dva velika razreda:

Sredstva moči (harmonična sredina, geometrična sredina, aritmetična sredina, kvadratna sredina, kubična sredina);

Strukturna sredstva (mod, mediana).

Za izračun povprečja moči potrebno je uporabiti vse razpoložljive karakteristične vrednosti. Moda in mediana so določeni samo s strukturo porazdelitve, zato jih imenujemo strukturna, položajna povprečja. Mediana in način se pogosto uporabljata kot povprečna značilnost v tistih populacijah, kjer je izračun zakona povprečne moči nemogoč ali neizvedljiv.

Najpogostejša vrsta povprečja je aritmetična sredina. Spodaj aritmetična sredina razumemo kot vrednost lastnosti, ki bi jo imela vsaka enota populacije, če bi bila skupna vsota vseh vrednosti značilnosti enakomerno porazdeljena med vse enote populacije. Izračun te vrednosti se zmanjša na seštevanje vseh vrednosti spremenljive značilnosti in deljenje dobljenega zneska s skupnim številom enot v populaciji. Pet delavcev je na primer izpolnilo naročilo za izdelavo delov, medtem ko je prvi izdelal 5 delov, drugi 7, tretji 4, četrti 10, peti 12. Ker je v izvornih podatkih vrednost vsakega možnost pojavila samo enkrat, za določitev

Za določitev povprečne proizvodnje enega delavca je treba uporabiti preprosto formulo za aritmetično povprečje:

v našem primeru je povprečna proizvodnja enega delavca enaka

Skupaj s preprosto aritmetično sredino preučujejo tehtano aritmetično povprečje. Na primer, izračunajmo povprečna starostštudentje v skupini 20 oseb, starih od 18 do 22 let, kjer xi– različice značilnosti, ki se povprečijo, fi– frekvenca, ki kaže, kolikokrat se pojavi i-ti vrednosti v agregatu (tabela 5.1).

Tabela 5.1

Povprečna starost študentov

Z uporabo formule utežene aritmetične sredine dobimo:


Za izbiro utežene aritmetične sredine obstaja določeno pravilo: če obstaja niz podatkov o dveh kazalnikih, za katerega je treba izračunati enega

Povprečna vrednost, hkrati pa so znane numerične vrednosti imenovalca njegove logične formule, vrednosti števca pa niso znane, vendar jih je mogoče najti kot produkt teh kazalnikov, potem je treba izračunati povprečno vrednost z uporabo formule utežene aritmetične sredine.

V nekaterih primerih je narava začetnih statističnih podatkov takšna, da izračun aritmetičnega povprečja izgubi pomen in je edini posploševalni indikator lahko le druga vrsta povprečne vrednosti - harmonično povprečje. Trenutno so računske lastnosti aritmetične sredine izgubile pomen pri izračunu splošnih statističnih kazalcev zaradi razširjene uvedbe elektronske računalniške tehnologije. Harmonična povprečna vrednost, ki je lahko tudi enostavna in utežena, je pridobila velik praktični pomen. Če so znane numerične vrednosti števca logične formule in so vrednosti imenovalca neznane, vendar jih je mogoče najti kot delno delitev enega indikatorja z drugim, se povprečna vrednost izračuna z uporabo harmonike formula tehtanega povprečja.

Naj na primer ve, da je avto prvih 210 km prevozil s hitrostjo 70 km/h, preostalih 150 km pa s hitrostjo 75 km/h. Nemogoče je določiti povprečno hitrost avtomobila na celotnem potovanju 360 km z uporabo formule za aritmetično povprečje. Ker so možnosti hitrosti v posameznih odsekih xj= 70 km/h in X2= 75 km/h in se uteži (fi) štejejo za ustrezne odseke poti, potem zmnožki možnosti in uteži ne bodo imeli ne fizičnega ne ekonomskega pomena. Količniki v tem primeru dobijo pomen z razdelitvijo odsekov poti na ustrezne hitrosti (možnosti xi), to je čas, porabljen za prehod posameznih odsekov poti (fi / xi). Če segmente poti označimo s fi, bo celotna pot izražena kot?fi, čas, porabljen na celotni poti, pa kot?fi. fi / xi , Nato je povprečno hitrost mogoče najti kot količnik celotne poti, deljen s skupnim porabljenim časom:

V našem primeru dobimo:

Če so pri uporabi harmonične sredine uteži vseh možnosti (f) enake, lahko namesto utežene uporabite enostavna (neutežena) harmonična sredina:

kjer so xi posamezne možnosti; n– število variant značilnosti, ki se povpreči. V primeru hitrosti bi lahko uporabili preprosto harmonično povprečje, če bi bili segmenti poti, prevoženi z različnimi hitrostmi, enaki.

Vsako povprečno vrednost je treba izračunati tako, da se, ko nadomesti vsako različico povprečne značilnosti, vrednost nekega končnega splošnega kazalnika, ki je povezan s povprečenim kazalnikom, ne spremeni. Tako se pri zamenjavi dejanskih hitrosti na posameznih odsekih poti z njihovo povprečno vrednostjo (povprečna hitrost) skupna razdalja ne bi smela spremeniti.

Oblika (formula) povprečne vrednosti je določena z naravo (mehanizmom) razmerja tega končnega kazalnika s povprečnim, zato je končni indikator, katerega vrednost se ne sme spremeniti pri zamenjavi možnosti z njihovo povprečno vrednostjo. klical opredelitveni indikator.Če želite izpeljati formulo za povprečje, morate ustvariti in rešiti enačbo z uporabo razmerja med povprečnim indikatorjem in odločilnim. Ta enačba je sestavljena tako, da se različice povprečne značilnosti (kazalnika) nadomestijo z njihovo povprečno vrednostjo.

Poleg aritmetične sredine in harmonične sredine se v statistiki uporabljajo tudi druge vrste (oblike) sredine. Vsi so posebni primeri povprečna moč.Če izračunamo vse vrste povprečij moči za iste podatke, potem vrednosti

se bodo izkazale za enake, tukaj velja pravilo major-stopnja povprečje. Z naraščanjem eksponenta povprečja se povečuje tudi sama povprečna vrednost. Najpogosteje uporabljene formule za izračun različnih vrst povprečij moči v praktičnih raziskavah so predstavljene v tabeli. 5.2.

Tabela 5.2

Vrste močnostnih sredstev


Geometrična sredina se uporablja, kadar obstaja n koeficientov rasti, medtem ko so posamezne vrednosti značilnosti praviloma relativne dinamične vrednosti, zgrajene v obliki verižnih vrednosti, kot razmerje do prejšnje ravni vsake stopnje v dinamični seriji. Povprečje torej označuje povprečno stopnjo rasti. Povprečno geometrijsko preprosto izračunano po formuli

Formula utežena geometrična sredina ima naslednjo obliko:

Zgornje formule so enake, vendar se ena uporablja za trenutne koeficiente ali stopnje rasti, druga pa za absolutne vrednosti ravni serije.

Srednji kvadrat uporablja se pri izračunih z vrednostmi kvadratnih funkcij, uporablja se za merjenje stopnje nihanja posameznih vrednosti značilnosti okoli aritmetične sredine v nizu porazdelitve in se izračuna po formuli

Uteženi srednji kvadrat izračunano po drugi formuli:

Povprečna kubična se uporablja pri računanju z vrednostmi kubičnih funkcij in se izračuna po formuli

povprečna kubična teža:

Vse zgoraj obravnavane povprečne vrednosti je mogoče predstaviti v obrazcu splošna formula:

kje je povprečna vrednost; – individualni pomen; n– število enot proučevane populacije; k– eksponent, ki določa vrsto povprečja.

Če uporabljate iste izvorne podatke, več k v splošni formuli za povprečje moči je večja povprečna vrednost. Iz tega sledi, da obstaja naravno razmerje med vrednostmi povprečij moči:

Zgoraj opisane povprečne vrednosti dajejo splošno predstavo o populaciji, ki se preučuje, in s tega vidika je njihov teoretični, uporabni in izobraževalni pomen nesporen. Vendar se zgodi, da povprečna vrednost ne sovpada z nobeno od dejansko obstoječih možnosti, zato je poleg obravnavanih povprečij v statistični analizi priporočljivo uporabiti vrednosti določenih možnosti, ki zasedajo zelo specifičen položaj v urejene (rangirane) serije vrednosti atributov. Med temi količinami so najpogosteje uporabljene strukturno, oz opisno, povprečno– način (Mo) in mediana (Me).

Moda– vrednost lastnosti, ki se najpogosteje pojavlja v določeni populaciji. V zvezi z variacijsko serijo je način najpogosteje pojavljajoča se vrednost rangirane serije, to je možnost z največjo frekvenco. Modo je mogoče uporabiti pri določanju trgovin, ki so pogosteje obiskane, najpogostejše cene za kateri koli izdelek. Prikazuje velikost značilnosti, ki je značilna za pomemben del populacije in je določena s formulo

kjer je x0 spodnja meja intervala; h– velikost intervala; fm– intervalna frekvenca; fm_ 1 – frekvenca prejšnjega intervala; fm+ 1 – frekvenca naslednjega intervala.

Mediana pokliče se možnost, ki se nahaja na sredini uvrščene vrstice. Mediana deli niz na dva enaka dela tako, da je na obeh straneh enako število populacijskih enot. V tem primeru ima polovica enot v populaciji vrednost spremenljive značilnosti manjšo od mediane, druga polovica pa večjo vrednost od nje. Mediana se uporablja pri proučevanju elementa, katerega vrednost je večja ali enaka ali hkrati manjša ali enaka polovici elementov niza porazdelitve. Mediana daje splošna ideja o tem, kje so koncentrirane vrednosti atributa, z drugimi besedami, kje se nahaja njihovo središče.

Opisna narava mediane se kaže v tem, da označuje kvantitativno mejo vrednosti spremenljive značilnosti, ki jo ima polovica enot v populaciji. Problem iskanja mediane za diskretno variacijsko vrsto je enostavno rešljiv. Če so vse enote serije podane serijske številke, potem je serijska številka mediane možnosti določena kot (n + 1) / 2 z lihim številom članov n. Če je število članov serije sodo število , potem bo mediana povprečna vrednost dveh možnosti, ki imata serijski številki n/ 2 in n/ 2 + 1.

Pri določanju mediane v intervalnih variacijskih serijah najprej določimo interval, v katerem se nahaja (mediani interval). Za ta interval je značilno, da je njegova skupna vsota frekvenc enaka ali presega polovico vsote vseh frekvenc niza. Mediana niza intervalnih variacij se izračuna po formuli

Kje X0– spodnja meja intervala; h– velikost intervala; fm– intervalna frekvenca; f– število članov serije;

M -1 – vsota akumuliranih členov niza pred danim.

Skupaj z mediano za več polne lastnosti strukture proučevane populacije uporabljajo tudi druge vrednosti možnosti, ki zasedajo zelo specifičen položaj v rangirani seriji. Tej vključujejo kvartili in decili. Kvartili razdelijo niz glede na vsoto frekvenc na 4 enake dele, decili pa na 10 enakih delov. Obstajajo trije kvartili in devet decilov.

Mediana in način, za razliko od aritmetične sredine, ne odpravita individualnih razlik v vrednosti spremenljivke in sta zato dodatni in zelo pomembni značilnosti statistične populacije. V praksi se pogosto uporabljajo namesto povprečja ali skupaj z njim. Posebej priporočljivo je izračunati mediano in način v primerih, ko proučevana populacija vsebuje določeno število enot z zelo veliko ali zelo majhno vrednostjo spremenljive značilnosti. Te vrednosti možnosti, ki niso zelo značilne za populacijo, sicer vplivajo na vrednost aritmetične sredine, vendar ne vplivajo na vrednosti mediane in mode, zaradi česar sta slednja zelo dragocena indikatorja za ekonomsko in statistično analizo.

Ta izraz ima druge pomene, glej povprečni pomen.

Povprečje(v matematiki in statistiki) množice števil - vsota vseh števil, deljena z njihovim številom. Je eno najpogostejših meril centralne tendence.

Predlagali so jo (skupaj z geometrično sredino in harmonično sredino) pitagorejci.

Posebna primera aritmetične sredine sta povprečje (generalna populacija) in vzorčno povprečje (vzorec).

Uvod

Označimo množico podatkov X = (x 1 , x 2 , …, x n), potem je vzorčno povprečje običajno označeno z vodoravno črto nad spremenljivko (x ¯ (\displaystyle (\bar (x))), izgovorjeno " x s črto").

Grška črka μ se uporablja za označevanje aritmetične sredine celotne populacije. Za naključno spremenljivko, za katero je določena srednja vrednost, je μ verjetnostno povprečje ali matematično pričakovanje naključne spremenljivke. Če nastavite X je zbirka naključnih števil z verjetnostnim povprečjem μ, potem za kateri koli vzorec x jaz iz tega niza μ = E( x jaz) je matematično pričakovanje tega vzorca.

V praksi je razlika med μ in x ¯ (\displaystyle (\bar (x))) ta, da je μ tipična spremenljivka, ker lahko vidite vzorec in ne celote splošna populacija. Torej, če je vzorec predstavljen naključno (v smislu teorije verjetnosti), potem lahko x ¯ (\displaystyle (\bar (x))) (vendar ne μ) obravnavamo kot naključno spremenljivko, ki ima na vzorcu porazdelitev verjetnosti ( verjetnostna porazdelitev povprečja).

Obe ti količini se izračunata na enak način:

X ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + ⋯ + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\cdots +x_(n)).)

če X je naključna spremenljivka, nato matematično pričakovanje X se lahko obravnava kot aritmetična sredina vrednosti pri ponavljajočih se meritvah količine X. To je manifestacija zakona velikih števil. Zato se za oceno neznane pričakovane vrednosti uporabi vzorčna sredina.

V osnovni algebri je bilo dokazano, da je povprečje n+ 1 številka nad povprečjem nštevila, če in samo, če je novo število večje od starega povprečja, manj, če in samo, če je novo število manjše od povprečja, in se ne spremeni, če in samo, če je novo število enako povprečju. Bolj n, manjša je razlika med novim in starim povprečjem.

Upoštevajte, da je na voljo več drugih "povprečij", vključno s potenčnim povprečjem, Kolmogorovim povprečjem, harmonično povprečjem, aritmetično-geometričnim povprečjem in različnimi uteženimi povprečji (npr. utežena aritmetična sredina, utežena geometrična sredina, utežena harmonična sredina).

Primeri

  • Za tri številke jih morate sešteti in deliti s 3:
x 1 + x 2 + x 3 3 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3))(3)).)
  • Za štiri številke jih morate sešteti in deliti s 4:
x 1 + x 2 + x 3 + x 4 4 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3)+x_(4))(4)).)

Ali preprosteje 5+5=10, 10:2. Ker smo seštevali 2 števili, kar pomeni, koliko števil seštejemo, s toliko delimo.

Zvezna naključna spremenljivka

Za zvezno porazdeljeno količino f (x) (\displaystyle f(x)) je aritmetična sredina na intervalu [ a ; b ] (\displaystyle ) je določen z določenim integralom:

F (x) ¯ [ a ; b ] = 1 b − a ∫ a b f (x) d x (\displaystyle (\overline (f(x)))_()=(\frac (1)(b-a))\int _(a)^(b) f(x)dx)

Nekaj ​​težav pri uporabi povprečja

Pomanjkanje robustnosti

Glavni članek: Robustnost v statistiki

Čeprav se aritmetične sredine pogosto uporabljajo kot povprečja ali osrednje tendence, ta koncept ni robustna statistika, kar pomeni, da na aritmetično sredino močno vplivajo "velika odstopanja". Omeniti velja, da za porazdelitve z velikim koeficientom asimetrije aritmetična sredina morda ne ustreza konceptu "povprečja" in vrednosti srednje vrednosti iz robustne statistike (na primer mediana) lahko bolje opišejo osrednji nagnjenost.

Klasičen primer je izračun povprečnega dohodka. Aritmetično sredino si lahko napačno razlagamo kot mediano, kar lahko privede do zaključka, da je ljudi z višjimi dohodki več, kot jih je v resnici. »Povprečni« dohodek se razlaga tako, da ima večina ljudi dohodke okoli te številke. Ta »povprečni« (v smislu aritmetične sredine) dohodek je višji od dohodkov večine ljudi, saj je zaradi visokega dohodka z velikim odstopanjem od povprečja aritmetična sredina močno zakrivljena (nasprotno pa povprečni dohodek na mediani »se upira« takšni zakrivljenosti). Vendar ta "povprečni" dohodek ne pove ničesar o številu ljudi blizu povprečnega dohodka (in ne pove nič o številu ljudi blizu modalnega dohodka). Če pa pojma "povprečje" in "večina ljudi" jemljete rahlo, lahko sklepate, da ima večina ljudi višje dohodke, kot so v resnici. Na primer, poročilo o "povprečnem" neto dohodku v Medini v Washingtonu, izračunanem kot aritmetično povprečje vseh letnih neto dohodkov prebivalcev, bi zaradi Billa Gatesa ustvarilo presenetljivo veliko število. Razmislite o vzorcu (1, 2, 2, 2, 3, 9). Aritmetična sredina je 3,17, vendar je pet od šestih vrednosti pod to srednjo vrednostjo.

Obrestno obrestovanje

Glavni članek: Donosnost naložb

Če številke pomnožiti, vendar ne zložiti, morate uporabiti geometrično sredino, ne aritmetične sredine. Najpogosteje se ta incident zgodi pri izračunu donosnosti naložbe v finance.

Na primer, če je delnica padla za 10 % v prvem letu in zrasla za 30 % v drugem, potem ni pravilno izračunati »povprečnega« povečanja v teh dveh letih kot aritmetične sredine (−10 % + 30 %) / 2. = 10 %; pravilno povprečje v tem primeru poda sestavljena letna stopnja rasti, ki daje letno stopnjo rasti le približno 8,16653826392 % ≈ 8,2 %.

Razlog za to je, da imajo odstotki vsakič novo izhodišče: 30 % je 30 %. od števila, manjšega od cene na začetku prvega leta:če je delnica začela pri 30 $ in padla za 10 %, je na začetku drugega leta vredna 27 $. Če bi delnica zrasla za 30%, bi bila ob koncu drugega leta vredna 35,1 USD. Aritmetično povprečje te rasti je 10%, a ker se je delnica v 2 letih povečala le za 5,1 USD, povprečna rast 8,2% daje končni rezultat 35,1 USD:

[30 USD (1 - 0,1) (1 + 0,3) = 30 USD (1 + 0,082) (1 + 0,082) = 35,1 USD]. Če na enak način uporabimo aritmetično povprečje 10 %, ne bomo dobili dejanske vrednosti: [30 $ (1 + 0,1) (1 + 0,1) = 36,3 $].

Obrestno obrestne obresti ob koncu 2 let: 90 % * 130 % = 117 %, to je skupno povečanje za 17 %, povprečne letne obresti pa 117 % ≈ 108,2 % (\displaystyle (\sqrt (117\% ))\približno 108,2\%) , to je povprečno letno povečanje za 8,2 %.

Navodila

Glavni članek: Statistika destinacije

Pri izračunu aritmetične sredine neke spremenljivke, ki se ciklično spreminja (na primer faza ali kot), je treba biti še posebej previden. Na primer, povprečje 1° in 359° bi bilo 1 ∘ + 359 ∘ 2 = (\displaystyle (\frac (1^(\circ )+359^(\circ ))(2))=) 180°. Ta številka je napačna iz dveh razlogov.

  • Prvič, kotne mere so določene samo za območje od 0° do 360° (ali od 0 do 2π, če jih merimo v radianih). Tako bi isti par števil lahko zapisali kot (1° in −1°) ali kot (1° in 719°). Povprečne vrednosti vsakega para bodo različne: 1 ∘ + (− 1 ∘) 2 = 0 ∘ (\displaystyle (\frac (1^(\circ )+(-1^(\circ )))(2 ))=0 ^(\circ )) , 1 ∘ + 719 ∘ 2 = 360 ∘ (\displaystyle (\frac (1^(\circ )+719^(\circ ))(2))=360^(\ krog )).
  • Drugič, v tem primeru bo vrednost 0° (ekvivalentno 360°) geometrično boljša povprečna vrednost, saj številke manj odstopajo od 0° kot od katere koli druge vrednosti (vrednost 0° ima najmanjšo varianco). Primerjaj:
    • število 1° odstopa od 0° le za 1°;
    • število 1° odstopa od izračunanega povprečja 180° za 179°.

Povprečna vrednost za ciklično spremenljivko, izračunana z zgornjo formulo, bo umetno premaknjena glede na realno povprečje proti sredini številskega območja. Zaradi tega se povprečje izračuna na drugačen način, in sicer se za povprečno vrednost izbere število z najmanjšo varianco (točka središča). Poleg tega se namesto odštevanja uporablja modularna razdalja (tj. obodna razdalja). Na primer, modularna razdalja med 1° in 359° je 2°, ne 358° (na krogu med 359° in 360°==0° - ena stopinja, med 0° in 1° - tudi 1°, skupaj - 2 °).

Vrste povprečnih vrednosti in metode njihovega izračuna

Na stopnji statistične obdelave je mogoče zastaviti vrsto raziskovalnih problemov, za rešitev katerih je potrebno izbrati ustrezno povprečje. V tem primeru je treba voditi naslednje pravilo: Količine, ki predstavljajo števec in imenovalec povprečja, morajo biti med seboj logično povezane.

  • povprečja moči;
  • strukturna povprečja.

Predstavimo naslednje konvencije:

Količine, za katere se izračuna povprečje;

Povprečje, kjer zgornji stolpec označuje, da poteka povprečenje posameznih vrednosti;

Frekvenca (ponovljivost posameznih značilnih vrednosti).

Različna povprečja so izpeljana iz splošne formule za povprečje moči:

(5.1)

ko je k = 1 - aritmetična sredina; k = -1 - harmonična sredina; k = 0 - geometrična sredina; k = -2 - povprečni kvadratni koren.

Povprečne vrednosti so lahko preproste ali tehtane. Ponderirana povprečja To so vrednosti, ki upoštevajo, da imajo lahko nekatere različice vrednosti atributov različne številke, zato je treba vsako možnost pomnožiti s tem številom. Z drugimi besedami, "lestvice" so števila agregatnih enot v različne skupine, tj. Vsaka možnost je "utežena" glede na svojo pogostost. Frekvenca f se imenuje statistična teža oz Povprečna teža.

Aritmetična sredina- najpogostejša vrsta povprečja. Uporablja se, ko se izračun izvaja na nezdruženih statističnih podatkih, kjer morate pridobiti povprečni izraz. Aritmetična sredina je povprečna vrednost lastnosti, pri kateri skupni obseg lastnosti v agregatu ostane nespremenjen.

Formula aritmetične sredine ( preprosto) ima obliko

kjer je n velikost populacije.

Na primer, povprečna plača zaposlenih v podjetju se izračuna kot aritmetično povprečje:

Odločilni kazalniki so plača vsakega zaposlenega in število zaposlenih v podjetju. Pri izračunu povprečja je skupni znesek plač ostal enak, a enakomerno porazdeljen med vse zaposlene. Na primer, morate izračunati povprečno plačo delavcev v majhnem podjetju, ki zaposluje 8 ljudi:

Pri izračunu povprečnih vrednosti se posamezne vrednosti lastnosti, ki se povprečuje, lahko ponavljajo, zato se povprečna vrednost izračuna s pomočjo združenih podatkov. V tem primeru govorimo o uporabi aritmetično povprečje tehtano, ki ima obliko

(5.3)

Izračunati moramo torej povprečno ceno delnice delniške družbe pri borznem trgovanju. Znano je, da so bile transakcije izvedene v 5 dneh (5 transakcij), število prodanih delnic po prodajnem tečaju pa je bilo razporejeno takole:

1 - 800 ak. - 1010 rubljev.

2 - 650 ak. - 990 rubljev.

3 - 700 ak. - 1015 rubljev.

4 - 550 ak. - 900 rubljev.

5 - 850 ak. - 1150 rubljev.

Začetno razmerje za določitev povprečne cene delnic je razmerje med skupnim zneskom transakcij (TVA) in številom prodanih delnic (KPA):

OSS = 1010·800+990·650+1015·700+900·550+1150·850= 3.634.500;

KPA = 800+650+700+550+850=3550.

V tem primeru je bila povprečna cena delnice enaka

Treba je poznati lastnosti aritmetičnega povprečja, kar je zelo pomembno tako za njegovo uporabo kot za izračun. Ločimo lahko tri glavne lastnosti, ki so najbolj določile široko uporabo aritmetičnega povprečja v statističnih in ekonomskih izračunih.

Lastnina ena (nič): vsota pozitivnih odstopanj posameznih vrednosti lastnosti od njene povprečne vrednosti je enaka vsoti negativnih odstopanj. To je zelo pomembna lastnost, saj kaže, da bodo vsa odstopanja (tako + kot -), ki jih povzročijo naključni razlogi, medsebojno izničena.

Dokaz:

Lastnina dve (najmanj): vsota kvadratov odstopanj posameznih vrednosti lastnosti od aritmetične sredine je manjša kot od katerega koli drugega števila (a), tj. obstaja minimalno število.

Dokaz.

Sestavimo vsoto kvadratov odstopanj od spremenljivke a:

(5.4)

Da bi našli ekstrem te funkcije, je treba njen odvod glede na a enačiti z nič:

Od tu dobimo:

(5.5)

Posledično je ekstrem vsote kvadratnih odklonov dosežen pri . Ta ekstrem je minimum, saj funkcija ne more imeti maksimuma.

Nepremičnina tri: aritmetična sredina konstantne vrednosti je enaka tej konstanti: za a = const.

Poleg teh treh najpomembnejših lastnosti aritmetične sredine obstajajo še t.i oblikovne lastnosti, ki zaradi uporabe elektronske računalniške tehnologije postopoma izgubljajo svoj pomen:

  • če posamezno vrednost atributa vsake enote pomnožimo ali delimo z stalno število, potem se bo aritmetična sredina povečala ali zmanjšala za enako količino;
  • aritmetična sredina se ne spremeni, če težo (pogostost) vsake vrednosti atributa delimo s konstantnim številom;
  • če se posamezne vrednosti atributa vsake enote zmanjšajo ali povečajo za enako količino, se bo aritmetična sredina zmanjšala ali povečala za enako količino.

Harmonično povprečje. To povprečje se imenuje inverzno aritmetično povprečje, ker se ta vrednost uporabi, ko je k = -1.

Enostavna harmonična sredina se uporablja, ko so uteži vrednosti atributov enake. Njegovo formulo lahko izpeljemo iz osnovne formule z zamenjavo k = -1:

Na primer, izračunati moramo povprečno hitrost dveh avtomobilov, ki sta prevozila isto pot, vendar pri različnih hitrostih: prvi pri hitrosti 100 km/h, drugi pri 90 km/h. Z metodo harmonične sredine izračunamo povprečno hitrost:

V statistični praksi se pogosteje uporablja harmonično uteženo, katere formula ima obliko

Ta formula se uporablja v primerih, ko uteži (ali količine pojavov) za vsak atribut niso enake. V začetnem razmerju za izračun povprečja je števec znan, imenovalec pa ni znan.

Na primer, pri izračunu povprečne cene moramo uporabiti razmerje med količino prodaje in številom prodanih enot. Ne poznamo števila prodanih enot (govorimo o različnih izdelkih), poznamo pa količine prodaje teh različnih izdelkov. Recimo, da morate ugotoviti povprečno ceno prodanega blaga:

Dobimo

Geometrijska sredina. Najpogosteje se geometrična sredina uporablja pri določanju povprečnih stopenj rasti (povprečnih koeficientov rasti), ko so posamezne vrednosti značilnosti predstavljene v obliki relativnih vrednosti. Uporablja se tudi, če je treba najti povprečje med najmanjšim in največje vrednosti značilnost (na primer med 100 in 1.000.000). Obstajajo formule za preprosto in uteženo geometrično sredino.

Za preprosto geometrijsko sredino

Za uteženo geometrično sredino

Srednja kvadratna vrednost. Glavno področje njegove uporabe je merjenje variacije značilnosti v agregatu (izračun povprečja kvadratno odstopanje).

Enostavna formula srednjega kvadrata

Utežena povprečna kvadratna formula

(5.11)

Posledično lahko rečemo, da od prava izbira Vrsta povprečne vrednosti je v vsakem posameznem primeru odvisna od uspešne rešitve statističnih raziskovalnih problemov. Izbira povprečja vključuje naslednje zaporedje:

a) določitev splošnega kazalnika populacije;

b) določitev matematičnega razmerja količin za dani splošni indikator;

c) zamenjava posameznih vrednosti s povprečnimi vrednostmi;

d) izračun povprečja z uporabo ustrezne enačbe.

Povprečja in variacije

Povprečna vrednost- to je splošni kazalnik, ki označuje kvalitativno homogeno populacijo glede na določeno kvantitativno značilnost. Na primer povprečna starost oseb, obsojenih za tatvino.

V sodni statistiki se povprečne vrednosti uporabljajo za označevanje:

Povprečni čas za obravnavo primerov te kategorije;

Povprečna velikost zahtevka;

Povprečno število tožencev na zadevo;

Povprečna škoda;

Povprečna obremenitev sodnikov itd.

Povprečje je vedno poimenovana vrednost in ima enako dimenzijo kot značilnost posamezne enote populacije. Vsaka povprečna vrednost označuje populacijo, ki jo proučujemo, glede na katero koli spremenljivo značilnost, zato se za vsako povprečno vrednostjo skriva niz porazdelitev enot te populacije glede na značilnost, ki se preučuje. Izbira vrste povprečja je določena z vsebino kazalnika in začetnimi podatki za izračun povprečne vrednosti.

Vse vrste povprečij, ki se uporabljajo v statistične raziskave, so razdeljeni v dve kategoriji:

1) povprečja moči;

2) strukturna povprečja.

Prva kategorija povprečij vključuje: aritmetična sredina, harmonična sredina, geometrična sredina in efektivna vrednost . Druga kategorija je moda in mediana. Poleg tega ima lahko vsaka od naštetih vrst povprečij moči dve obliki: preprosto in tehtano . Enostavna oblika Povprečna vrednost se uporablja za pridobitev povprečne vrednosti značilnosti, ki se proučuje, kadar se izračun izvede z uporabo nezdruženih statističnih podatkov ali kadar se vsaka možnost v agregatu pojavi samo enkrat. Utežena povprečja so vrednosti, ki upoštevajo, da imajo lahko različice vrednosti atributov različna števila, zato je treba vsako različico pomnožiti z ustrezno frekvenco. Z drugimi besedami, vsaka možnost je "utežena" s svojo pogostostjo. Pogostost se imenuje statistična utež.

Preprosta aritmetična sredina- najpogostejša vrsta povprečja. Je enak vsoti posameznih vrednosti atributa, deljeni s skupnim številom teh vrednosti:

,

Kje x 1 ,x 2 , … ,x N so posamezne vrednosti spremenljive značilnosti (variant), N pa je število enot v populaciji.

Uteženo aritmetično povprečje uporablja se v primerih, ko so podatki predstavljeni v obliki distribucijskih serij ali skupin. Izračuna se kot vsota zmnožkov opcij in njihovih ustreznih frekvenc, deljena z vsoto frekvenc vseh opcij:

Kje x i- pomen jaz-th različice značilnosti; f i– pogostost jaz-th možnosti.

Tako je vsaka vrednost variant ponderirana s svojo frekvenco, zato se pogostosti včasih imenujejo statistične uteži.

Komentiraj. Ko govorimo o aritmetični sredini, ne da bi navedli njeno vrsto, mislimo na preprosto aritmetično sredino.

Tabela 12.

rešitev. Za izračun uporabimo formulo za tehtano aritmetično povprečje:

Tako sta v povprečju dva obtoženca na eno kazensko zadevo.

Če se izračun povprečne vrednosti izvede z uporabo podatkov, združenih v obliki serije intervalne porazdelitve, morate najprej določiti srednje vrednosti vsakega intervala x"i in nato izračunati povprečno vrednost z uporabo aritmetičnega tehtanega povprečja formulo, v katero je zamenjan x"i namesto xi.

Primer. Podatki o starosti obsojenih storilcev tatvin so predstavljeni v tabeli:

Tabela 13.

Določite povprečno starost kriminalcev, obsojenih za tatvino.

rešitev. Da bi določili povprečno starost kriminalcev na podlagi serije intervalnih variacij, je treba najprej najti srednje vrednosti intervalov. Ker je podana serija intervalov s prvim in zadnjim odprtim intervalom, so vrednosti teh intervalov enake vrednostim sosednjih zaprtih intervalov. V našem primeru sta vrednosti prvega in zadnjega intervala enaki 10.

Zdaj najdemo povprečno starost kriminalcev s formulo tehtanega aritmetičnega povprečja:

Tako je povprečna starost obsojenih za tatvino približno 27 let.

Srednje harmonično preprosto predstavlja recipročno vrednost aritmetične sredine inverznih vrednosti značilnosti:

kjer je 1/ x i so inverzne vrednosti možnosti, N pa je število enot v populaciji.

Primer. Za določitev povprečne letne obremenitve sodnikov okrožnega sodišča pri obravnavanju kazenskih zadev je bila opravljena raziskava obremenitve 5 sodnikov tega sodišča. Izkazalo se je, da je povprečni čas, porabljen za eno kazensko zadevo za vsakega od anketiranih sodnikov, enak (v dnevih): 6, 0, 5, 6, 6, 3, 4, 9, 5, 4. Poiščite povprečne stroške enega kazensko zadevo in povprečno letno obremenitev sodnikov posameznega okrožnega sodišča pri obravnavanju kazenskih zadev.

rešitev. Za določitev povprečnega časa, porabljenega za eno kazensko zadevo, uporabimo harmonično povprečno formulo:

Za poenostavitev izračunov v primeru vzamemo število dni v letu 365, vključno z vikendi (to ne vpliva na metodologijo izračuna in pri izračunu podobnega kazalnika v praksi je treba nadomestiti število delovnih dni v posameznem letu namesto 365 dni). Potem bo povprečna letna obremenitev sodnikov določenega okrožnega sodišča pri obravnavanju kazenskih zadev: 365 (dni) : 5,56 ≈ 65,6 (zadeve).

Če bi uporabili preprosto aritmetično povprečno formulo za določitev povprečnega časa, porabljenega za eno kazensko zadevo, bi dobili:

365 (dnevi): 5,64 ≈ 64,7 (primeri), tj. povprečna obremenitev sodnikov se je izkazala za manjšo.

Preverimo veljavnost tega pristopa. Za to bomo uporabili podatke o času, porabljenem za eno kazensko zadevo za vsakega sodnika, in izračunali število kazenskih zadev, ki jih obravnava vsak od njih na leto.

Temu primerno dobimo:

365(dni) : 6 ≈ 61 (primeri), 365(dni) : 5,6 ≈ 65,2 (primeri), 365(dni) : 6,3 ≈ 58 (primeri),

365(dni) : 4,9 ≈ 74,5 (primeri), 365(dni) : 5,4 ≈ 68 (primeri).

Zdaj pa izračunajmo povprečno letno obremenitev sodnikov določenega okrožnega sodišča pri obravnavanju kazenskih zadev:

Tisti. povprečna letna obremenitev je enaka kot pri uporabi harmoničnega povprečja.

Zato je uporaba aritmetičnega povprečja v tem primeru nezakonita.

V primerih, ko so različice značilnosti in njihove volumetrične vrednosti (zmnožek različic in frekvence) znane, same frekvence pa niso znane, se uporabi utežena harmonična povprečna formula:

,

Kje x i so vrednosti možnosti atributa in w i so volumetrične vrednosti možnosti ( w i = x i f i).

Primer. Podatki o ceni enote istovrstnega izdelka, ki ga proizvajajo različne institucije kazenskega sistema, in o obsegu njegove prodaje so podani v tabeli 14.

Tabela 14

Poiščite povprečno prodajno ceno izdelka.

rešitev. Pri izračunu povprečne cene moramo uporabiti razmerje med količino prodaje in številom prodanih enot. Ne poznamo števila prodanih enot, poznamo pa količino prodaje blaga. Zato bomo za iskanje povprečne cene prodanega blaga uporabili formulo tehtanega harmoničnega povprečja. Dobimo

Če tukaj uporabite formulo za aritmetično povprečje, lahko dobite povprečno ceno, ki bo nerealna:

Geometrijska sredina se izračuna tako, da se iz produkta vseh vrednosti različic atributa izvleče koren stopnje N:

Kje x 1 ,x 2 , … ,x N– posamezne vrednosti spremenljive lastnosti (variant) in

N– število enot v populaciji.

Ta vrsta povprečja se uporablja za izračun povprečnih stopenj rasti časovnih vrst.

Srednji kvadrat se uporablja za izračun standardnega odklona, ​​ki je indikator variacije in bo obravnavan v nadaljevanju.

Za določitev strukture prebivalstva se uporabljajo posebni povprečni kazalniki, ki vključujejo mediana in moda , ali tako imenovana strukturna povprečja. Če je aritmetična sredina izračunana na podlagi uporabe vseh variant vrednosti atributa, potem mediana in moda označujeta vrednost variante, ki zavzema določeno povprečno mesto v rangirani (urejeni) seriji. Enote statistične populacije so lahko razvrščene v naraščajočem ali padajočem vrstnem redu glede na različice značilnosti, ki se preučuje.

Mediana (jaz)– to je vrednost, ki ustreza možnosti, ki se nahaja na sredini razvrščene serije. Tako je mediana tista različica razvrščene serije, na obeh straneh katere bi morala biti v tej seriji enako število enote populacije.

Če želite najti mediano, morate najprej določiti njeno zaporedno številko v rangirani seriji z uporabo formule:

kjer je N obseg serije (število enot v populaciji).

Če je serija sestavljena iz lihega števila členov, potem je mediana enaka opciji s številko N Me. Če je serija sestavljena iz sodega števila izrazov, potem je mediana definirana kot aritmetična sredina dveh sosednjih možnosti, ki se nahajata na sredini.

Primer. Podana je razvrščena serija 1, 2, 3, 3, 6, 7, 9, 9, 10. Prostornina serije je N = 9, kar pomeni N Me = (9 + 1) / 2 = 5. Zato je Me = 6, tj. peta možnost. Če je vrstica podana s številkami 1, 5, 7, 9, 11, 14, 15, 16, tj. serije s sodim številom členov (N = 8), potem je N Me = (8 + 1) / 2 = 4,5. To pomeni, da je mediana enaka polovici vsote četrte in pete možnosti, tj. Jaz = (9 + 11) / 2 = 10.

V seriji diskretnih variacij je mediana določena z akumuliranimi frekvencami. Pogostosti možnosti, začenši s prvo, se seštevajo, dokler ni presežena mediana. Vrednost zadnjih seštetih opcij bo mediana.

Primer. Poiščite mediano število obtoženih na kazensko zadevo s pomočjo podatkov v tabeli 12.

rešitev. V tem primeru je prostornina variacijske serije N = 154, zato je N Me = (154 + 1) / 2 = 77,5. Če seštejemo frekvence prve in druge možnosti, dobimo: 75 + 43 = 118, tj. smo presegli mediano število. Torej jaz = 2.

V seriji intervalnih variacij porazdelitev najprej označuje interval, v katerem bo mediana. Imenuje se mediana . To je prvi interval, katerega akumulirana frekvenca presega polovico volumna intervalne variacijske serije. Potem je numerična vrednost mediane določena s formulo:

Kje x Jaz– spodnja meja medianega intervala; i – vrednost medianega intervala; S Me-1– akumulirana frekvenca intervala, ki je pred mediano; f jaz– frekvenca medianega intervala.

Primer. Poiščite povprečno starost storilcev kaznivih dejanj, obsojenih za tatvino, na podlagi statističnih podatkov, predstavljenih v tabeli 13.

rešitev. Statistični podatki so predstavljeni z intervalno variacijsko serijo, kar pomeni, da najprej določimo mediani interval. Obseg populacije je N = 162, torej je mediani interval interval 18-28, ker to je prvi interval, katerega akumulirana frekvenca (15 + 90 = 105) presega polovico volumna (162: 2 = 81) intervalne variacijske serije. Zdaj določimo številsko vrednost mediane z zgornjo formulo:

Tako je polovica obsojenih za tatvino mlajših od 25 let.

Moda (Mo) Imenujejo vrednost lastnosti, ki jo najpogosteje najdemo v enotah populacije. Moda se uporablja za identifikacijo vrednosti značilnosti, ki je najbolj razširjena. Za diskretno serijo bo način možnost z najvišjo frekvenco. Na primer za diskretne serije, predstavljene v tabeli 3 Mo= 1, saj ta vrednost ustreza najvišji frekvenci - 75. Za določitev načina intervalne serije najprej določite modalno interval (interval z najvišjo frekvenco). Nato se znotraj tega intervala najde vrednost lastnosti, ki je lahko način.

Njegovo vrednost najdemo po formuli:

Kje xMo– spodnja meja modalnega intervala; i – vrednost modalnega intervala; f Mo– pogostost modalnega intervala; f Mo-1– frekvenca intervala pred modalnim; f Mo+1– frekvenca intervala, ki sledi modalnemu.

Primer. Poiščite starost storilcev kaznivih dejanj, obsojenih za tatvino, podatki o katerih so predstavljeni v tabeli 13.

rešitev. Najvišja frekvenca ustreza intervalu 18-28, zato mora biti način v tem intervalu. Njegova vrednost je določena z zgornjo formulo:

torej največje število storilca kaznivega dejanja tatvine sta stara 24 let.

Povprečna vrednost zagotavlja splošno značilnost celotnega pojava, ki ga proučujemo. Vendar pa se lahko dve populaciji, ki imata enake povprečne vrednosti, bistveno razlikujeta med seboj v stopnji nihanja (variacije) vrednosti značilnosti, ki se proučuje. Na primer, na enem sodišču so bile izrečene naslednje kazni zapora: 3, 3, 3, 4, 5, 5, 5, 12, 12, 15 let, na drugem pa 5, 5, 6, 6, 7, 7 let. , 7 , 8, 8, 8 let. V obeh primerih je aritmetična sredina 6,7 ​​leta. Vendar se te populacije med seboj bistveno razlikujejo v razmahu posameznih vrednosti dodeljene dobe zapora glede na povprečno vrednost.

In za prvo sodišče, kjer je ta razpon precej velik, povprečna doba zapora ne odraža celotne populacije. Torej, če se posamezne vrednosti značilnosti med seboj malo razlikujejo, bo aritmetična sredina dokaj indikativna značilnost lastnosti dane populacije. V nasprotnem primeru bo aritmetična sredina nezanesljiva značilnost te populacije in njena uporaba v praksi neučinkovita. Zato je treba upoštevati variacijo vrednosti značilnosti, ki se proučuje.

Različica- to so razlike v vrednostih katere koli značilnosti med različnimi enotami dane populacije v istem obdobju ali časovni točki. Izraz variacija je latinskega izvora – variatio, kar pomeni razlika, sprememba, nihanje. Nastane kot posledica dejstva, da se posamezne vrednosti lastnosti oblikujejo pod skupnim vplivom različnih dejavnikov (pogojev), ki se v vsakem različno kombinirajo. poseben primer. Za merjenje variacije lastnosti se uporabljajo različni absolutni in relativni kazalci.

Glavni kazalniki variacije vključujejo naslednje:

1) obseg variacije;

2) povprečje linearno odstopanje;

3) disperzija;

4) standardni odklon;

5) koeficient variacije.

Oglejmo si na kratko vsakega od njih.

Razpon variacije R je najbolj dostopen absolutni indikator v smislu enostavnosti izračuna, ki je opredeljen kot razlika med največjo in najmanjšo vrednostjo značilnosti za enote dane populacije:

Razpon variacije (razpon nihanj) – pomemben indikator spremenljivost znaka, vendar omogoča opazovanje le skrajnih odstopanj, kar omejuje obseg njegove uporabe. Za natančnejšo opredelitev variacije lastnosti na podlagi njene variabilnosti se uporabljajo drugi kazalci.

Povprečno linearno odstopanje predstavlja aritmetično sredino absolutnih vrednosti odstopanj posameznih vrednosti lastnosti od povprečja in je določena s formulami:

1) Za nezdruženih podatkov

2) Za variacijske serije

Vendar je najpogosteje uporabljena mera variacije disperzija . Označuje mero disperzije vrednosti značilnosti, ki se preučuje, glede na njeno povprečno vrednost. Disperzija je definirana kot povprečje odstopanj na kvadrat.

Preprosta varianta za nezdružene podatke:

.

Uteženo z varianco za variacijsko serijo:

Komentiraj. V praksi je za izračun variance bolje uporabiti naslednje formule:

Za enostavno varianto

.

Za tehtano varianco

Standardni odklon je kvadratni koren variance:

Standardni odklon je merilo zanesljivosti povprečja. Manjši kot je standardni odklon, bolj homogena je populacija in bolje aritmetična sredina odraža celotno populacijo.

Zgoraj obravnavane mere razpršenosti (razpon variacije, disperzija, standardna deviacija) so absolutni indikatorji, po katerih ni vedno mogoče oceniti stopnje variabilnosti značilnosti. Pri nekaterih problemih je treba uporabiti relativne indekse sipanja, eden izmed njih je koeficient variacije.

Koeficient variacije– razmerje med standardnim odklonom in aritmetično sredino, izraženo v odstotkih:

Koeficient variacije se uporablja ne le za primerjalno oceno variacije različnih lastnosti ali iste lastnosti v različnih populacijah, temveč tudi za karakterizacijo homogenosti populacije. Statistična populacija se šteje za kvantitativno homogeno, če koeficient variacije ne presega 33 % (za porazdelitve, ki so blizu normalne porazdelitve).

Primer. O prestajanju kazni zapora 50 obsojencev, ki so bili odpeljani na prestajanje kazni, ki jih je izreklo sodišče v prevzgojni zavod kazenskega sistema, so na voljo naslednji podatki: 5, 4, 2, 1, 6, 3, 4, 3, 2, 2 , 5, 6, 4, 3 , 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6 , 4, 4, 3, 1 , 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.

1. Sestavite niz porazdelitev glede na zaporne kazni.

2. Poiščite povprečje, varianco in standardni odklon.

3. Izračunajte koeficient variacije in sklepajte o homogenosti ali heterogenosti proučevane populacije.

rešitev. Za sestavo diskretne porazdelitvene serije je treba določiti možnosti in frekvence. Možnost v tem problemu je trajanje zapora, pogostost pa število posameznih možnosti. Po izračunu frekvenc dobimo naslednjo diskretno porazdelitveno serijo:

Poiščimo srednjo vrednost in varianco. Ker so statistični podatki predstavljeni z diskretnimi variacijskimi serijami, bomo za njihov izračun uporabili formule za uteženo aritmetično sredino in disperzijo. Dobimo:

= = 4,1;

= 5,21.

Zdaj izračunamo standardni odklon:

Iskanje koeficienta variacije:

Posledično je statistična populacija kvantitativno heterogena.

Preprosta aritmetična sredina

Povprečne vrednosti

Povprečne vrednosti se pogosto uporabljajo v statistiki.

Povprečna vrednost- to je splošni kazalnik, v katerem so izraženi učinki splošnih pogojev in vzorcev razvoja preučevanega pojava.

Statistična povprečja so izračunana na podlagi množičnih podatkov ustrezno statistično organiziranega opazovanja (kontinuiranega in selektivnega). Vendar pa bo statistično povprečje objektivno in tipično, če je izračunano iz množičnih podatkov za kvalitativno homogeno populacijo (masovni pojavi). Če na primer izračunate povprečno plačo v delniških družbah in državnih podjetjih in rezultat razširite na celotno populacijo, potem je povprečje fiktivno, saj je izračunano za heterogeno populacijo in tako povprečje izgubi vse. pomen.

S pomočjo povprečja se zgladijo razlike v vrednosti značilnosti, ki iz takšnih ali drugačnih razlogov nastanejo v posameznih enotah opazovanja.

Na primer, povprečna proizvodnja posameznega prodajalca je odvisna od številnih razlogov: kvalifikacije, delovna doba, starost, oblika storitve, zdravje itd. Povprečni rezultat odraža splošne značilnosti celotne populacije.

Povprečna vrednost se meri v istih enotah kot sam atribut.

Vsaka povprečna vrednost označuje proučevano populacijo glede na eno lastnost. Da bi dobili popolno in celovito sliko proučevane populacije na podlagi številnih bistvenih značilnosti, je potrebno imeti sistem povprečnih vrednosti, ki lahko opišejo pojav iz različnih zornih kotov.

Obstajajo različne vrste povprečij:

    aritmetična sredina;

    harmonična sredina;

    geometrična sredina;

    srednji kvadrat;

    povprečna kubična.

Povprečja vseh zgoraj naštetih vrst so razdeljena na enostavna (neutežena) in tehtana.

Oglejmo si vrste povprečij, ki se uporabljajo v statistiki.

Preprosta aritmetična sredina (neutežena) je enaka vsoti posameznih vrednosti atributa, deljeno s številom teh vrednosti.

Posamezne vrednosti značilnosti se imenujejo različice in so označene z x i (
); število populacijskih enot je označeno z n, povprečna vrednost značilnosti pa z . Zato je aritmetična enostavna sredina enaka:

oz

Primer 1. Tabela 1

Podatki o izdelavi delavca izdelka A na izmeno

V tem primeru je atribut spremenljivke proizvodnja izdelkov na izmeno.

Številčne vrednosti atributa (16, 17 itd.) Se imenujejo možnosti. Določimo povprečno proizvodnjo delavcev te skupine:

PC.

Preprosto aritmetično povprečje se uporablja v primerih, ko obstajajo ločene vrednosti značilnosti, tj. podatki niso združeni. Če so podatki predstavljeni v obliki distribucijskih serij ali skupin, potem se povprečje izračuna drugače.

Uteženo aritmetično povprečje

Aritmetično tehtano povprečje je enako vsoti zmnožkov vsake posamezne vrednosti atributa (variant) z ustrezno frekvenco, deljeno z vsoto vseh frekvenc.

Število enakih vrednosti značilnosti v distribucijskih vrsticah se imenuje frekvenca ali teža in je označeno z f i.

V skladu s tem je tehtano aritmetično povprečje videti takole:

oz

Iz formule je razvidno, da povprečje ni odvisno le od vrednosti atributa, temveč tudi od njihovih frekvenc, tj. na sestavo agregata, na njegovo zgradbo.

Primer 2. tabela 2

Podatki o plačah delavcev

Glede na podatke serije diskretne porazdelitve je jasno, da se iste karakteristične vrednosti (različice) ponavljajo večkrat. Tako se možnost x 1 pojavi skupaj 2-krat, možnost x 2 pa 6-krat itd.

Izračunajmo povprečno plačo enega delavca:

Sklad plač za vsako skupino delavcev je enak zmnožku možnosti in frekvence (
), vsota teh zmnožkov pa daje skupni sklad plač vseh delavcev (
).

Če bi bil izračun izveden po formuli preprostega aritmetičnega povprečja, bi bil povprečni zaslužek enak 3.000 rubljev. (). Če primerjamo dobljeni rezultat z začetnimi podatki, je očitno, da bi morala biti povprečna plača bistveno višja (več kot polovica delavcev prejema plače nad 3000 rubljev). Zato bo izračun z uporabo preprostega aritmetičnega povprečja v takih primerih napačen.

Kot rezultat obdelave je statistično gradivo mogoče predstaviti ne samo v obliki diskretnih porazdelitvenih serij, temveč tudi v obliki intervalnih variacijskih serij z zaprtimi ali odprtimi intervali.

Razmislimo o izračunu aritmetične sredine za takšne serije.

Povprečje je:

Povprečna vrednost

Povprečna vrednost- numerične značilnosti niza števil ali funkcij; - določeno število med najmanjšo in največjo vrednostjo.

  • 1 Osnovne informacije
  • 2 Hierarhija povprečij v matematiki
  • 3 V teoriji verjetnosti in statistiki
  • 4 Glej tudi
  • 5 Opombe

Osnovni podatki

Izhodišče za razvoj teorije povprečij je bila študija proporcev Pitagorove šole. Hkrati ni bilo strogega razlikovanja med pojmoma povprečna velikost in delež. Pomemben zagon razvoju teorije proporcev z aritmetičnega vidika sta dala grška matematika - Nikomah iz Gerasa (konec 1. - začetek 2. stoletja n. št.) in Papus iz Aleksandrije (3. st. n. št.). Prva stopnja v razvoju koncepta povprečja je stopnja, ko se povprečje začne obravnavati kot osrednji člen zveznega razmerja. Toda koncept povprečja je podoben osrednji pomen progresija ne omogoča izpeljave koncepta povprečja glede na zaporedje n členov, ne glede na vrstni red, v katerem si sledijo. V ta namen se je treba zateči k formalni posplošitvi povprečij. Naslednja stopnja je prehod iz zveznih razmerij v progresije - aritmetične, geometrijske in harmonične.

V zgodovini statistike je razširjena uporaba povprečij prvič povezana z imenom angleškega znanstvenika W. Pettyja. W. Petty je bil eden prvih, ki je povprečni vrednosti poskušal dati statistični pomen in jo povezal z ekonomskimi kategorijami. Toda Petty ni opisal koncepta povprečne velikosti ali ga osamil. A. Quetelet velja za utemeljitelja teorije povprečij. Bil je eden prvih, ki je dosledno razvijal teorijo povprečij in ji poskušal dati matematično osnovo. A. Quetelet je ločil dve vrsti povprečij - dejanska povprečja in aritmetična povprečja. Pravzaprav povprečje predstavlja stvar, število, ki dejansko obstaja. Pravzaprav bi morali povprečja ali statistična povprečja izpeljati iz pojavov enake kakovosti, enakih v svojih notranji pomen. Aritmetična povprečja so številke, ki dajejo najbližjo možno predstavo o številnih številih, različnih, čeprav homogenih.

Vsaka vrsta povprečja se lahko pojavi bodisi v obliki enostavnega bodisi v obliki tehtanega povprečja. Pravilna izbira srednje oblike izhaja iz materialne narave predmeta preučevanja. Enostavne povprečne formule se uporabljajo, če se posamezne vrednosti povprečne lastnosti ne ponavljajo. Kadar se v praktičnem raziskovanju posamezne vrednosti preučevane značilnosti pojavljajo večkrat v enotah proučevane populacije, je pogostost ponovitev posameznih vrednosti značilnosti prisotna v formulah za izračun močnostnih povprečij. V tem primeru se imenujejo formule tehtanega povprečja.

Fundacija Wikimedia. 2010.