Cum se calculează media? Calculul mediilor


Valoarea medie este un indicator general care caracterizează nivelul tipic al unui fenomen. Exprimă valoarea unei caracteristici pe unitatea de populație.

Valoarea medie este:

1) valoarea cea mai tipică a atributului pentru populație;

2) volumul atributului populaţiei, distribuit în mod egal între unităţile populaţiei.

Caracteristica pentru care se calculează valoarea medie se numește „medie” în statistici.

Media generalizează întotdeauna variația cantitativă a unei trăsături, adică. în valori medii se elimină diferențele individuale între unitățile din populație din cauza unor circumstanțe aleatorii. Spre deosebire de medie, valoarea absolută care caracterizează nivelul unei caracteristici a unei unități individuale a unei populații nu permite compararea valorilor unei caracteristici între unitățile aparținând diferitelor populații. Deci, dacă trebuie să comparați nivelurile de remunerare a lucrătorilor la două întreprinderi, atunci nu puteți compara această caracteristică doi muncitori din firme diferite. Compensația lucrătorilor selectați pentru comparație poate să nu fie tipică pentru aceste întreprinderi. Dacă comparăm mărimea fondurilor de salarii la întreprinderile luate în considerare, numărul de angajați nu este luat în considerare și, prin urmare, este imposibil de stabilit unde nivelul salariilor este mai mare. În cele din urmă, doar indicatorii medii pot fi comparați, de exemplu. Cât câștigă în medie un angajat la fiecare întreprindere? Prin urmare, este necesar să se calculeze mărime medie ca o caracteristică generalizantă a populaţiei.

Este important de menționat că în timpul procesului de mediere, valoarea totală a nivelurilor de atribut sau valoarea finală a acesteia (în cazul calculării nivelurilor medii într-o serie de dinamică) trebuie să rămână neschimbată. Cu alte cuvinte, la calcularea valorii medii, volumul caracteristicii studiate nu trebuie distorsionat, iar expresiile compilate la calcularea mediei trebuie neapărat să aibă sens.

Calcularea mediei este una dintre tehnicile comune de generalizare; indicatorul mediu neagă ceea ce este comun (tipic) tuturor unităților populației studiate, în timp ce, în același timp, ignoră diferențele dintre unitățile individuale. În fiecare fenomen și în dezvoltarea lui există o combinație de întâmplare și necesitate. La calcularea mediilor, în virtutea legii numere mari accidentele sunt anulate, echilibrate, astfel încât se poate face abstracție de la trăsăturile neimportante ale fenomenului, de la valorile cantitative ale atributului în fiecare caz concret. Capacitatea de a face abstracție de la aleatorietatea valorilor și fluctuațiilor individuale constă în valoarea științifică a mediilor ca caracteristici generalizate ale agregatelor.

Pentru ca media să fie cu adevărat reprezentativă, aceasta trebuie calculată ținând cont de anumite principii.

Să ne uităm la unele principii generale aplicarea valorilor medii.

1. Media trebuie determinată pentru populațiile formate din unități omogene calitativ.

2. Media trebuie calculată pentru o populație formată din suficiente un numar mare unitati.

3. Media trebuie calculată pentru o populație ale cărei unități sunt în stare normală, naturală.

4. Media trebuie calculată ținând cont de conținutul economic al indicatorului studiat.

5.2. Tipuri de medii și metode de calculare a acestora

Să luăm acum în considerare tipurile de valori medii, caracteristicile calculului lor și domeniile de aplicare. Valorile medii sunt împărțite în două clase mari: medii de putere, medii structurale.

Mijloacele de putere includ cele mai cunoscute și frecvent utilizate tipuri, cum ar fi media geometrică, media aritmetică și media pătrată.

Modul și mediana sunt considerate ca medii structurale.

Să ne concentrăm pe mediile de putere. Mediile de putere, în funcție de prezentarea datelor sursă, pot fi simple sau ponderate. Medie simplă Este calculat pe baza datelor negrupate și are următoarea formă generală:

,

unde X i este varianta (valoarea) caracteristicii care se face media;

n – opțiunea numărului.

Medie ponderată se calculează pe baza datelor grupate și are un aspect general

,

unde X i este varianta (valoarea) caracteristicii care se face media sau valoarea medie a intervalului în care se măsoară varianta;

m – indicele de grad mediu;

f i – frecvența care arată de câte ori apare valoarea i-e caracteristica de mediere.

Dacă calculați toate tipurile de medii pentru aceleași date inițiale, atunci valorile lor se vor dovedi a fi diferite. Aici se aplică regula majorității mediilor: pe măsură ce exponentul m crește, crește și valoarea medie corespunzătoare:

În practica statistică, mediile aritmetice și mediile ponderate armonice sunt utilizate mai des decât alte tipuri de medii ponderate.

Tipuri de mijloace de putere

Un fel de putere
in medie

Index
grad (m)

Formula de calcul

Simplu

ponderat

Armonic

Geometric

Aritmetic

cuadratic

Cub

Media armonică are o structură mai complexă decât media aritmetică. Media armonică este utilizată pentru calcule atunci când nu unitățile populației - purtătorii caracteristicii - sunt folosite ca ponderi, ci produsul acestor unități prin valorile caracteristicii (adică m = Xf). Ar trebui să se recurgă la armonica medie simplă în cazurile de determinare, de exemplu, a costului mediu al forței de muncă, timpului, materialelor pe unitatea de producție, pe o parte pentru două (trei, patru etc.) întreprinderi, lucrători angajați în producție. din același tip de produs, aceeași piesă, produs.

Principala cerință pentru formula de calcul a valorii medii este ca toate etapele calculului să aibă o justificare reală semnificativă; valoarea medie rezultată ar trebui să înlocuiască valorile individuale ale atributului pentru fiecare obiect fără a întrerupe legătura dintre indicatorii individuali și sumar. Cu alte cuvinte, valoarea medie trebuie calculată în așa fel încât, atunci când fiecare valoare individuală a indicatorului mediu este înlocuită cu valoarea sa medie, un indicator rezumativ final, conectat într-un fel sau altul cu indicatorul mediu, să rămână neschimbat. Acest total se numește definireîntrucât natura relației sale cu valorile individuale determină formula specifică pentru calcularea valorii medii. Să demonstrăm această regulă folosind exemplul mediei geometrice.

Formula medie geometrică

folosit cel mai des la calcularea valorii medii pe baza dinamicii relative individuale.

Media geometrică este utilizată dacă este dată o succesiune de dinamică relativă a lanțului, indicând, de exemplu, o creștere a volumului producției față de nivelul din anul precedent: i 1, i 2, i 3,…, i n. Evident, volumul producției din ultimul an este determinat de nivelul său inițial (q 0) și de creșterea ulterioară de-a lungul anilor:

q n =q 0 × i 1 × i 2 ×…×i n .

Luând q n ca indicator determinant și înlocuind valorile individuale ale indicatorilor de dinamică cu valori medii, ajungem la relația

De aici



Pentru a studia se folosește un tip special de medii - medii structurale structura interna serie de distribuție a valorilor atributelor, precum și pentru estimarea valorii medii (tipul puterii), în cazul în care calcularea acesteia nu poate fi efectuată conform datelor statistice disponibile (de exemplu, dacă în exemplul luat în considerare nu existau date atât asupra volumului). de producţie şi cuantumul costurilor pentru grupuri de întreprinderi) .

Indicatorii sunt folosiți cel mai adesea ca medii structurale Modă - valoarea cel mai frecvent repetată a atributului – și mediane - valoarea unei caracteristici care împarte succesiunea ordonată a valorilor sale în două părți egale. Ca urmare, pentru o jumătate din unitățile din populație valoarea atributului nu depășește nivelul median, iar pentru cealaltă jumătate nu este mai mică decât acesta.

Dacă caracteristica studiată are valori discrete, atunci dificultăți deosebite La calcul nu există mod sau mediană. Dacă datele despre valorile atributului X sunt prezentate sub formă de intervale ordonate ale modificării acestuia (serie de intervale), calculul modului și al mediei devine oarecum mai complicat. Deoarece valoarea mediană împarte întreaga populație în două părți egale, aceasta ajunge într-unul dintre intervalele caracteristicii X. Utilizând interpolare, valoarea medianei se găsește în acest interval median:

,

unde X Me este limita inferioară a intervalului median;

h Eu – valoarea sa;

(Suma m)/2 – jumătate din numărul total de observații sau jumătate din volumul indicatorului care este utilizat ca ponderare în formulele de calcul a valorii medii (în termeni absoluti sau relativi);

S Me-1 – suma observațiilor (sau volumul atributului de ponderare) acumulată înainte de începutul intervalului median;

m Me – numărul de observații sau volumul caracteristicii de ponderare în intervalul median (și în termeni absoluti sau relativi).

Când se calculează valoarea modală a unei caracteristici pe baza datelor unei serii de intervale, este necesar să se acorde atenție faptului că intervalele sunt identice, deoarece indicatorul de repetabilitate al valorilor caracteristicii X depinde de acest lucru. o serie de intervale cu intervale egale, mărimea modului este determinată ca

,

unde X Mo este valoarea inferioară a intervalului modal;

m Mo – numărul de observații sau volumul caracteristicii de ponderare în intervalul modal (în termeni absoluti sau relativi);

m Mo-1 – la fel pentru intervalul anterior celui modal;

m Mo+1 – la fel pentru intervalul următor celui modal;

h – valoarea intervalului de modificare a caracteristicii în grupuri.

SARCINA 1

Următoarele date sunt disponibile pentru grupul de întreprinderi industriale pentru anul de raportare


întreprinderilor

Volumul produsului, milioane de ruble.

Număr mediu de angajați, oameni.

Profit, mii de ruble

197,7

10,0

13,5

22,8

1500

136,2

465,5

18,4

1412

97,6

296,2

12,6

1200

44,4

584,1

22,0

1485

146,0

480,0

119,0

1420

110,4

57805

21,6

1390

138,7

204,7

30,6

466,8

19,4

1375

111,8

292,2

113,6

1200

49,6

423,1

17,6

1365

105,8

192,6

30,7

360,5

14,0

1290

64,8

280,3

10,2

33,3

Este necesară gruparea întreprinderilor pentru schimbul de produse, luând următoarele intervale:

    până la 200 de milioane de ruble

    de la 200 la 400 de milioane de ruble.

  1. de la 400 la 600 de milioane de ruble.

    Pentru fiecare grup și pentru toate împreună, determinați numărul de întreprinderi, volumul producției, numărul mediu de angajați, producția medie per angajat. Prezentați rezultatele grupării sub forma unui tabel statistic. Formulați o concluzie.

    SOLUŢIE

    Vom grupa întreprinderile după schimbul de produse, vom calcula numărul de întreprinderi, volumul producției și numărul mediu de angajați folosind formula medie simplă. Rezultatele grupării și calculelor sunt rezumate într-un tabel.

    Grupări după volumul de produse


    întreprinderilor

    Volumul produsului, milioane de ruble.

    Costul mediu anual al mijloacelor fixe, milioane de ruble.

    Somn mediu

    număr suculent de angajați, oameni.

    Profit, mii de ruble

    Producția medie per angajat

    1 grup

    până la 200 de milioane de ruble

    1,8,12

    197,7

    204,7

    192,6

    10,0

    9,4

    8,8

    900

    817

    13,5

    30,6

    30,7

    28,2

    2567

    74,8

    0,23

    Nivel mediu

    198,3

    24,9

    a 2-a grupă

    de la 200 la 400 de milioane de ruble.

    4,10,13,14

    196,2

    292,2

    360,5

    280,3

    12,6

    113,6

    14,0

    10,2

    1200

    1200

    1290

    44,4

    49,6

    64,8

    33,3

    1129,2

    150,4

    4590

    192,1

    0,25

    Nivel mediu

    282,3

    37,6

    1530

    64,0

    3 grupa

    de la 400 la

    600 de milioane

    2,3,5,6,7,9,11

    592

    465,5

    584,1

    480,0

    578,5

    466,8

    423,1

    22,8

    18,4

    22,0

    119,0

    21,6

    19,4

    17,6

    1500

    1412

    1485

    1420

    1390

    1375

    1365

    136,2

    97,6

    146,0

    110,4

    138,7

    111,8

    105,8

    3590

    240,8

    9974

    846,5

    0,36

    Nivel mediu

    512,9

    34,4

    1421

    120,9

    Total în total

    5314,2

    419,4

    17131

    1113,4

    0,31

    In medie

    379,6

    59,9

    1223,6

    79,5

    Concluzie. Astfel, în populația luată în considerare, cel mai mare număr de întreprinderi din punct de vedere al volumului de producție a intrat în grupa a treia - șapte, sau jumătate dintre întreprinderi. Costul mediu anual al activelor imobilizate este, de asemenea, în acest grup, precum și numărul mediu mare de angajați - 9974 de persoane; întreprinderile din primul grup sunt cele mai puțin profitabile.

    SARCINA 2

    Următoarele date sunt disponibile despre întreprinderile companiei

    Numărul întreprinderii incluse în companie

    eu sfert

    trimestrul II

    Produs, mii de ruble.

    Zile-om lucrate de muncitori

    Producția medie per muncitor pe zi, frecare.

    59390,13

valoarea medie- acesta este un indicator general care caracterizează o populaţie omogenă calitativ după o anumită caracteristică cantitativă. De exemplu, varsta medie persoane condamnate pentru furt.

În statistica judiciară, valorile medii sunt folosite pentru a caracteriza:

Timp mediu de examinare a cazurilor din această categorie;

Dimensiunea medie a cererii;

Numărul mediu de inculpați pe dosar;

Daune medii;

Volumul mediu de muncă al judecătorilor etc.

Media este întotdeauna o valoare numită și are aceeași dimensiune ca caracteristica unei unități individuale a populației. Fiecare valoare medie caracterizează populația studiată conform oricărei caracteristici diferite, prin urmare, în spatele fiecărei valori medii se află o serie de distribuție a unităților acestei populații în funcție de caracteristica studiată. Alegerea tipului de medie este determinată de conținutul indicatorului și de datele inițiale pentru calcularea valorii medii.

Toate tipurile de medii utilizate în cercetarea statistică sunt împărțite în două categorii:

1) medii de putere;

2) medii structurale.

Prima categorie de medii include: medie aritmetică, medie armonică, medie geometrică Și rădăcină medie pătrată . A doua categorie este ModăȘi median. Mai mult, fiecare dintre tipurile de medii de putere enumerate poate avea două forme: simplu Și ponderat . Forma simplă a mediei este utilizată pentru a obține valoarea medie a caracteristicii studiate atunci când calculul se efectuează pe date statistice negrupate, sau când fiecare opțiune din agregat apare o singură dată. Mediile ponderate sunt valori care iau în considerare faptul că variantele valorilor atributelor pot avea numere diferite și, prin urmare, fiecare variantă trebuie înmulțită cu frecvența corespunzătoare. Cu alte cuvinte, fiecare opțiune este „ponderată” de frecvența sa. Frecvența se numește greutate statistică.

Media aritmetică simplă- cel mai comun tip de medie. Este egal cu suma valorilor individuale ale caracteristicii împărțite la numărul total aceste valori:

Unde x 1 ,x 2 , … ,x N sunt valorile individuale ale caracteristicii (variante) variabile, iar N este numărul de unități din populație.

Media aritmetică ponderată utilizat în cazurile în care datele sunt prezentate sub formă de serii de distribuție sau grupări. Se calculează ca suma produselor opțiunilor și frecvențele corespunzătoare acestora, împărțită la suma frecvențelor tuturor opțiunilor:

Unde x i- sens i variantele ale caracteristicii; f i- frecvență i optiunile.

Astfel, fiecare valoare de variantă este ponderată de frecvența sa, motiv pentru care frecvențele sunt uneori numite ponderi statistice.


Cometariu. Când vorbim despre o medie aritmetică fără a indica tipul acesteia, ne referim la media aritmetică simplă.

Tabelul 12.

Soluţie. Pentru a calcula, folosim formula medie aritmetică ponderată:

Astfel, în medie sunt doi inculpați pe dosar penal.

Dacă calculul valorii medii se efectuează folosind date grupate sub forma unei serii de distribuție a intervalului, atunci trebuie mai întâi să determinați valorile mijlocii ale fiecărui interval x"i, apoi să calculați valoarea medie folosind media ponderată aritmetică. formula, în care x"i este substituit în loc de xi.

Exemplu. Datele privind vârsta infractorilor condamnați pentru furt sunt prezentate în tabel:

Tabelul 13.

Determinați vârsta medie a infractorilor condamnați pentru furt.

Soluţie. Pentru a determina vârsta medie a infractorilor pe baza unei serii de variații de interval, este necesar să se găsească mai întâi valorile medii ale intervalelor. Deoarece este dată o serie de intervale cu primul și ultimul interval deschis, se consideră că valorile acestor intervale sunt egale cu valorile intervalelor închise adiacente. În cazul nostru, valorile primului și ultimului interval sunt egale cu 10.

Acum găsim vârsta medie a infractorilor folosind formula medie aritmetică ponderată:

Astfel, vârsta medie a infractorilor condamnați pentru furt este de aproximativ 27 de ani.

Înseamnă armonică simplă reprezintă reciproca mediei aritmetice a valorilor inverse ale caracteristicii:

unde 1/ x i sunt valorile inverse ale opțiunilor, iar N este numărul de unități din populație.

Exemplu. Pentru a determina volumul mediu anual de muncă al judecătorilor unei instanțe districtuale atunci când se analizează cauzele penale, a fost efectuat un studiu al volumului de muncă a 5 judecători din această instanță. Timpul mediu petrecut într-un dosar penal pentru fiecare dintre judecătorii chestionați s-a dovedit a fi egal (în zile): 6, 0, 5, 6, 6, 3, 4, 9, 5, 4. Aflați costurile medii pe unul. cauza penală și volumul mediu anual de muncă al judecătorilor unei anumite instanțe districtuale atunci când se analizează cauzele penale.

Soluţie. Pentru a determina timpul mediu petrecut într-un caz penal, folosim formula medie armonică:

Pentru a simplifica calculele, în exemplu considerăm că numărul de zile dintr-un an este 365, inclusiv weekend-urile (acest lucru nu afectează metodologia de calcul, iar atunci când se calculează un indicator similar în practică, este necesar să se înlocuiască numărul de lucru). zile dintr-un anumit an în loc de 365 de zile). Apoi, volumul mediu anual de muncă pentru judecătorii dintr-o anumită instanță districtuală atunci când se analizează cauzele penale va fi: 365 (zile) : 5,56 ≈ 65,6 (cazuri).

Dacă ar fi să folosim formula medie aritmetică simplă pentru a determina timpul mediu petrecut într-un caz penal, am obține:

365 (zile): 5,64 ≈ 64,7 (cazuri), i.e. volumul mediu de muncă al judecătorilor s-a dovedit a fi mai mic.

Să verificăm validitatea acestei abordări. Pentru a face acest lucru, vom folosi date privind timpul petrecut într-un dosar penal pentru fiecare judecător și vom calcula numărul de dosare penale luate în considerare de fiecare dintre aceștia pe an.

Primim în consecință:

365(zile) : 6 ≈ 61 (cazuri), 365(zile) : 5,6 ≈ 65,2 (cazuri), 365(zile) : 6,3 ≈ 58 (cazuri),

365(zile) : 4,9 ≈ 74,5 (cazuri), 365(zile) : 5,4 ≈ 68 (cazuri).

Acum să calculăm volumul mediu anual de muncă pentru judecătorii unei anumite instanțe districtuale atunci când luăm în considerare cazurile penale:

Acestea. sarcina medie anuală este aceeași ca la utilizarea mediei armonice.

Astfel, folosind media aritmetică în în acest caz, ilegal.

În cazurile în care sunt cunoscute variantele unei caracteristici și valorile volumetrice ale acestora (produsul variantelor și frecvența), dar frecvențele în sine sunt necunoscute, se utilizează formula medie armonică ponderată:

,

Unde x i sunt valorile opțiunilor de atribut și w i sunt valorile volumetrice ale opțiunilor ( w i = x i f i).

Exemplu. Datele privind prețul unei unități de același tip de produs produsă de diferite instituții ale sistemului penal și despre volumul vânzărilor acesteia sunt date în Tabelul 14.

Tabelul 14

Aflați prețul mediu de vânzare al produsului.

Soluţie. Atunci când calculăm prețul mediu, trebuie să folosim raportul dintre valoarea vânzărilor și numărul de unități vândute. Nu știm numărul de unități vândute, dar știm cantitatea vânzărilor de mărfuri. Prin urmare, pentru a afla prețul mediu al mărfurilor vândute, vom folosi formula medie armonică ponderată. Primim

Dacă utilizați aici formula medie aritmetică, puteți obține un preț mediu care va fi nerealist:

Medie geometrică se calculează prin extragerea rădăcinii gradului N din produsul tuturor valorilor variantelor de atribut:

,

Unde x 1 ,x 2 , … ,x N- valorile individuale ale caracteristicii diferite (variante) și

N- numarul de unitati din populatie.

Acest tip de medie este utilizat pentru a calcula ratele medii de creștere ale seriilor de timp.

Medie pătrată este utilizat pentru a calcula abaterea standard, care este un indicator al variației, și va fi discutată mai jos.

Pentru a determina structura populației, se folosesc indicatori medii speciali, care includ median Și Modă , sau așa-numitele medii structurale. Dacă media aritmetică este calculată pe baza utilizării tuturor variantelor de valori ale atributelor, atunci mediana și modul caracterizează valoarea variantei care ocupă o anumită poziție medie în seria clasată (ordonată). Unitățile unei populații statistice pot fi ordonate în ordine crescătoare sau descrescătoare a variantelor caracteristicii studiate.

Mediană (eu)- aceasta este valoarea care corespunde optiunii situate la mijlocul seriei clasate. Astfel, mediana este acea versiune a seriei clasate, pe ambele părți ale căreia în această serie ar trebui să existe un număr egal de unități de populație.

Pentru a găsi mediana, trebuie mai întâi să determinați numărul său de serie în seria clasată folosind formula:

unde N este volumul seriei (numărul de unități din populație).

Dacă seria constă dintr-un număr impar de termeni, atunci mediana este egală cu opțiunea cu numărul N Me. Dacă seria constă dintr-un număr par de termeni, atunci mediana este definită ca media aritmetică a două opțiuni adiacente situate în mijloc.

Exemplu. Având în vedere o serie clasată 1, 2, 3, 3, 6, 7, 9, 9, 10. Volumul seriei este N = 9, ceea ce înseamnă N Me = (9 + 1) / 2 = 5. Prin urmare, Me = 6, adică . a cincea varianta. Dacă rândul este dat 1, 5, 7, 9, 11, 14, 15, 16, i.e. serie cu un număr par de termeni (N = 8), apoi N Me = (8 + 1) / 2 = 4,5. Aceasta înseamnă că mediana este egală cu jumătate din suma celor a patra și a cincea opțiune, adică. Eu = (9 + 11) / 2 = 10.

Într-o serie de variații discrete, mediana este determinată de frecvențele acumulate. Frecvențele opțiunii, începând de la prima, se însumează până la depășirea numărului median. Valoarea ultimelor opțiuni însumate va fi mediana.

Exemplu. Găsiți numărul mediu de acuzați pe dosar penal folosind datele din tabelul 12.

Soluţie.În acest caz, volumul seriei de variații este N = 154, prin urmare, N Me = (154 + 1) / 2 = 77,5. După ce am însumat frecvențele primei și celei de-a doua opțiuni, obținem: 75 + 43 = 118, i.e. am depășit numărul median. Deci eu = 2.

Într-o serie de variații de interval, distribuția indică mai întâi intervalul în care va fi localizată mediana. El este numit median . Acesta este primul interval a cărui frecvență acumulată depășește jumătate din volumul seriei de variații de interval. Apoi valoarea numerică a mediei este determinată de formula:

Unde x Eu- limita inferioară a intervalului median; i este valoarea intervalului median; S Me-1- frecventa acumulata a intervalului care precede mediana; f Eu- frecvenţa intervalului median.

Exemplu. Găsiți vârsta medie a infractorilor condamnați pentru furt pe baza statisticilor prezentate în Tabelul 13.

Soluţie. Datele statistice sunt prezentate printr-o serie de variații de interval, ceea ce înseamnă că mai întâi determinăm intervalul median. Volumul populației este N = 162, prin urmare, intervalul median este intervalul 18-28, deoarece acesta este primul interval a cărui frecvență acumulată (15 + 90 = 105) depășește jumătate din volumul (162: 2 = 81) al seriei de variații de interval. Acum determinăm valoarea numerică a mediei folosind formula de mai sus:

Astfel, jumătate dintre cei condamnați pentru furt au sub 25 de ani.

Moda (lună) Ei numesc valoarea unei caracteristici care se găsește cel mai adesea în unitățile populației. Moda este folosită pentru a identifica valoarea unei caracteristici care este cea mai răspândită. Pentru o serie discretă, modul va fi opțiunea cu cea mai mare frecvență. De exemplu, pentru seria discretă prezentată în tabelul 3 Lu= 1, deoarece această valoare corespunde frecvenței celei mai înalte - 75. Pentru a determina modul seriei de intervale, determinați mai întâi modal interval (intervalul care are cea mai mare frecvență). Apoi, în acest interval, se găsește valoarea caracteristicii, care poate fi un mod.

Valoarea acestuia se găsește folosind formula:

Unde x Mo- limita inferioară a intervalului modal; i este valoarea intervalului modal; f Mo- frecvenţa intervalului modal; f Mo-1- frecvenţa intervalului premergător celui modal; f Mo+1- frecvenţa intervalului următor celui modal.

Exemplu. Aflați vârsta infractorilor condamnați pentru furt, date despre care sunt prezentate în Tabelul 13.

Soluţie. Cea mai mare frecvență corespunde intervalului 18-28, prin urmare, modul ar trebui să fie în acest interval. Valoarea acestuia este determinată de formula de mai sus:

Astfel, cel mai mare număr de infractori condamnați pentru furt au 24 de ani.

Valoarea medie oferă o caracteristică generală a întregului fenomen studiat. Cu toate acestea, două populații care au aceleași valori medii pot diferi semnificativ una de cealaltă în ceea ce privește gradul de fluctuație (variație) a valorii caracteristicii studiate. De exemplu, într-o instanță au fost aplicate următoarele pedepse de închisoare: 3, 3, 3, 4, 5, 5, 5, 12, 12, 15 ani, iar în alta - 5, 5, 6, 6, 7, 7 , 7 , 8, 8, 8 ani. În ambele cazuri, media aritmetică este de 6,7 ani. Cu toate acestea, aceste populații diferă semnificativ unele de altele în răspândirea valorilor individuale ale termenului de închisoare atribuit în raport cu valoarea medie.

Iar pentru prima instanță, unde această răspândire este destul de mare, termenul mediu de închisoare nu reflectă întreaga populație. Astfel, dacă valorile individuale ale unei caracteristici diferă puțin unele de altele, atunci media aritmetică va fi o caracteristică destul de indicativă a proprietăților unei populații date. În caz contrar, media aritmetică va fi o caracteristică nesigură a acestei populații și utilizarea ei în practică va fi ineficientă. Prin urmare, este necesar să se țină cont de variația valorilor caracteristicii studiate.

Variație- acestea sunt diferențe în valorile oricărei caracteristici între diferite unități ale unei populații date în aceeași perioadă sau moment în timp. Termenul „variație” este de origine latină - variatio, care înseamnă diferență, schimbare, fluctuație. Apare ca urmare a faptului că valorile individuale ale unei caracteristici se formează sub influența combinată a diferiților factori (condiții), care sunt combinați diferit în fiecare caz special. Pentru a măsura variația unei trăsături, se folosesc diverși indicatori absoluti și relativi.

Principalii indicatori ai variației includ următorii:

1) domeniul de aplicare;

2) abaterea liniară medie;

3) dispersie;

4) abaterea standard;

5) coeficientul de variație.

Să ne uităm pe scurt la fiecare dintre ele.

Gama de variație R este cel mai accesibil indicator absolut în ceea ce privește ușurința de calcul, care este definit ca diferența dintre cele mai mari și cele mai mici valori ale unei caracteristici pentru unitățile unei populații date:

Interval de variație (interval de fluctuații) - indicator important variabilitatea semnului, dar face posibil să se vadă doar abateri extreme, ceea ce limitează sfera de aplicare a acestuia. Pentru a caracteriza mai precis variația unei trăsături pe baza variabilității acesteia, se folosesc alți indicatori.

Abaterea liniară medie reprezintă media aritmetică a valorilor absolute ale abaterilor valorilor individuale ale unei caracteristici de la medie și este determinată de formulele:

1) Pentru date negrupate

2) Pentru serie de variații

Cu toate acestea, cea mai utilizată măsură a variației este dispersie . Caracterizează măsura dispersiei valorilor caracteristicii studiate în raport cu valoarea medie a acesteia. Dispersia este definită ca media pătratului abaterilor.

Varianta simpla pentru date negrupate:

.

Varianta ponderată pentru seria de variații:

Cometariu.În practică, este mai bine să folosiți următoarele formule pentru a calcula varianța:

Pentru variație simplă

.

Pentru variația ponderată

Deviație standard este rădăcina pătrată a varianței:

Abaterea standard este o măsură a fiabilității mediei. Cu cât abaterea standard este mai mică, cu atât populația este mai omogenă și cu atât media aritmetică reflectă mai bine întreaga populație.

Măsurile de împrăștiere discutate mai sus (gamă de variație, dispersie, abatere standard) sunt indicatori absoluti, prin care nu este întotdeauna posibil să se judece gradul de variabilitate al unei caracteristici. În unele probleme este necesar să se utilizeze indici de împrăștiere relativi, dintre care unul este coeficientul de variație.

Coeficientul de variație- raportul dintre abaterea standard și media aritmetică, exprimat în procente:

Coeficientul de variație este utilizat nu numai pentru o evaluare comparativă a variației diferitelor caracteristici sau a aceleiași caracteristici în diferite populații, ci și pentru a caracteriza omogenitatea populației. O populație statistică este considerată omogenă cantitativ dacă coeficientul de variație nu depășește 33% (pentru distribuții apropiate de distribuția normală).

Exemplu. Sunt disponibile următoarele date privind pedeapsa închisorii a 50 de condamnați pronunțați pentru a executa o pedeapsă aplicată de instanță într-o instituție de corecție a sistemului penal: 5, 4, 2, 1, 6, 3, 4, 3, 2, 2. , 5, 6, 4, 3 , 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6 , 4, 4, 3, 1 , 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.

1. Construiți o serie de distribuții pe termene de închisoare.

2. Găsiți media, varianța și abaterea standard.

3. Calculați coeficientul de variație și faceți o concluzie despre omogenitatea sau eterogenitatea populației studiate.

Soluţie. Pentru a construi o serie de distribuție discretă, este necesar să se determine opțiunile și frecvențele. Opțiunea în această problemă este termenul de închisoare, iar frecvența este numărul de opțiuni individuale. După ce am calculat frecvențele, obținem următoarea serie de distribuție discretă:

Să găsim media și varianța. Deoarece datele statistice sunt reprezentate de o serie de variații discrete, vom folosi formulele pentru media aritmetică ponderată și dispersia pentru a le calcula. Primim:

= = 4,1;

= 5,21.

Acum calculăm abaterea standard:

Determinarea coeficientului de variație:

În consecință, populația statistică este eterogenă cantitativ.

Disciplina: Statistica

Opțiunea nr. 2

Valorile medii utilizate în statistici

Introducere…………………………………………………………………………………………….3

Sarcina teoretică

Valoarea medie în statistică, esența acesteia și condițiile de aplicare.

1.1. Esența dimensiunii medii și condițiile de utilizare………….4

1.2. Tipuri de medii………………………………………………………8

Sarcina practică

Sarcina 1,2,3……………………………………………………………………………………………14

Concluzie…………………………………………………………………………………………….21

Lista referințelor………………………………………………………...23

Introducere

Acest test constă din două părți – teoretică și practică. În partea teoretică, o categorie statistică atât de importantă precum valoarea medie va fi examinată în detaliu pentru a identifica esența și condițiile de aplicare a acesteia, precum și pentru a evidenția tipurile de medii și metodele de calcul a acestora.

Statisticile, după cum știm, studiază fenomenele socio-economice masive. Fiecare dintre aceste fenomene poate avea o expresie cantitativă diferită a aceleiași caracteristici. De exemplu, salariile lucrătorilor de aceeași profesie sau prețurile de piață pentru același produs etc. Valorile medii caracterizează indicatorii calitativi ai activității comerciale: costuri de distribuție, profit, rentabilitate etc.

Pentru a studia orice populație în funcție de caracteristici variabile (schimbătoare cantitativ), statisticile utilizează valori medii.

Entitate de dimensiune medie

Valoarea medie este o caracteristică cantitativă generalizantă a unui set de fenomene similare bazate pe o caracteristică variabilă. În practica economică se utilizează o gamă largă de indicatori, calculați ca valori medii.

Cea mai importantă proprietate a valorii medii este aceea că reprezintă valoarea unei anumite caracteristici în întreaga populație cu un număr, în ciuda diferențelor sale cantitative în unitățile individuale ale populației, și exprimă ceea ce este comun tuturor unităților populației studiate. . Astfel, prin caracteristicile unei unități a unei populații, caracterizează întreaga populație în ansamblu.

Valorile medii sunt legate de legea numerelor mari. Esența acestei conexiuni este că, în timpul medierii, abaterile aleatoare ale valorilor individuale, datorită acțiunii legii numerelor mari, se anulează reciproc, iar tendința principală de dezvoltare, necesitatea și modelul sunt relevate în medie. Valorile medii vă permit să comparați indicatorii referitori la populații cu un număr diferit de unități.

În condițiile moderne de dezvoltare a relațiilor de piață în economie, mediile servesc ca instrument pentru studierea tiparelor obiective ale fenomenelor socio-economice. Cu toate acestea, în analiză economică Nu ne putem limita doar la indicatori medii, deoarece mediile generale favorabile pot ascunde deficiențe mari și serioase în activitățile entităților economice individuale și încolțirea unuia nou, progresiv. De exemplu, distribuția populației pe venituri face posibilă identificarea formării de noi grupuri sociale. Prin urmare, împreună cu datele statistice medii, este necesar să se țină seama de caracteristicile unităților individuale ale populației.

Valoarea medie este rezultatul tuturor factorilor care influențează fenomenul studiat. Adică, la calcularea valorilor medii, influența factorilor aleatori (perturbare, individual) se anulează și, astfel, este posibil să se determine modelul inerent fenomenului studiat. Adolphe Quetelet a subliniat că semnificația metodei mediilor este posibilitatea trecerii de la individual la general, de la aleator la regulat, iar existența mediilor este o categorie a realității obiective.

Statistica studiază fenomenele și procesele de masă. Fiecare dintre aceste fenomene are atât proprietăți comune întregului set, cât și proprietăți speciale, individuale. Diferența dintre fenomenele individuale se numește variație. O altă proprietate a fenomenelor de masă este similitudinea lor inerentă a caracteristicilor fenomenelor individuale. Deci, interacțiunea elementelor unei mulțimi duce la o limitare a variației a cel puțin unei părți din proprietățile lor. Această tendință există în mod obiectiv. În obiectivitatea sa se află motivul pentru cea mai largă utilizare a valorilor medii în practică și în teorie.

Valoarea medie în statistică este un indicator general care caracterizează nivelul tipic al unui fenomen în condiții specifice de loc și timp, reflectând valoarea unei caracteristici variabile pe unitatea de populație omogenă calitativ.

În practica economică se utilizează o gamă largă de indicatori, calculați ca valori medii.

Folosind metoda mediilor, statistica rezolvă multe probleme.

Semnificația principală a mediilor constă în funcția lor de generalizare, adică înlocuirea multor valori individuale diferite ale unei caracteristici cu o valoare medie care caracterizează întregul set de fenomene.

Dacă valoarea medie generalizează valori omogene calitativ ale unei caracteristici, atunci aceasta este o caracteristică tipică a caracteristicii într-o anumită populație.

Cu toate acestea, este incorect să se reducă rolul valorilor medii doar la caracterizarea valorilor tipice ale caracteristicilor în populații omogene pentru o anumită caracteristică. În practică, mult mai des statisticile moderne folosesc valori medii care generalizează fenomene clar omogene.

Venit național mediu pe cap de locuitor, randament mediu de cereale pe toată țara, consum mediu produse diferite nutriție - acestea sunt caracteristicile statului ca sistem economic național unic, acestea sunt așa-numitele medii de sistem.

Mediile de sistem pot caracteriza atât sistemele spațiale, cât și cele de obiecte care există simultan (stat, industrie, regiune, planeta Pământ etc.) și sisteme dinamice, prelungit în timp (an, deceniu, anotimp etc.).

Cea mai importantă proprietate a valorii medii este că reflectă ceea ce este comun tuturor unităților populației studiate. Valorile atributelor unităților individuale ale populației fluctuează într-o direcție sau alta sub influența multor factori, printre care pot fi atât de bază, cât și aleatorii. De exemplu, prețul acțiunilor unei corporații în ansamblu este determinat de poziția sa financiară. În același timp, în anumite zile și la anumite burse, aceste acțiuni, din cauza circumstanțelor predominante, pot fi vândute la un curs mai mare sau mai mic. Esența mediei constă în faptul că anulează abaterile valorilor caracteristice ale unităților individuale ale populației cauzate de acțiunea factorilor aleatori și ia în considerare modificările cauzate de acțiunea principalilor factori. Acest lucru permite ca media să reflecte nivelul tipic al trăsăturii și să facă abstracție de la caracteristici individuale, inerente unităților individuale.

Calcularea mediei este una dintre cele mai comune tehnici de generalizare; indicatorul mediu reflectă ceea ce este comun (tipic) pentru toate unitățile populației studiate, în timp ce, în același timp, ignoră diferențele dintre unitățile individuale. În fiecare fenomen și în dezvoltarea lui există o combinație de întâmplare și necesitate.

Media este o caracteristică sumară a legilor procesului în condițiile în care are loc.

Fiecare medie caracterizează populația studiată conform oricărei caracteristici, dar pentru a caracteriza orice populație, pentru a descrie trăsăturile sale tipice și caracteristicile calitative, este nevoie de un sistem de indicatori medii. Prin urmare, în practica statisticii interne, pentru a studia fenomenele socio-economice, de regulă, se calculează un sistem de indicatori medii. Deci, de exemplu, indicatorul salariului mediu este evaluat împreună cu indicatorii producției medii, raportul capital-muncă și raportul energie-muncă, gradul de mecanizare și automatizare a muncii etc.

Media trebuie calculată ținând cont de conținutul economic al indicatorului studiat. Prin urmare, pentru un indicator specific utilizat în analiza socio-economică, pe baza metodei științifice de calcul poate fi calculată o singură valoare adevărată a mediei.

Valoarea medie este unul dintre cei mai importanți indicatori statistici generalizatori, care caracterizează un ansamblu de fenomene similare după o caracteristică variabilă cantitativ. Mediile în statistică sunt indicatori generali, numere care exprimă dimensiunile caracteristice tipice ale fenomenelor sociale în funcție de o caracteristică variabilă cantitativ.

Tipuri de medii

Tipurile de valori medii diferă în primul rând în ce proprietate, ce parametru al masei inițiale variabile a valorilor individuale ale atributului trebuie menținut neschimbat.

Media aritmetică

Media aritmetică este valoarea medie a unei caracteristici, în timpul calculului căreia volumul total al caracteristicii în agregat rămâne neschimbat. În caz contrar, putem spune că media aritmetică este termenul mediu. La calcularea acestuia, volumul total al atributului este distribuit mental în mod egal între toate unitățile populației.

Media aritmetică este utilizată dacă se cunosc valorile caracteristicii care se face media (x) și numărul de unități de populație cu o anumită valoare caracteristică (f).

Media aritmetică poate fi simplă sau ponderată.

Media aritmetică simplă

Simplu este folosit dacă fiecare valoare a atributului x apare o dată, adică. pentru fiecare x valoarea atributului este f=1, sau dacă datele sursă nu sunt ordonate și nu se știe câte unități au anumite valori de atribut.

Formula mediei aritmetice este simplă:

unde este valoarea medie; x – valoarea caracteristicii medii (varianta), – numărul de unități ale populației studiate.

Media aritmetică ponderată

Spre deosebire de o medie simplă, o medie aritmetică ponderată este utilizată dacă fiecare valoare a atributului x apare de mai multe ori, i.e. pentru fiecare valoare a caracteristicii f≠1. Această medie este utilizată pe scară largă în calcularea mediei pe baza unei serii de distribuție discretă:

unde este numărul de grupuri, x este valoarea caracteristicii care se face media, f este ponderea valorii caracteristicii (frecvența, dacă f este numărul de unități din populație; frecvența, dacă f este proporția de unități cu opțiune x în volumul total al populaţiei).

Mijloace armonică

Alături de media aritmetică, statistica folosește media armonică, inversul mediei aritmetice a valorilor inverse ale atributului. La fel ca media aritmetică, aceasta poate fi simplă și ponderată. Se utilizează atunci când ponderile necesare (f i) în datele inițiale nu sunt specificate direct, ci sunt incluse ca factor într-unul dintre indicatorii disponibili (adică, când se cunoaște numărătorul raportului inițial al mediei, dar numitorul acestuia). este necunoscut).

Media armonică ponderată

Produsul xf dă volumul caracteristicii medii x pentru un set de unități și se notează cu w. Dacă datele sursă conțin valori ale caracteristicii x care se face media și volumul caracteristicii care este mediat w, atunci metoda ponderată armonică este utilizată pentru a calcula media:

unde x este valoarea caracteristicii medii x (varianta); w – greutatea variantelor x, volumul caracteristicii medii.

Media armonică neponderată (simplu)

Această formă medie, folosită mult mai rar, are următoarea formă:

unde x este valoarea caracteristicii care se face media; n – numărul de valori x.

Acestea. aceasta este reciproca mediei aritmetice simple a valorilor reciproce ale atributului.

În practică, media simplă armonică este rar utilizată în cazurile în care valorile lui w pentru unitățile populației sunt egale.

Pătrat mediu și cubic mediu

Într-un număr de cazuri în practica economică, este necesar să se calculeze dimensiunea medie a unei caracteristici, exprimată în unități de măsură pătrate sau cubice. Apoi se utilizează pătratul mediu (de exemplu, pentru a calcula dimensiunea medie a unei laturi și a secțiunilor pătrate, diametrele medii ale țevilor, trunchiurilor etc.) și cubicul mediu (de exemplu, atunci când se determină lungimea medie a unei laturi și cuburi).

Dacă, la înlocuirea valorilor individuale ale unei caracteristici cu o valoare medie, este necesar să se mențină neschimbată suma pătratelor valorilor inițiale, atunci media va fi o valoare medie pătratică, simplă sau ponderată.

Pătrat mediu simplu

Simplu este folosit dacă fiecare valoare a atributului x apare o dată, în general are forma:

unde este pătratul valorilor caracteristicii care se face media; - numarul de unitati din populatie.

Pătrat mediu ponderat

Pătratul mediu ponderat se aplică dacă fiecare valoare a caracteristicii medii x apare de f ori:

,

unde f este ponderea opțiunilor x.

Medie cubică simplă și ponderată

Primul cubic mediu este rădăcina cubă a coeficientului de împărțire a sumei cuburilor valorilor atributelor individuale la numărul lor:

unde sunt valorile atributului, n este numărul lor.

Cubic mediu ponderat:

,

unde f este ponderea opțiunilor x.

Mijloacele pătrate și cubice au o utilizare limitată în practica statistică. Statistica pătratică medie este utilizată pe scară largă, dar nu și din opțiunile în sine x , şi de la abaterile acestora de la medie la calcularea indicilor de variaţie.

Media poate fi calculată nu pentru toate, ci pentru o parte din unitățile din populație. Un exemplu de astfel de medie ar putea fi media progresivă ca una dintre mediile parțiale, calculată nu pentru toată lumea, ci doar pentru „cei mai buni” (de exemplu, pentru indicatorii peste sau sub mediile individuale).

Medie geometrică

Dacă valorile caracteristicii care se face media sunt semnificativ diferite unele de altele sau sunt specificate prin coeficienți (rate de creștere, indici de preț), atunci media geometrică este utilizată pentru calcul.

Media geometrică se calculează prin extragerea rădăcinii gradului și din produsele valorilor individuale - variante ale caracteristicii X:

unde n este numărul de opțiuni; P - semnul produsului.

Media geometrică este cea mai utilizată pentru a determina rata medie de schimbare în seriile de dinamică, precum și în seria de distribuție.

Valorile medii sunt indicatori generali în care se exprimă efectul condițiilor generale și tiparul fenomenului studiat. Mediile statistice sunt calculate pe baza datelor de masă provenite din observarea de masă organizată corect statistic (continuă sau eșantion). Cu toate acestea, media statistică va fi obiectivă și tipică dacă este calculată din date de masă pentru o populație omogenă calitativ (fenomene de masă). Utilizarea mediilor ar trebui să plece de la o înțelegere dialectică a categoriilor general și individual, de masă și individual.

Combinarea mijloacelor generale cu mediile de grup face posibilă limitarea populațiilor omogene calitativ. Împărțind masa de obiecte care alcătuiesc acest sau acel fenomen complex în grupuri omogene intern, dar calitativ diferite, care caracterizează fiecare dintre grupuri cu media sa, este posibil să dezvăluie rezervele procesului unei noi calități emergente. De exemplu, distribuția populației pe venituri ne permite să identificăm formarea de noi grupuri sociale. În partea analitică, am analizat un exemplu particular de utilizare a valorii medii. Pentru a rezuma, putem spune că domeniul de aplicare și utilizarea mediilor în statistică este destul de largă.

Sarcina practică

Sarcina nr. 1

Determinați rata medie de cumpărare și rata medie de vânzare de unu și $ US

Rata medie de achiziție

Rata medie de vânzare

Sarcina nr. 2

Dinamica volumului produselor de alimentație publică proprii în regiunea Chelyabinsk pentru perioada 1996-2004 este prezentată în tabel în prețuri comparabile (milioane de ruble)

Conectați rândurile A și B. Pentru a analiza seria dinamicii producției produse terminate calculati:

1. Creștere absolută, creștere în lanț și bază și rate de creștere

2. Producția medie anuală de produse finite

3. Rata medie anuală de creștere și creșterea produselor companiei

4. Efectuați alinierea analitică a seriei de dinamică și calculați prognoza pentru 2005

5. Înfățișați grafic o serie de dinamici

6. Trageți o concluzie pe baza rezultatelor dinamicii

1) yi B = yi-y1 yi C = yi-y1

y2 B = 2,175 – 2,04 y2 C = 2,175 – 2,04 = 0,135

y3B = 2,505 – 2,04 y3 C = 2,505 – 2,175 = 0,33

y4 B = 2,73 – 2,04 y4 C = 2,73 – 2,505 = 0,225

y5 B = 1,5 – 2,04 y5 C = 1,5 – 2,73 = 1,23

y6 B = 3,34 – 2,04 y6 C = 3,34 – 1,5 = 1,84

y7 B = 3,6 3 – 2,04 y7 C = 3,6 3 – 3,34 = 0,29

y8 B = 3,96 – 2,04 y8 C = 3,96 – 3,63 = 0,33

y9 B = 4,41–2,04 y9 C = 4,41 – 3,96 = 0,45

Tr B2 Tr Ts2

Tr B3 Tr Ts3

Tr B4 Tr Ts4

Tr B5 Tr Ts5

Tr B6 Tr Ts6

Tr B7 Tr Ts7

Tr B8 Tr Ts8

Tr B9 Tr Ts9

Tr B = (TprB *100%) – 100%

Tr B2 = (1,066*100%) – 100% = 6,6%

Tr Ts3 = (1,151*100%) – 100% = 15,1%

2) y milioane de ruble – productivitatea medie a produsului

2,921 + 0,294*(-4) = 2,921-1,176 = 1,745

2,921 + 0,294*(-3) = 2,921-0,882 = 2,039

(yt-y) = (1,745-2,04) = 0,087

(yt-yt) = (1,745-2,921) = 1,382

(y-yt) = (2,04-2,921) = 0,776

Tp

De

y2005=2,921+1,496*4=2,921+5,984=8,905

8,905+2,306*1,496=12,354

8,905-2,306*1,496=5,456

5,456 2005 12,354


Sarcina nr. 3

Datele statistice privind livrările cu ridicata de produse alimentare și nealimentare și rețeaua de comerț cu amănuntul a regiunii în anii 2003 și 2004 sunt prezentate în graficele corespunzătoare.

Conform tabelelor 1 și 2, este necesar

1. Găsiți indicele general al aprovizionării cu ridicata a produselor alimentare în prețuri reale;

2. Aflați indicele general al volumului real de aprovizionare cu alimente;

3. Comparați indici generali și trageți concluzia potrivită;

4. Găsiți indicele general al ofertei de produse nealimentare în prețuri reale;

5. Aflați indicele general al volumului fizic de aprovizionare cu produse nealimentare;

6. Comparați indicii obținuți și trageți concluzii asupra produselor nealimentare;

7. Găsiți indicii generali de ofertă consolidați ai întregii mase de mărfuri în prețuri reale;

8. Găsiți indicele general consolidat al volumului fizic (pentru întreaga masă de mărfuri a mărfurilor);

9. Comparați indicii rezumativi rezultați și trageți concluzia corespunzătoare.

Perioada de bază

Perioada de raportare (2004)

Livrările perioadei de raportare la prețurile perioadei de bază

1,291-0,681=0,61= - 39

Concluzie

În concluzie, să rezumam. Valorile medii sunt indicatori generali în care se exprimă efectul condițiilor generale și tiparul fenomenului studiat. Mediile statistice sunt calculate pe baza datelor de masă provenite din observarea de masă organizată corect statistic (continuă sau eșantion). Cu toate acestea, media statistică va fi obiectivă și tipică dacă este calculată din date de masă pentru o populație omogenă calitativ (fenomene de masă). Utilizarea mediilor ar trebui să plece de la o înțelegere dialectică a categoriilor general și individual, de masă și individual.

Media reflectă ceea ce este comun în fiecare individ, obiect individual; prin urmare, media devine de mare importanță pentru identificarea tiparelor inerente fenomenelor sociale de masă și invizibile în fenomenele individuale.

Abaterea individului de la general este o manifestare a procesului de dezvoltare. În unele cazuri izolate, pot fi stabilite elemente ale noului, avansat. În acest caz, sunt factorii specifici, luați pe fondul valorilor medii, care caracterizează procesul de dezvoltare. Prin urmare, media reflectă nivelul caracteristic, tipic, real al fenomenelor studiate. Caracteristicile acestor niveluri și modificările lor în timp și spațiu sunt una dintre principalele probleme ale mediilor. Astfel, prin mediile, de exemplu, se manifestă caracteristică întreprinderilor într-un anumit stadiu de dezvoltare economică; schimbările în bunăstarea populației se reflectă în salariile medii, venitul familiei în general și pentru grupuri sociale individuale și nivelul consumului de produse, bunuri și servicii.

Indicatorul mediu este o valoare tipică (obișnuită, normală, predominantă în ansamblu), dar este astfel deoarece se formează în condițiile normale, naturale ale existenței unui fenomen de masă specific, considerat în ansamblu. Media reflectă proprietatea obiectivă a fenomenului. În realitate, adesea există doar fenomene deviante, iar media ca fenomen poate să nu existe, deși conceptul de tipicitate a unui fenomen este împrumutat din realitate. Valoarea medie este o reflectare a valorii caracteristicii studiate și, prin urmare, este măsurată în aceeași dimensiune cu această caracteristică. Cu toate acestea, există diferite căi determinarea aproximativă a nivelului de distribuție a populației pentru compararea caracteristicilor sumare care nu sunt direct comparabile între ele, de exemplu, populația medie în raport cu teritoriul (densitatea medie a populației). În funcție de factorul care trebuie eliminat, se va determina și conținutul mediei.

Combinarea mijloacelor generale cu mediile de grup face posibilă limitarea populațiilor omogene calitativ. Împărțind masa de obiecte care alcătuiesc acest sau acel fenomen complex în grupuri omogene intern, dar calitativ diferite, care caracterizează fiecare dintre grupuri cu media sa, este posibil să dezvăluie rezervele procesului unei noi calități emergente. De exemplu, distribuția populației pe venituri ne permite să identificăm formarea de noi grupuri sociale. În partea analitică, am analizat un exemplu particular de utilizare a valorii medii. Pentru a rezuma, putem spune că domeniul de aplicare și utilizarea mediilor în statistică este destul de largă.

Bibliografie

1. Gusarov, V.M. Teoria statisticii după calitate [Text]: manual. indemnizatie / V.M.

Manual Gusarov pentru universități. - M., 1998

2. Edronova, N.N. Teoria generală a statisticii [Text]: manual / Ed. N.N. Edronova - M.: Finanțe și Statistică 2001 - 648 p.

3. Eliseeva I.I., Yuzbashev M.M. Teoria generală a statisticii [Text]: Manual / Ed. Membru corespondent RAS I.I.Eliseeva. – Ed. a IV-a, revizuită. si suplimentare - M.: Finanţe şi Statistică, 1999. - 480 p.: ill.

4. Efimova M.R., Petrova E.V., Rumyantsev V.N. Teoria generală a statisticii: [Text]: Manual. - M.: INFRA-M, 1996. - 416 p.

5. Ryauzova, N.N. Teoria generală a statisticii [Text]: manual / Ed. N.N.

Ryauzova - M.: Finanțe și Statistică, 1984.


Gusarov V.M. Teoria statisticii: manual. Un manual pentru universități. - M., 1998.-P.60.

Eliseeva I.I., Yuzbashev M.M. Teoria generală a statisticii. - M., 1999.-P.76.

Gusarov V.M. Teoria statisticii: manual. Un manual pentru universități. -M., 1998.-P.61.

Valorile medii se referă la indicatori statistici generali care oferă o caracteristică rezumativă (finală) a fenomenelor sociale de masă, deoarece sunt construite pe baza unui număr mare de valori individuale cu o caracteristică variabilă. Pentru a clarifica esența valorii medii, este necesar să se ia în considerare particularitățile formării valorilor semnelor acestor fenomene, în funcție de datele cărora se calculează valoarea medie.

Se știe că unitățile fiecărui fenomen de masă au numeroase caracteristici. Indiferent de aceste caracteristici pe care le luăm, valorile sale vor fi diferite pentru unitățile individuale; se schimbă sau, după cum se spune în statistici, variază de la o unitate la alta. De exemplu, salariul unui angajat este determinat de calificările sale, natura muncii, vechimea în muncă și o serie de alți factori și, prin urmare, variază în limite foarte largi. Influența combinată a tuturor factorilor determină valoarea câștigurilor fiecărui angajat, cu toate acestea, putem vorbi despre salariul mediu lunar al lucrătorilor din diferite sectoare ale economiei. Aici operăm cu o valoare tipică, caracteristică a unei caracteristici variabile, atribuită unei unități dintr-o populație mare.

Valoarea medie reflectă asta general, ceea ce este tipic pentru toate unităţile populaţiei studiate. În același timp, echilibrează influența tuturor factorilor care acționează asupra valorii caracteristicii unităților individuale ale populației, parcă le-ar stinge reciproc. Nivelul (sau mărimea) oricărui fenomen social este determinat de acțiunea a două grupuri de factori. Unele dintre ele sunt generale și principale, funcționează constant, strâns legate de natura fenomenului sau procesului studiat și formează tipic pentru toate unitățile populației studiate, ceea ce se reflectă în valoarea medie. Alții sunt individual, efectul lor este mai puțin pronunțat și este episodic, aleatoriu. Acţionează în sens invers, provocând diferenţe între caracteristicile cantitative ale unităţilor individuale ale populaţiei, încercând să modifice valoarea constantă a caracteristicilor studiate. Efectul caracteristicilor individuale se stinge în valoarea medie. În influența combinată a factorilor tipici și individuali, care este echilibrată și anulată reciproc în caracteristicile generale, principiul fundamental cunoscut din statistica matematică se manifestă în formă generală. legea numerelor mari.

În ansamblu, valorile individuale ale caracteristicilor se contopesc într-o masă comună și, parcă, se dizolvă. Prin urmare valoarea medie acționează ca „impersonal”, care se poate abate de la valorile individuale ale caracteristicilor fără a coincide cantitativ cu niciuna dintre ele. Valoarea medie reflectă generală, caracteristică și tipică pentru întreaga populație din cauza anulării reciproce a diferențelor aleatorii, atipice ale acesteia între caracteristicile unităților sale individuale, deoarece valoarea sa este determinată ca și cum ar fi rezultatul comun al tuturor cauzelor.

Totuși, pentru ca valoarea medie să reflecte cea mai tipică valoare a unei caracteristici, aceasta nu ar trebui determinată pentru nicio populație, ci numai pentru populațiile formate din unități omogene calitativ. Această cerință este condiția principală pentru utilizarea întemeiată științific a mediilor și presupune o strânsă legătură între metoda mediilor și metoda grupărilor în analiza fenomenelor socio-economice. În consecință, valoarea medie este un indicator general care caracterizează nivelul tipic al unei caracteristici variabile pe unitatea unei populații omogene în condiții specifice de loc și timp.

Definind astfel esența valorilor medii, este necesar să subliniem că calcularea corectă a oricărei valori medii presupune îndeplinirea următoarelor cerințe:

  • omogenitatea calitativă a populaţiei din care se calculează valoarea medie. Aceasta înseamnă că calculul valorilor medii ar trebui să se bazeze pe metoda grupării, care asigură identificarea fenomenelor omogene, similare;
  • excluzând influența cauzelor și factorilor aleatoriu, pur individuali, asupra calculului valorii medii. Acest lucru se realizează în cazul în care calculul mediei se bazează pe un material suficient de masiv în care se manifestă acțiunea legii numerelor mari și se anulează orice aleatorie;
  • Atunci când se calculează valoarea medie, este important să se stabilească scopul calculării acesteia și așa-numitul indicator definitoriu(proprietate) spre care ar trebui să fie orientată.

Indicatorul definitoriu poate acționa ca suma valorilor caracteristicii care se face media, suma valorilor sale inverse, produsul valorilor sale etc. Relația dintre indicatorul definitoriu și valoarea medie este exprimată în următoarele: dacă toate valorile caracteristicii care se face media sunt înlocuite cu valoarea medie, atunci suma sau produsul lor în acest caz nu va schimba indicatorul definitoriu. Pe baza acestei conexiuni dintre indicatorul definitoriu și valoarea medie, se construiește o relație cantitativă inițială pentru calculul direct al valorii medii. Se numește capacitatea valorilor medii de a păstra proprietățile populațiilor statistice definind proprietatea.

Se numește valoarea medie calculată pentru populația în ansamblu media generală; valori medii calculate pentru fiecare grupă - medii de grup. Media generală reflectă aspecte comune fenomenul studiat, media grupului dă o caracteristică a fenomenului care se dezvoltă în condiţiile specifice unui grup dat.

Metodele de calcul pot fi diferite, prin urmare în statistică există mai multe tipuri de medii, principalele fiind media aritmetică, media armonică și media geometrică.

În analiza economică, utilizarea mediilor este principalul instrument de evaluare a rezultatelor progresului științific și tehnologic, evenimentelor sociale și căutarea rezervelor pentru dezvoltarea economică. În același timp, trebuie amintit că dependența excesivă de indicatorii medii poate duce la concluzii părtinitoare atunci când se efectuează analize economice și statistice. Acest lucru se datorează faptului că valorile medii, fiind indicatori generali, sting și ignoră acele diferențe de caracteristici cantitative ale unităților individuale ale populației care există efectiv și pot fi de interes independent.

Tipuri de medii

În statistici, sunt utilizate diferite tipuri de medii, care sunt împărțite în două clase mari:

  • mijloacele de putere (media armonică, medie geometrică, medie aritmetică, medie pătratică, medie cubică);
  • mijloace structurale (mod, mediană).

A calcula medii de putere este necesar să se utilizeze toate valorile caracteristice disponibile. ModăȘi median sunt determinate numai de structura distribuției, de aceea se numesc medii structurale, poziționale. Mediana și modul sunt adesea folosite ca caracteristica medieîn acele populații în care calcularea legii puterii medii este imposibilă sau nepractică.

Cel mai comun tip de medie este media aritmetică. Sub medie aritmetică se înțelege ca valoarea unei caracteristici pe care ar avea-o fiecare unitate a populației dacă suma totală a tuturor valorilor caracteristicii ar fi distribuită uniform între toate unitățile populației. Calculul acestei valori se reduce la însumarea tuturor valorilor caracteristicii variabile și la împărțirea sumei rezultate la numărul total de unități din populație. De exemplu, cinci muncitori au îndeplinit o comandă pentru producția de piese, în timp ce primul a produs 5 părți, al doilea - 7, al treilea - 4, al patrulea - 10, al cincilea - 12. Deoarece în datele sursă valoarea fiecărei opțiunea a apărut o singură dată, pentru a determina producția medie a unui lucrător ar trebui să se aplice formula medie aritmetică simplă:

adică, în exemplul nostru, producția medie a unui lucrător este egală cu

Împreună cu media aritmetică simplă, ei studiază medie aritmetică ponderată. De exemplu, să calculăm vârsta medie a elevilor dintr-un grup de 20 de persoane, ale căror vârste variază între 18 și 22 de ani, unde xi- variantele caracteristicii fiind mediate, fi- frecventa, care arata de cate ori apare i-a valoarea în agregat (Tabelul 5.1).

Tabelul 5.1

Vârsta medie a elevilor

Aplicând formula mediei aritmetice ponderate, obținem:


Pentru a selecta o medie aritmetică ponderată, există o anumită regulă: dacă există o serie de date pe doi indicatori, pentru unul dintre care este necesar să se calculeze

valoarea medie și, în același timp, sunt cunoscute valorile numerice ale numitorului formulei sale logice, iar valorile numărătorului sunt necunoscute, dar pot fi găsite ca produs al acestor indicatori, atunci valoarea medie ar trebui să se calculează folosind formula medie ponderată aritmetică.

În unele cazuri, natura datelor statistice inițiale este de așa natură încât calculul mediei aritmetice își pierde sensul și singurul indicator de generalizare nu poate fi decât un alt tip de medie - medie armonică.În prezent, proprietățile de calcul ale mediei aritmetice și-au pierdut relevanța în calculul indicatorilor statistici generali, datorită introducerii pe scară largă a tehnologiei de calcul electronic. Valoarea medie armonică, care poate fi și simplă și ponderată, a căpătat o mare importanță practică. Dacă sunt cunoscute valorile numerice ale numărătorului unei formule logice, iar valorile numitorului sunt necunoscute, dar pot fi găsite ca o împărțire parțială a unui indicator cu altul, atunci valoarea medie este calculată folosind armonica formula medie ponderată.

De exemplu, să se știe că mașina a parcurs primii 210 km cu o viteză de 70 km/h, iar restul de 150 km cu o viteză de 75 km/h. Este imposibil să se determine viteza medie a unei mașini pe întreaga călătorie de 360 ​​km folosind formula medie aritmetică. Deoarece opțiunile sunt viteze în secțiuni individuale xj= 70 km/h și X2= 75 km/h, iar greutățile (fi) sunt considerate a fi secțiunile corespunzătoare ale traseului, atunci produsele opțiunilor și greutățile nu vor avea nici semnificație fizică, nici economică. În acest caz, coeficientii dobândesc semnificație din împărțirea secțiunilor traseului în viteze corespunzătoare (opțiunile xi), adică timpul petrecut cu trecerea secțiunilor individuale ale traseului (fi / xi). Dacă secțiunile traseului sunt notate cu fi, atunci întregul drum este exprimat ca Σfi, iar timpul petrecut pe întreaga cale este exprimat ca Σ fi / xi , Apoi viteza medie poate fi găsită ca coeficientul întregii trasee împărțit la timpul total petrecut:

În exemplul nostru obținem:

Dacă, atunci când utilizați media armonică, ponderile tuturor opțiunilor (f) sunt egale, atunci în locul celei ponderate puteți utiliza medie armonică simplă (neponderată):

unde xi sunt opțiuni individuale; n- numărul de variante ale caracteristicii medii. În exemplul de viteză, media armonică simplă ar putea fi aplicată dacă segmentele de cale parcurse la viteze diferite ar fi egale.

Orice valoare medie trebuie calculată astfel încât atunci când înlocuiește fiecare variantă a caracteristicii medii, valoarea unui indicator final, general, care este asociat cu indicatorul mediu, să nu se modifice. Astfel, la înlocuirea vitezelor reale pe secțiuni individuale ale traseului cu valoarea lor medie (viteza medie), distanța totală nu ar trebui să se modifice.

Forma (formula) valorii medii este determinată de natura (mecanismul) relației acestui indicator final cu cel mediat, prin urmare indicatorul final, a cărui valoare nu ar trebui să se modifice la înlocuirea opțiunilor cu valoarea lor medie, este numit indicator definitoriu. Pentru a obține formula pentru medie, trebuie să creați și să rezolvați o ecuație folosind relația dintre indicatorul mediat și cel determinant. Această ecuație se construiește prin înlocuirea variantelor caracteristicii (indicatorului) care se face media cu valoarea medie a acestora.

Pe lângă media aritmetică și media armonică, în statistică sunt folosite și alte tipuri (forme) de medie. Toate sunt cazuri speciale putere medie. Dacă calculăm toate tipurile de medii de putere pentru aceleași date, atunci valorile

se vor dovedi a fi la fel, aici se aplică regula major-garantie in medie. Pe măsură ce exponentul mediei crește, valoarea medie în sine crește. Cele mai frecvent utilizate formule de calcul în cercetarea practică tipuri variate valorile medii ale puterii sunt prezentate în tabel. 5.2.

Tabelul 5.2


Media geometrică este folosită atunci când există n coeficienții de creștere, în timp ce valorile individuale ale caracteristicii sunt, de regulă, valori relative dinamică construită sub formă de valori în lanț, ca raport față de nivelul anterior al fiecărui nivel într-o serie de dinamică. Media caracterizează astfel rata medie de creștere. Medie geometrică simplă calculate prin formula

Formulă medie geometrică ponderată are următoarea formă:

Formulele de mai sus sunt identice, dar una se aplică la coeficienții sau ratele de creștere actuale, iar a doua - la valorile absolute ale nivelurilor de serie.

Medie pătrată utilizat în calcule cu valorile funcțiilor pătratice, utilizat pentru a măsura gradul de fluctuație a valorilor individuale ale unei caracteristici în jurul mediei aritmetice din seria de distribuție și este calculat prin formula

Pătrat mediu ponderat calculat folosind o altă formulă:

Cubic mediu se utilizează la calcularea cu valori ale funcțiilor cubice și se calculează prin formula

Cubic ponderat mediu:

Toate valorile medii discutate mai sus pot fi prezentate ca o formulă generală:

unde este valoarea medie; - sens individual; n- numărul de unităţi ale populaţiei studiate; k- exponent care determină tipul mediei.

Când utilizați aceleași date sursă, cu atât mai mult kîn formula generală a puterii medii, cu atât valoarea medie este mai mare. De aici rezultă că există o relație naturală între valorile mediilor de putere:

Valorile medii descrise mai sus oferă o idee generalizată a populației studiate, iar din acest punct de vedere, semnificația lor teoretică, aplicată și educațională este incontestabilă. Dar se întâmplă ca valoarea medie să nu coincidă cu niciuna dintre opțiunile existente efectiv, prin urmare, pe lângă mediile luate în considerare, în analiza statistică este recomandabil să se utilizeze valorile opțiunilor specifice care ocupă o poziție foarte specifică în serii ordonate (clasate) de valori ale atributelor. Dintre aceste cantități, cele mai utilizate sunt structural, sau descriptiv, mediu- mod (Mo) și mediană (Me).

Modă- valoarea unei caracteristici care se regaseste cel mai des la o populatie data. În raport cu o serie variațională, modul este valoarea cea mai frecventă a seriei clasate, adică opțiunea cu cea mai mare frecvență. Moda poate fi folosită în determinarea magazinelor care sunt vizitate mai des, cel mai frecvent preț pentru orice produs. Ea arată dimensiunea unei caracteristici caracteristice unei părți semnificative a populației și este determinată de formulă

unde x0 este limita inferioară a intervalului; h- dimensiunea intervalului; fm- frecventa intervalului; fm_ 1 - frecvența intervalului anterior; fm+ 1 - frecvența intervalului următor.

Median se numește opțiunea situată în centrul rândului clasat. Mediana împarte seria în două părți egale, astfel încât să existe același număr de unități de populație de ambele părți ale acesteia. În acest caz, jumătate din unitățile din populație are o valoare a caracteristicii variabile mai mică decât mediana, iar cealaltă jumătate are o valoare mai mare decât aceasta. Mediana este utilizată atunci când se studiază un element a cărui valoare este mai mare sau egală cu, sau în același timp mai mică sau egală cu, jumătate dintre elementele unei serii de distribuție. Mediana dă ideea generala despre unde sunt concentrate valorile atributului, cu alte cuvinte, unde se află centrul lor.

Caracterul descriptiv al mediei se manifestă prin faptul că ea caracterizează limita cantitativă a valorilor unei caracteristici variabile pe care o posedă jumătate din unitățile din populație. Problema găsirii medianei pentru o serie de variații discrete este ușor de rezolvat. Dacă tuturor unităților seriei li se dau numere de serie, atunci numărul de serie al opțiunii mediane este determinat ca (n + 1) / 2 cu un număr impar de membri ai lui n. Dacă numărul de membri ai seriei este un număr par , atunci mediana va fi valoarea medie a două opțiuni care au numere de serie n/ 2 și n / 2 + 1.

Când se determină mediana în seria de variații de interval, se stabilește mai întâi intervalul în care se află (intervalul median). Acest interval se caracterizează prin faptul că suma sa acumulată de frecvențe este egală cu sau depășește jumătate din suma tuturor frecvențelor seriei. Mediana unei serii de variații de interval este calculată folosind formula

Unde X0- limita inferioară a intervalului; h- dimensiunea intervalului; fm- frecventa intervalului; f- numărul de membri ai seriei;

∫m-1 este suma termenilor acumulați ai seriei premergătoare celei date.

Alături de mediană, pentru a caracteriza mai pe deplin structura populației studiate, sunt utilizate și alte valori ale opțiunilor care ocupă o poziție foarte specifică în seria clasată. Acestea includ quartilesȘi decile. Quartilele împart seria în funcție de suma frecvențelor în 4 părți egale, iar decilele - în 10 părți egale. Există trei quartile și nouă decile.

Mediana și modul, spre deosebire de media aritmetică, nu elimină diferențele individuale ale valorilor unei caracteristici variabile și, prin urmare, sunt caracteristici suplimentare și foarte importante ale populației statistice. În practică, ele sunt adesea folosite în locul mediei sau împreună cu aceasta. Este indicat mai ales să se calculeze mediana și modul în cazurile în care populația studiată conține un anumit număr de unități cu o valoare foarte mare sau foarte mică a caracteristicii variabile. Aceste valori ale opțiunilor, care nu sunt foarte caracteristice populației, deși influențează valoarea mediei aritmetice, nu afectează valorile medianei și ale modului, ceea ce face ca acestea din urmă indicatori foarte valoroși pentru economic și statistic. analiză.

Indicatori de variație

Scopul cercetării statistice este de a identifica proprietățile și modelele de bază ale populației statistice studiate. În procesul de prelucrare sumară a datelor de observație statistică, acestea construiesc seria de distribuție. Există două tipuri de serii de distribuție - atributive și variaționale, în funcție de faptul că caracteristica luată ca bază pentru grupare este calitativă sau cantitativă.

Variațională se numesc serii de distribuţie construite pe o bază cantitativă. Valorile caracteristicilor cantitative în unitățile individuale ale populației nu sunt constante, ele diferă mai mult sau mai puțin unele de altele. Această diferență de valoare a unei caracteristici se numește variatii. Se numesc valori numerice individuale ale unei caracteristici găsite în populația studiată variante de valori. Prezența variației în unitățile individuale ale populației se datorează influenței unui număr mare de factori asupra formării nivelului trăsăturii. Studiul naturii și gradului de variație a caracteristicilor în unitățile individuale ale populației este problema cea mai importantă a oricărei cercetări statistice. Indicii de variație sunt utilizați pentru a descrie măsura variabilității trăsăturilor.

O altă sarcină importantă a cercetării statistice este de a determina rolul factorilor individuali sau al grupurilor acestora în variația anumitor caracteristici ale populației. Pentru a rezolva această problemă, statistica folosește metode speciale de studiere a variației, bazate pe utilizarea unui sistem de indicatori cu care se măsoară variația. În practică, un cercetător se confruntă cu un număr destul de mare de variante ale valorilor atributelor, ceea ce nu oferă o idee despre distribuția unităților după valoarea atributelor în agregat. Pentru a face acest lucru, aranjați toate variantele de valori caracteristice în ordine crescătoare sau descrescătoare. Acest proces se numește clasarea seriei. Seria clasată oferă imediat o idee generală a valorilor pe care caracteristica le ia în agregat.

Insuficiența valorii medii pentru o descriere exhaustivă a populației ne obligă să suplimentăm valorile medii cu indicatori care ne permit să apreciem tipicitatea acestor medii prin măsurarea variabilității (variației) caracteristicii studiate. Utilizarea acestor indicatori de variație face posibilă realizarea analizei statistice mai complete și mai semnificative și, astfel, obținerea unei înțelegeri mai profunde a esenței fenomenelor sociale studiate.

Cele mai simple semne de variație sunt minimȘi maxim - aceasta este cea mai mică și cea mai mare valoare a atributului în agregat. Se numește numărul de repetări ale variantelor individuale ale valorilor caracteristice frecvența de repetiție. Să notăm frecvența de repetare a valorii atributului fi, suma frecvențelor egală cu volumul populației studiate va fi:

Unde k- numărul de opțiuni pentru valorile atributelor. Este convenabil să înlocuiți frecvențele cu frecvențe - wi. Frecvență- indicator de frecvență relativă - poate fi exprimat în fracții de unitate sau procent și vă permite să comparați serii de variații cu numere diferite de observații. Formal avem:

Pentru a măsura variația unei trăsături, se folosesc diverși indicatori absoluti și relativi. Indicatorii absoluti de variație includ abaterea liniară medie, intervalul de variație, dispersia și abaterea standard.

Gama de variație(R) reprezintă diferența dintre valorile maxime și minime ale atributului în populația studiată: R= Xmax - Xmin. Acest indicator oferă doar cea mai generală idee despre variabilitatea caracteristicii studiate, deoarece arată diferența doar între valorile maxime ale opțiunilor. Nu are nicio legătură cu frecvențele din seria de variații, adică cu natura distribuției, iar dependența sa îi poate conferi un caracter instabil, aleatoriu numai de valorile extreme ale caracteristicii. Gama de variație nu oferă nicio informație despre caracteristicile populațiilor studiate și nu ne permite să apreciem gradul de tipicitate al valorilor medii obținute. Domeniul de aplicare al acestui indicator este limitat la populații destul de omogene; mai precis, el caracterizează variația unei caracteristici, un indicator bazat pe luarea în considerare a variabilității tuturor valorilor caracteristicii.

Pentru a caracteriza variația unei caracteristici, este necesar să se generalizeze abaterile tuturor valorilor de la orice valoare tipică pentru populația studiată. Astfel de indicatori

variațiile, cum ar fi abaterea liniară medie, dispersia și abaterea standard, se bazează pe luarea în considerare a abaterilor valorilor caracteristice ale unităților individuale ale populației de la media aritmetică.

Abaterea liniară medie reprezintă media aritmetică a valorilor absolute ale abaterilor opțiunilor individuale de la media lor aritmetică:


Valoarea absolută (modulul) abaterii variantei de la media aritmetică; f- frecvență.

Prima formulă se aplică dacă fiecare dintre opțiuni apare în total o singură dată, iar a doua - în serie cu frecvențe inegale.

Există o altă modalitate de a face media abaterilor opțiunilor de la media aritmetică. Această metodă foarte comună în statistică se reduce la calcularea abaterilor pătrate ale opțiunilor de la valoarea medie cu media lor ulterioară. În acest caz, obținem un nou indicator de variație - dispersia.

Dispersia(σ 2) - media abaterilor pătrate ale opțiunilor de valoare de atribut față de valoarea medie a acestora:

A doua formulă se aplică dacă opțiunile au propriile ponderi (sau frecvențe ale seriei de variații).

În analiza economică și statistică, se obișnuiește să se evalueze variația unei caracteristici cel mai adesea folosind abaterea standard. Deviație standard(σ) este rădăcina pătrată a varianței:

Abaterile medii liniare și standard arată cât de mult fluctuează valoarea unei caracteristici în medie între unitățile populației studiate și sunt exprimate în aceleași unități de măsură ca și opțiunile.

În practica statistică, este adesea nevoie de a compara variația diferitelor caracteristici. De exemplu, este de mare interes să se compare variațiile vârstei personalului și calificările acestora, vechimea în muncă și salariile etc. Pentru astfel de comparații, indicatorii de variabilitate absolută a caracteristicilor - medie liniară și abatere standard - nu sunt potriviți. Este, de fapt, imposibil de comparat fluctuația vechimii în muncă, exprimată în ani, cu fluctuația salariilor, exprimată în ruble și copeici.

Când se compară variabilitatea diferitelor caracteristici împreună, este convenabil să se utilizeze măsuri relative de variație. Acești indicatori sunt calculați ca raportul dintre indicatorii absoluti și media aritmetică (sau mediana). Folosind intervalul de variație, abaterea liniară medie și abaterea standard ca indicator absolut al variației, se obțin indicatori relativi de variabilitate:


Cel mai frecvent utilizat indicator al variabilității relative, care caracterizează omogenitatea populației. Populația este considerată omogenă dacă coeficientul de variație nu depășește 33% pentru distribuții apropiate de normal.

În cele mai multe cazuri, datele sunt concentrate în jurul unui punct central. Astfel, pentru a descrie orice set de date, este suficient să indicați valoarea medie. Să luăm în considerare secvenţial trei caracteristici numerice care sunt utilizate pentru estimarea valorii medii a distribuţiei: media aritmetică, mediana şi modul.

In medie

Media aritmetică (deseori numită pur și simplu medie) este cea mai comună estimare a mediei unei distribuții. Este rezultatul împărțirii sumei tuturor valorilor numerice observate la numărul lor. Pentru un eșantion format din numere X 1, X 2, …, Xn, medie eșantionului (notat cu ) egal = (X 1 + X 2 + … + Xn) / n, sau

unde este media eșantionului, n- marime de mostra, Xii-lea element mostre.

Descărcați nota în sau format, exemple în format

Luați în considerare calcularea mediei aritmetice a randamentelor medii anuale pe cinci ani a 15 fonduri mutuale cu foarte nivel inalt risc (fig. 1).

Orez. 1. Rentabilitatea medie anuală a 15 fonduri mutuale cu risc foarte ridicat

Media eșantionului se calculează după cum urmează:

Acesta este un randament bun, mai ales în comparație cu randamentul de 3-4% pe care l-au primit deponenții băncilor sau uniunii de credit în aceeași perioadă de timp. Dacă sortăm randamentele, este ușor de observat că opt fonduri au randamente peste medie și șapte - sub medie. Media aritmetică acționează ca punct de echilibru, astfel încât fondurile cu randamente scăzute echilibrează fondurile cu randamente ridicate. Toate elementele eșantionului sunt implicate în calcularea mediei. Niciuna dintre celelalte estimări ale mediei unei distribuții nu are această proprietate.

Când ar trebui să calculezi media aritmetică? Deoarece media aritmetică depinde de toate elementele din eșantion, prezența valorilor extreme afectează în mod semnificativ rezultatul. În astfel de situații, media aritmetică poate distorsiona sensul datelor numerice. Prin urmare, atunci când se descrie un set de date care conține valori extreme, este necesar să se indice mediana sau media aritmetică și mediana. De exemplu, dacă eliminăm randamentele fondului RS Emerging Growth din eșantion, media eșantionului a randamentelor celor 14 fonduri scade cu aproape 1% până la 5,19%.

Median

Mediana reprezintă valoarea mediană matrice ordonată de numere. Dacă matricea nu conține numere care se repetă, atunci jumătate dintre elementele sale vor fi mai mici decât mediana și jumătate va fi mai mare decât mediana. Dacă eșantionul conține valori extreme, este mai bine să folosiți mediana mai degrabă decât media aritmetică pentru a estima media. Pentru a calcula mediana unui eșantion, acesta trebuie mai întâi comandat.

Această formulă este ambiguă. Rezultatul depinde dacă numărul este par sau impar n:

  • Dacă eșantionul conține un număr impar de elemente, mediana este (n+1)/2- al-lea element.
  • Dacă eșantionul conține un număr par de elemente, mediana se află între cele două elemente din mijloc ale eșantionului și este egală cu media aritmetică calculată pentru aceste două elemente.

Pentru a calcula mediana unui eșantion care conține randamentele a 15 fonduri mutuale cu risc foarte ridicat, mai întâi trebuie să sortați datele brute (Figura 2). Atunci mediana va fi opusă numărului elementului mijlociu al probei; în exemplul nostru nr. 8. Excel are o funcție specială =MEDIAN() care funcționează și cu tablouri neordonate.

Orez. 2. Median 15 fonduri

Astfel, mediana este 6,5. Aceasta înseamnă că randamentul unei jumătăți din fondurile cu risc foarte mare nu depășește 6,5, iar randamentul celeilalte jumătate îl depășește. Rețineți că mediana de 6,5 nu este cu mult mai mare decât media de 6,08.

Dacă eliminăm randamentul fondului RS Emerging Growth din eșantion, atunci mediana celor 14 fonduri rămase scade la 6,2%, adică nu la fel de semnificativ ca media aritmetică (Figura 3).

Orez. 3. Median 14 fonduri

Modă

Termenul a fost inventat pentru prima dată de Pearson în 1894. Moda este numărul care apare cel mai des într-un eșantion (cel mai la modă). Moda descrie bine, de exemplu, reacția tipică a șoferilor la un semnal de semafor de a se opri din mișcare. Un exemplu clasic de utilizare a modei este alegerea mărimii pantofilor sau a culorii tapetului. Dacă o distribuție are mai multe moduri, atunci se spune că este multimodală sau multimodală (are două sau mai multe „vârfuri”). Distribuția multimodală dă Informații importante despre natura variabilei studiate. De exemplu, în anchetele sociologice, dacă o variabilă reprezintă o preferință sau atitudine față de ceva, atunci multimodalitatea poate însemna că există mai multe opinii diferite. Multimodalitatea servește, de asemenea, ca un indicator că eșantionul nu este omogen și că observațiile pot fi generate de două sau mai multe distribuții „suprapuse”. Spre deosebire de media aritmetică, valorile aberante nu afectează modul. Pentru variabile aleatoare distribuite continuu, cum ar fi randamentul mediu anual al fondurilor mutuale, modul uneori nu există (sau nu are sens) deloc. Deoarece acești indicatori pot lua valori foarte diferite, valorile repetate sunt extrem de rare.

Quartiles

Quartilele sunt metricile cel mai des folosite pentru a evalua distribuția datelor atunci când se descriu proprietățile eșantioanelor numerice mari. În timp ce mediana împarte matricea ordonată în jumătate (50% din elementele matricei sunt mai mici decât mediana și 50% sunt mai mari), quartilele împart setul de date ordonat în patru părți. Valorile Q 1 , mediana și Q 3 sunt percentilele 25, 50 și, respectiv, 75. Prima cuartilă Q 1 este un număr care împarte eșantionul în două părți: 25% dintre elemente sunt mai mici decât prima cuartilă și 75% sunt mai mari decât prima.

A treia cuartilă Q 3 este un număr care împarte eșantionul în două părți: 75% dintre elemente sunt mai mici și 25% - mai mult de trei quartila

Pentru a calcula quartile în versiunile de Excel înainte de 2007, utilizați funcția =QUARTILE(array,part) . Începând cu Excel 2010, sunt utilizate două funcții:

  • =QUARTILE.ON(matrice,parte)
  • =QUARTILE.EXC(matrice,parte)

Aceste două funcții dau puțin sensuri diferite(Fig. 4). De exemplu, atunci când se calculează quartilele unui eșantion care conține randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat, Q 1 = 1,8 sau –0,7 pentru QUARTILE.IN și, respectiv, QUARTILE.EX. Apropo, funcția QUARTILE, folosită anterior, corespunde funcției moderne QUARTILE.ON. Pentru a calcula quartile în Excel folosind formulele de mai sus, matricea de date nu trebuie să fie ordonată.

Orez. 4. Calcularea quartilelor în Excel

Să subliniem din nou. Excel poate calcula cuartile pentru un univariat serie discretă, cuprinzând valorile variabilă aleatorie. Calculul quartilelor pentru o distribuție bazată pe frecvență este prezentat mai jos în secțiune.

Medie geometrică

Spre deosebire de media aritmetică, media geometrică vă permite să estimați gradul de modificare a unei variabile în timp. Media geometrică este rădăcina n gradul de la lucrare n cantități (în Excel se folosește funcția =SRGEOM):

G= (X 1 * X 2 * … * X n) 1/n

Un parametru similar - valoarea medie geometrică a ratei profitului - este determinat de formula:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Unde R i– rata profitului pt i a-a perioadă de timp.

De exemplu, să presupunem că investiția inițială este de 100 000 USD. Până la sfârșitul primului an, aceasta scade la 50 000 USD, iar la sfârșitul celui de-al doilea an revine la nivelul inițial de 100 000 USD. -perioada anului este egală cu 0, deoarece sumele inițiale și finale ale fondurilor sunt egale între ele. Cu toate acestea, media aritmetică a ratelor anuale de profit este = (–0,5 + 1) / 2 = 0,25 sau 25%, întrucât rata profitului în primul an R 1 = (50.000 – 100.000) / 100.000 = –0,5 , iar în al doilea R 2 = (100.000 – 50.000) / 50.000 = 1. În același timp, valoarea medie geometrică a ratei profitului pe doi ani este egală cu: G = [(1–0,5) * (1+1 ) ] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Astfel, media geometrică reflectă mai exact modificarea (mai precis, absența modificărilor) a volumului investițiilor pe o perioadă de doi ani decât aritmetica Rău.

Fapte interesante.În primul rând, media geometrică va fi întotdeauna mai mică decât media aritmetică a acelorași numere. Cu excepția cazului în care toate numerele luate sunt egale între ele. În al doilea rând, luând în considerare proprietățile unui triunghi dreptunghic, puteți înțelege de ce media se numește geometrică. Înălțimea unui triunghi dreptunghic, coborât la ipotenuză, este media proporțională dintre proiecțiile catetelor pe ipotenuză, iar fiecare catete este media proporțională dintre ipotenuză și proiecția acesteia pe ipotenuză (Fig. 5). Aceasta oferă o modalitate geometrică de a construi media geometrică a două (lungimi) segmente: trebuie să construiți un cerc pe suma acestor două segmente ca diametru, apoi înălțimea restabilită de la punctul de conectare la intersecția cu cercul. va da valoarea dorita:

Orez. 5. Natura geometrică a mediei geometrice (figura de pe Wikipedia)

A doua proprietate importantă a datelor numerice este lor variație, care caracterizează gradul de dispersie a datelor. Două eșantioane diferite pot diferi atât în ​​ceea ce privește mediile, cât și variațiile. Totuși, așa cum se arată în Fig. 6 și 7, două mostre pot avea aceleași variații, dar mijloace diferite, sau aceleași mijloace și variații complet diferite. Datele care corespund poligonului B din Fig. 7, se modifică mult mai puțin decât datele pe care a fost construit poligonul A.

Orez. 6. Două distribuții simetrice în formă de clopot cu aceeași răspândire și valori medii diferite

Orez. 7. Două distribuții simetrice în formă de clopot cu aceleași valori medii și spread diferite

Există cinci estimări ale variației datelor:

  • domeniul de aplicare,
  • intervalul intercuartil,
  • dispersie,
  • deviație standard,
  • coeficientul de variație.

Domeniul de aplicare

Intervalul este diferența dintre cele mai mari și cele mai mici elemente ale eșantionului:

Interval = XMax - XMin

Intervalul unui eșantion care conține randamentele anuale medii a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat folosind matricea ordonată (vezi Figura 4): Interval = 18,5 – (–6,1) = 24,6. Aceasta înseamnă că diferența dintre randamentul mediu anual cel mai mare și cel mai scăzut al fondurilor cu risc foarte ridicat este de 24,6%.

Intervalul măsoară răspândirea globală a datelor. Deși intervalul de eșantionare este o estimare foarte simplă a răspândirii generale a datelor, slăbiciunea sa este că nu ia în considerare exact modul în care datele sunt distribuite între elementele minime și maxime. Acest efect este clar vizibil în fig. 8, care ilustrează mostre având același interval. Scala B demonstrează că, dacă un eșantion conține cel puțin o valoare extremă, intervalul eșantionului este o estimare foarte imprecisă a răspândirii datelor.

Orez. 8. Comparația a trei probe cu același interval; triunghiul simbolizează suportul scalei, iar locația acesteia corespunde mediei eșantionului

Intervalul intercuartil

Intervalul intercuartil, sau media, este diferența dintre a treia și prima cuartilă a eșantionului:

Interval interquartil = Q 3 – Q 1

Această valoare ne permite să estimăm împrăștierea a 50% din elemente și să nu ținem cont de influența elementelor extreme. Intervalul intercuartil al unui eșantion care conține randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat folosind datele din Fig. 4 (de exemplu, pentru funcția QUARTILE.EXC): Interval interquartile = 9,8 – (–0,7) = 10,5. Intervalul delimitat de numerele 9,8 și -0,7 este adesea numit jumătatea mijlocie.

Trebuie remarcat faptul că valorile Q 1 și Q 3 și, prin urmare, intervalul intercuartil, nu depind de prezența valorilor aberante, deoarece calculul lor nu ia în considerare nicio valoare care ar fi mai mică decât Q 1 sau mai mare. decât Q 3 . Măsurile rezumative, cum ar fi mediana, primul și al treilea quartile și intervalul intercuartil care nu sunt afectate de valori aberante, se numesc măsuri robuste.

Deși intervalul și intervalul intercuartil oferă estimări ale răspândirii generale și, respectiv, medii a unui eșantion, niciuna dintre aceste estimări nu ia în considerare exact modul în care sunt distribuite datele. Varianta si abaterea standard sunt lipsite de acest dezavantaj. Acești indicatori vă permit să evaluați gradul în care datele fluctuează în jurul valorii medii. Varianta eșantionului este o aproximare a mediei aritmetice calculată din pătratele diferențelor dintre fiecare element eșantion și media eșantionului. Pentru un eșantion X 1, X 2, ... X n, varianța eșantionului (notat cu simbolul S 2 este dată de următoarea formulă:

În general, varianța eșantionului este suma pătratelor diferențelor dintre elementele eșantionului și media eșantionului, împărțită la o valoare egală cu dimensiunea eșantionului minus unu:

Unde - medie aritmetică, n- marime de mostra, X i - i al-lea element de selecție X. În Excel înainte de versiunea 2007, funcția =VARIN() a fost utilizată pentru a calcula varianța eșantionului; din versiunea 2010, este utilizată funcția =VARIAN().

Cea mai practică și larg acceptată estimare a dispersării datelor este abaterea standard a probei. Acest indicator este notat cu simbolul S și este egal cu rădăcină pătrată din varianța eșantionului:

În Excel înainte de versiunea 2007, funcția =STDEV.() a fost utilizată pentru a calcula abaterea standard a eșantionului; începând cu versiunea 2010, este utilizată funcția =STDEV.V(). Pentru a calcula aceste funcții, matricea de date poate fi neordonată.

Nici varianța eșantionului și nici abaterea standard a eșantionului nu pot fi negative. Singura situație în care indicatorii S 2 și S pot fi zero este dacă toate elementele eșantionului sunt egale între ele. În acest caz complet improbabil, intervalul și intervalul intercuartil sunt, de asemenea, zero.

Datele numerice sunt în mod inerent variabile. Orice variabilă poate lua multe sensuri diferite. De exemplu, diferite fonduri mutuale au rate diferite de rentabilitate și pierdere. Datorită variabilității datelor numerice, este foarte important să se studieze nu numai estimări ale mediei, care sunt de natură rezumată, ci și estimări ale varianței, care caracterizează răspândirea datelor.

Dispersia și abaterea standard vă permit să estimați răspândirea datelor în jurul valorii medii, cu alte cuvinte, să determinați câte elemente de eșantion sunt mai mici decât media și câte sunt mai multe. Dispersia are unele proprietăți matematice valoroase. Cu toate acestea, valoarea sa este pătratul unității de măsură - procent pătrat, dolar pătrat, inch pătrat etc. Prin urmare, o măsură naturală a dispersiei este abaterea standard, care este exprimată în unități comune de procent de venit, dolari sau inci.

Abaterea standard vă permite să estimați cantitatea de variație a elementelor eșantionului în jurul valorii medii. În aproape toate situațiile, majoritatea valorilor observate se află în intervalul de plus sau minus o abatere standard de la medie. În consecință, cunoscând media aritmetică a elementelor eșantionului și abaterea standard a eșantionului, este posibil să se determine intervalul căruia îi aparține cea mai mare parte a datelor.

Abaterea standard a randamentelor pentru cele 15 fonduri mutuale cu risc foarte ridicat este de 6,6 (Figura 9). Aceasta înseamnă că profitabilitatea majorității fondurilor diferă de valoarea medie cu cel mult 6,6% (adică fluctuează în intervalul de la – S= 6,2 – 6,6 = –0,4 până la +S= 12,8). De fapt, randamentul mediu anual pe cinci ani de 53,3% (8 din 15) din fonduri se află în acest interval.

Orez. 9. Eșantion de abatere standard

Rețineți că atunci când însumăm diferențele pătrate, elementele eșantionului care sunt mai departe de medie sunt ponderate mai mult decât elementele care sunt mai aproape de medie. Această proprietate este principalul motiv pentru care media aritmetică este folosită cel mai adesea pentru a estima media unei distribuții.

Coeficientul de variație

Spre deosebire de estimările anterioare ale dispersiei, coeficientul de variație este o estimare relativă. Este întotdeauna măsurată ca procent și nu în unitățile datelor originale. Coeficientul de variație, notat cu simbolurile CV, măsoară dispersia datelor în jurul mediei. Coeficientul de variație este egal cu abaterea standard împărțită la media aritmetică și înmulțită cu 100%:

Unde S- abaterea standard a probei, - media eșantionului.

Coeficientul de variație vă permite să comparați două eșantioane ale căror elemente sunt exprimate în unități de măsură diferite. De exemplu, managerul unui serviciu de livrare poștă intenționează să-și reînnoiască flota de camioane. La încărcarea pachetelor, există două restricții de luat în considerare: greutatea (în lire sterline) și volumul (în picioare cubi) ale fiecărui pachet. Să presupunem că într-o probă care conține 200 de saci, greutatea medie este de 26,0 lire sterline, abaterea standard a greutății este de 3,9 lire sterline, volumul mediu al sacului este de 8,8 picioare cubi și abaterea standard a volumului este de 2,2 picioare cubi. Cum se compară variația de greutate și volum a pachetelor?

Deoarece unitățile de măsură pentru greutate și volum diferă între ele, managerul trebuie să compare răspândirea relativă a acestor cantități. Coeficientul de variație al greutății este CV W = 3,9 / 26,0 * 100% = 15%, iar coeficientul de variație al volumului este CV V = 2,2 / 8,8 * 100% = 25%. Astfel, variația relativă a volumului pachetelor este mult mai mare decât variația relativă a greutății acestora.

Formular de distribuire

A treia proprietate importantă a unui eșantion este forma distribuției sale. Această distribuție poate fi simetrică sau asimetrică. Pentru a descrie forma unei distribuții, este necesar să se calculeze media și mediana acesteia. Dacă cele două sunt la fel, variabila este considerată distribuită simetric. Dacă valoarea medie a unei variabile este mai mare decât mediana, distribuția ei are o asimetrie pozitivă (Fig. 10). Dacă mediana este mai mare decât media, distribuția variabilei este denaturată negativ. Deformarea pozitivă apare atunci când media crește la valori neobișnuit de ridicate. Deformarea negativă apare atunci când media scade la valori neobișnuit de mici. O variabilă este distribuită simetric dacă nu ia valori extreme în nicio direcție, astfel încât valorile mari și mici ale variabilei se anulează reciproc.

Orez. 10. Trei tipuri de distribuții

Datele afișate pe scara A sunt denaturate negativ. Această figură arată o coadă lungă și o înclinare spre stânga cauzată de prezența unor valori neobișnuit de mici. Aceste valori extrem de mici deplasează valoarea medie spre stânga, făcând-o mai mică decât mediana. Datele prezentate pe scara B sunt distribuite simetric. Jumătățile stânga și dreapta ale distribuției sunt imagini în oglindă ale lor. Valorile mari și mici se echilibrează reciproc, iar media și mediana sunt egale. Datele afișate pe scara B sunt denaturate pozitiv. Această figură arată o coadă lungă și o înclinare spre dreapta cauzată de prezența unor valori neobișnuit de ridicate. Aceste valori prea mari deplasează media spre dreapta, făcând-o mai mare decât mediana.

În Excel, statisticile descriptive pot fi obținute folosind un add-in Pachet de analize. Treceți prin meniu DateAnaliza datelor, în fereastra care se deschide, selectați linia Statisticile descriptiveși faceți clic Bine. La fereastră Statisticile descriptive asigurați-vă că indicați Interval de intrare(Fig. 11). Dacă doriți să vedeți statistici descriptive pe aceeași foaie cu datele originale, selectați butonul radio Interval de ieșireși specificați celula în care ar trebui să fie plasat colțul din stânga sus al statisticilor afișate (în exemplul nostru, $C$1). Dacă doriți să scoateți date într-o foaie nouă sau într-un registru de lucru nou, trebuie doar să selectați butonul radio corespunzător. Bifați caseta de lângă Statistici rezumate. Dacă doriți, puteți alege și Nivel de dificultate,al k-lea cel mai mic șia k-a cea mai mare.

Dacă în depozit Dateîn zonă Analiză nu vezi pictograma Analiza datelor, mai întâi trebuie să instalați suplimentul Pachet de analize(vezi, de exemplu,).

Orez. 11. Statistici descriptive ale randamentelor medii anuale pe cinci ani ale fondurilor cu niveluri foarte ridicate de risc, calculate folosind programul de completare Analiza datelor programe Excel

Excel calculează un număr de statistici discutate mai sus: medie, mediană, mod, abatere standard, varianță, interval ( interval), minim, maxim și dimensiunea eșantionului ( Verifica). Excel calculează, de asemenea, unele statistici care sunt noi pentru noi: eroare standard, curtosis și asimetrie. Eroare standard egală cu abaterea standard împărțită la rădăcina pătrată a dimensiunii eșantionului. Asimetrie caracterizează abaterea de la simetria distribuţiei şi este o funcţie care depinde de cubul diferenţelor dintre elementele eşantionului şi de valoarea medie. Kurtosis este o măsură a concentrației relative a datelor în jurul mediei în comparație cu cozile distribuției și depinde de diferențele dintre elementele eșantionului și media ridicată la a patra putere.

Calculați statistici descriptive pentru populatie

Media, răspândirea și forma distribuției discutate mai sus sunt caracteristici determinate din eșantion. Cu toate acestea, dacă setul de date conține măsurători numerice ale întregii populații, parametrii acesteia pot fi calculați. Astfel de parametri includ valoarea așteptată, dispersia și abaterea standard a populației.

Valorea estimata egal cu suma tuturor valorilor din populație împărțită la dimensiunea populației:

Unde µ - valorea estimata, Xi- i a-a observație a unei variabile X, N- volumul populaţiei generale. În Excel pentru calcul așteptări matematice Este folosită aceeași funcție ca și pentru media aritmetică: =AVERAGE().

Varianta populatiei egală cu suma pătratelor diferenţelor dintre elementele populaţiei generale şi mat. așteptări împărțite la dimensiunea populației:

Unde σ 2– dispersarea populaţiei generale. În Excel înainte de versiunea 2007, funcția =VARP() este utilizată pentru a calcula varianța unei populații, începând cu versiunea 2010 =VARP().

Abaterea standard a populației egal cu rădăcina pătrată a varianței populației:

În Excel înainte de versiunea 2007, funcția =STDEV() este utilizată pentru a calcula abaterea standard a unei populații, începând cu versiunea 2010 =STDEV.Y(). Rețineți că formulele pentru varianța populației și abaterea standard sunt diferite de formulele pentru calcularea varianței eșantionului și a abaterii standard. La calcularea statisticilor eșantionului S 2Și S numitorul fracției este n – 1, și la calcularea parametrilor σ 2Și σ - volumul populaţiei generale N.

Regula generală

În majoritatea situațiilor, o mare parte a observațiilor sunt concentrate în jurul mediei, formând un cluster. În seturile de date cu asimetrie pozitivă, acest cluster este situat la stânga (adică, dedesubt) așteptării matematice, iar în seturile cu asimetrie negativă, acest cluster este situat la dreapta (adică, deasupra) așteptării matematice. Pentru datele simetrice, media și mediana sunt aceleași, iar observațiile se grupează în jurul mediei, formând o distribuție în formă de clopot. Dacă distribuția nu este în mod clar denaturată și datele sunt concentrate în jurul unui centru de greutate, o regulă generală care poate fi utilizată pentru a estima variabilitatea este că, dacă datele au o distribuție în formă de clopot, atunci aproximativ 68% dintre observații sunt în o abatere standard a valorii așteptate.aproximativ 95% dintre observații sunt la cel mult două abateri standard de așteptările matematice și 99,7% dintre observații sunt la cel mult trei abateri standard de așteptările matematice.

Astfel, abaterea standard, care este o estimare a variației medii în jurul valorii așteptate, ajută la înțelegerea modului în care sunt distribuite observațiile și la identificarea valorii aberante. Regula generală este că, pentru distribuțiile în formă de clopot, doar o valoare din douăzeci diferă de așteptarea matematică cu mai mult de două abateri standard. Prin urmare, valori în afara intervalului µ ± 2σ, pot fi considerate valori aberante. În plus, doar trei din 1000 de observații diferă de așteptările matematice cu mai mult de trei abateri standard. Astfel, valorile în afara intervalului µ ± 3σ sunt aproape întotdeauna valori aberante. Pentru distribuțiile care sunt foarte denaturate sau nu au formă de clopot, se poate aplica regula generală Bienamay-Chebyshev.

În urmă cu peste o sută de ani, matematicienii Bienamay și Chebyshev au descoperit în mod independent proprietatea utilă a deviației standard. Ei au descoperit că pentru orice set de date, indiferent de forma distribuției, procentul de observații care se află la o distanță de k abateri standard de la așteptările matematice, nu mai puțin (1 – 1/ k 2)*100%.

De exemplu, dacă k= 2, regula Bienname-Chebyshev prevede că cel puțin (1 – (1/2) 2) x 100% = 75% din observații trebuie să se afle în interval µ ± 2σ. Această regulă este valabilă pentru orice k, depășind unu. Regula Bienamay-Chebyshev este foarte generală și valabilă pentru distribuțiile de orice tip. Specifică numărul minim de observații, distanța de la care până la așteptarea matematică nu depășește o valoare specificată. Cu toate acestea, dacă distribuția este în formă de clopot, regula generală estimează mai precis concentrația datelor în jurul valorii așteptate.

Calcularea statisticilor descriptive pentru o distribuție bazată pe frecvență

Dacă datele originale nu sunt disponibile, distribuția frecvenței devine singura sursă de informații. În astfel de situații, este posibil să se calculeze valori aproximative ale indicatorilor cantitativi ai distribuției, cum ar fi media aritmetică, abaterea standard și quartilele.

Dacă datele eșantionului sunt reprezentate ca o distribuție de frecvență, o aproximare a mediei aritmetice poate fi calculată presupunând că toate valorile din fiecare clasă sunt concentrate la mijlocul clasei:

Unde - media eșantionului, n- numărul de observații sau dimensiunea eșantionului, Cu- numărul de clase în distribuția de frecvență, m j- punct de mijloc j clasa a-a, fj- frecventa corespunzatoare j- clasa a-a.

Pentru a calcula abaterea standard de la o distribuție de frecvență, se presupune, de asemenea, că toate valorile din cadrul fiecărei clase sunt concentrate la mijlocul clasei.

Pentru a înțelege cum se determină quartilele unei serii pe baza frecvențelor, luați în considerare calculul quartilei inferioare pe baza datelor pentru anul 2013 privind distribuția populației ruse în funcție de venitul monetar mediu pe cap de locuitor (Fig. 12).

Orez. 12. Ponderea populației ruse cu venit mediu pe cap de locuitor pe lună, ruble

Pentru a calcula primul quartil al unei serii de variații de interval, puteți folosi formula:

unde Q1 este valoarea primului cuartil, xQ1 este limita inferioară a intervalului care conține primul cuartil (intervalul este determinat de frecvența acumulată care depășește mai întâi 25%); i – valoarea intervalului; Σf – suma frecvențelor întregului eșantion; probabil întotdeauna egal cu 100%; SQ1–1 – frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară; fQ1 – frecvența intervalului care conține quartila inferioară. Formula pentru a treia cuartilă diferă prin aceea că, în toate locurile, trebuie să utilizați Q3 în loc de Q1 și să înlocuiți ¾ în loc de ¼.

În exemplul nostru (Fig. 12), quartila inferioară se află în intervalul 7000,1 – 10.000, a cărei frecvență acumulată este de 26,4%. Limita inferioară a acestui interval este de 7000 de ruble, valoarea intervalului este de 3000 de ruble, frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară este de 13,4%, frecvența intervalului care conține quartila inferioară este de 13,0%. Astfel: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 rub.

Capcane asociate cu statisticile descriptive

În această postare, am analizat cum să descriem un set de date folosind diverse statistici care evaluează media, răspândirea și distribuția acestuia. Următorul pas este analiza și interpretarea datelor. Până acum, am studiat proprietățile obiective ale datelor, iar acum trecem la interpretarea subiectivă a acestora. Cercetătorul se confruntă cu două greșeli: un subiect de analiză ales incorect și o interpretare incorectă a rezultatelor.

Analiza randamentelor a 15 fonduri mutuale cu risc foarte ridicat este destul de imparțială. El a condus la concluzii complet obiective: toate fondurile mutuale au randamente diferite, spread-ul randamentelor fondurilor variază de la -6,1 la 18,5, iar randamentul mediu este de 6,08. Obiectivitatea analizei datelor este asigurată de alegerea corectă a indicatorilor cantitativi sumari de distribuție. Au fost luate în considerare mai multe metode de estimare a mediei și dispersării datelor și au fost indicate avantajele și dezavantajele acestora. Cum alegi statisticile potrivite pentru a oferi o analiză obiectivă și imparțială? Dacă distribuția datelor este ușor denaturată, ar trebui să alegeți mediana mai degrabă decât media? Care indicator caracterizează mai exact răspândirea datelor: abaterea standard sau intervalul? Ar trebui să subliniem că distribuția este denaturată pozitiv?

Pe de altă parte, interpretarea datelor este un proces subiectiv. Oameni diferiți ajunge la concluzii diferite atunci când interpretăm aceleași rezultate. Fiecare are punctul lui de vedere. Cineva consideră că randamentele totale medii anuale a 15 fonduri cu un nivel de risc foarte ridicat sunt bune și este destul de mulțumit de veniturile primite. Alții pot considera că aceste fonduri au randamente prea mici. Astfel, subiectivitatea ar trebui compensată de onestitate, neutralitate și claritatea concluziilor.

Probleme etice

Analiza datelor este indisolubil legată de problemele etice. Ar trebui să criticați informațiile difuzate de ziare, radio, televiziune și internet. De-a lungul timpului, vei învăța să fii sceptic nu numai cu privire la rezultate, ci și cu privire la obiectivele, subiectul și obiectivitatea cercetării. Celebrul politician britanic Benjamin Disraeli a spus-o cel mai bine: „Există trei feluri de minciuni: minciuni, minciuni blestemate și statistici”.

După cum se menționează în notă, la alegerea rezultatelor care ar trebui prezentate în raport apar probleme etice. Ar trebui să publicați atât pozitiv, cât și rezultate negative. În plus, la realizarea unui raport sau raport scris, rezultatele trebuie prezentate onest, neutru și obiectiv. Trebuie făcută o distincție între prezentările nereușite și cele necinstite. Pentru a face acest lucru, este necesar să se determine care au fost intențiile vorbitorului. Uneori, vorbitorul omite informații importante din ignoranță, iar uneori este deliberat (de exemplu, dacă folosește media aritmetică pentru a estima media datelor clar denaturate pentru a obține rezultatul dorit). De asemenea, este necinstit să suprimi rezultate care nu corespund punctului de vedere al cercetătorului.

Sunt folosite materiale din cartea Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 178–209

Funcția QUARTILE a fost păstrată pentru compatibilitate cu versiunile anterioare de Excel.