Ce formulă este folosită pentru a calcula abaterea standard? Abaterea standard, metoda de calcul, aplicarea. Deviația standard a eșantionului

Cea mai perfectă caracteristică a variației este deviația pătrată medie, care se numește standard (sau abatere standard). Abaterea standard() este egal cu rădăcina pătrată a abaterii pătrate medii a valorilor individuale ale atributului de la media aritmetică:

Abaterea standard este simplă:

Abaterea standard ponderată se aplică datelor grupate:

Următorul raport are loc între pătratul mediu și abaterile liniare medii în condiții normale de distribuție: ~ 1,25.

Abaterea standard, fiind principala măsură absolută a variației, este utilizată la determinarea valorilor ordonate ale unei curbe de distribuție normală, în calculele legate de organizarea observării eșantionului și stabilirea acurateței caracteristicilor eșantionului, precum și la evaluarea limitele de variație ale unei caracteristici într-o populație omogenă.

Dispersia, tipurile sale, abaterea standard.

Varianta unei variabile aleatoare— o măsură a răspândirii unei variabile aleatoare date, adică abaterea acesteia de la așteptările matematice. În statistică, notația sau este adesea folosită. Rădăcina pătrată a varianței se numește abatere standard, abatere standard sau spread standard.

Varianta totala (σ 2) măsoară variația unei trăsături în întregime sub influența tuturor factorilor care au determinat această variație. În același timp, datorită metodei de grupare, este posibilă identificarea și măsurarea variației datorate caracteristicii de grupare și a variației apărute sub influența factorilor necontabilizați.

Varianta intergrup (σ 2 m.gr) caracterizează variația sistematică, adică diferențele de valoare a caracteristicii studiate care apar sub influența caracteristicii - factorul care formează baza grupului.

Abaterea standard(sinonime: abatere standard, abatere standard, abatere pătrată; termeni înrudiți: abatere standard, spread standard) - în teoria probabilității și statistică, cel mai comun indicator al dispersării valorilor unei variabile aleatoare în raport cu așteptarea sa matematică. Cu rețele limitate de valori ale eșantionului, se folosește media aritmetică a setului de eșantioane în locul așteptărilor matematice.

Abaterea standard se măsoară în unități de măsură ale variabilei aleatoare în sine și este utilizată la calcularea erorii standard a mediei aritmetice, la construirea intervalelor de încredere, la testarea statistică a ipotezelor, la măsurarea relației liniare dintre variabilele aleatoare. Definit ca rădăcina pătrată a varianței unei variabile aleatoare.


Abatere standard:

Abaterea standard(estimarea abaterii standard a unei variabile aleatoare x raportat la așteptările sale matematice bazate pe o estimare imparțială a varianței sale):

unde este dispersia; — i al-lea element al selecției; — dimensiunea eșantionului; — media aritmetică a eșantionului:

Trebuie remarcat faptul că ambele estimări sunt părtinitoare. În cazul general, este imposibil să se construiască o estimare imparțială. Cu toate acestea, estimarea bazată pe estimarea variației nepărtinitoare este consecventă.

Esența, domeniul de aplicare și procedura pentru determinarea modului și a mediei.

Pe lângă mediile de putere în statistică, pentru caracterizarea relativă a valorii unei caracteristici variabile și a structurii interne a seriilor de distribuție, se folosesc medii structurale, care sunt reprezentate în principal de moda si mediana.

Modă- Aceasta este cea mai comună variantă a seriei. Moda este folosită, de exemplu, pentru a determina mărimea hainelor și pantofilor care sunt cele mai solicitate în rândul cumpărătorilor. Modul pentru o serie discretă este cel cu cea mai mare frecvență. Când calculați modul pentru o serie de variații de interval, trebuie mai întâi să determinați intervalul modal (pe baza frecvenței maxime), apoi valoarea valorii modale a atributului folosind formula:

- - valoarea modei

- — limita inferioară a intervalului modal

- — dimensiunea intervalului

- — frecvența intervalului modal

- — frecvența intervalului premergător modalului

- — frecvența intervalului după modal

Mediana - aceasta este valoarea atributului care stă la baza seriei clasate și împarte această serie în două părți egale.

Pentru a determina mediana într-o serie discretă în prezența frecvențelor, calculați mai întâi jumătatea sumei frecvențelor și apoi determinați ce valoare a variantei cade pe ea. (Dacă seria sortată conține un număr impar de caracteristici, atunci numărul median este calculat folosind formula:

M e = (n (număr de caracteristici în total) + 1)/2,

în cazul unui număr par de caracteristici, mediana va fi egală cu media celor două caracteristici din mijlocul rândului).

La calcul mediane pentru o serie de variații de interval, mai întâi determinați intervalul median în care se află mediana și apoi determinați valoarea medianei folosind formula:

- — mediana necesară

- - limita inferioară a intervalului care conține mediana

- — dimensiunea intervalului

- — suma frecvențelor sau numărul de termeni de serie

Suma frecvențelor acumulate ale intervalelor care preced mediana

- — frecvența intervalului median

Exemplu. Găsiți modul și mediana.

Soluţie:
În acest exemplu, intervalul modal este în cadrul grupului de vârstă 25-30 de ani, deoarece acest interval are cea mai mare frecvență (1054).

Să calculăm mărimea modului:

Aceasta înseamnă că vârsta modală a studenților este de 27 de ani.

Să calculăm mediana. Intervalul median este în grupa de vârstă 25-30 de ani, întrucât în ​​acest interval există o opțiune care împarte populația în două părți egale (Σf i /2 = 3462/2 = 1731). Apoi, înlocuim datele numerice necesare în formulă și obținem valoarea mediei:

Aceasta înseamnă că jumătate dintre studenți au sub 27,4 ani, iar cealaltă jumătate au peste 27,4 ani.

În plus față de mod și mediană, pot fi utilizați indicatori precum quartilele, împărțind seria clasată în 4 părți egale, decile- 10 părți și percentile - la 100 părți.

Conceptul de observație selectivă și domeniul său de aplicare.

Observație selectivă se aplică atunci când se utilizează supravegherea continuă imposibil fizic datorită cantităţii mari de date sau nu este fezabil din punct de vedere economic. Imposibilitatea fizică apare, de exemplu, atunci când se studiază fluxurile de pasageri, prețurile pieței și bugetele familiei. Inutilitatea economică apare atunci când se evaluează calitatea mărfurilor asociate cu distrugerea lor, de exemplu, degustarea, testarea cărămizilor pentru rezistență etc.

Unitățile statistice selectate pentru observare constituie cadrul sau eșantionul de eșantionare, iar întreaga lor matrice constituie populația generală (GS). În acest caz, numărul de unități din eșantion este notat cu n, și în întregul HS - N. Atitudine n/N numită mărimea sau proporția relativă a eșantionului.

Calitatea rezultatelor observării eșantionului depinde de reprezentativitatea eșantionului, adică de cât de reprezentativ este acesta în GS. Pentru a asigura reprezentativitatea probei, este necesar să se respecte principiul selecției aleatorii a unităților, care presupune că includerea unei unități HS în eșantion nu poate fi influențată de niciun alt factor decât hazardul.

Există 4 moduri de selecție aleatorie a eșantiona:

  1. De fapt aleatoriu selecția sau „metoda loto”, când cantităților statistice li se atribuie numere de serie, înregistrate pe anumite obiecte (de exemplu, butoaie), care sunt apoi amestecate într-un recipient (de exemplu, într-o pungă) și selectate la întâmplare. În practică, această metodă este realizată folosind un generator de numere aleatoare sau tabele matematice de numere aleatoare.
  2. Mecanic selecție în funcție de care fiecare ( N/n)-a valoare a populației generale. De exemplu, dacă conține 100.000 de valori și trebuie să selectați 1.000, atunci fiecare 100.000 / 1000 = a 100-a valoare va fi inclusă în eșantion. Mai mult, dacă nu sunt clasați, atunci primul este selectat la întâmplare din prima sută, iar numărul celorlalți va fi cu o sută mai mare. De exemplu, dacă prima unitate a fost nr. 19, atunci următoarea ar trebui să fie nr. 119, apoi nr. 219, apoi nr. 319 etc. Dacă unitățile de populație sunt clasate, atunci este selectat primul nr. 50, apoi nr. 150, apoi nr. 250 și așa mai departe.
  3. Se efectuează selecția valorilor dintr-o matrice de date eterogenă stratificat metoda (stratificată), atunci când populația este mai întâi împărțită în grupuri omogene cărora li se aplică selecția aleatorie sau mecanică.
  4. O metodă specială de eșantionare este serial selecție, în care selectează aleatoriu sau mecanic nu valori individuale, ci seriile lor (secvențe de la un număr la un număr pe rând), în cadrul cărora se efectuează observarea continuă.

Calitatea observațiilor eșantionului depinde și de tipul de probă: repetate sau irepetabil.

La re-selectare Valorile statistice sau seriile acestora incluse în eșantion sunt returnate populației generale după utilizare, având șansa de a fi incluse într-un eșantion nou. Mai mult, toate valorile din populație au aceeași probabilitate de includere în eșantion.

Selecție nerepetatăînseamnă că valorile statistice sau seriile lor incluse în eșantion nu revin la populația generală după utilizare și, prin urmare, pentru valorile rămase ale acesteia din urmă probabilitatea de a fi incluse în următorul eșantion crește.

Eșantionarea nerepetitivă oferă rezultate mai precise, deci este folosită mai des. Există însă situații în care nu se poate aplica (studiul fluxurilor de pasageri, a cererii consumatorilor etc.) și apoi se efectuează o selecție repetată.

Eroarea maximă de eșantionare a observației, eroarea medie de eșantionare, procedura de calcul a acestora.

Să luăm în considerare în detaliu metodele de formare a unei populații eșantion enumerate mai sus și erorile care apar atunci când facem acest lucru. reprezentativitate .
În mod corespunzător aleatoriu eșantionarea se bazează pe selectarea aleatorie a unităților din populație, fără elemente sistematice. Din punct de vedere tehnic, selecția reală aleatorie se realizează prin tragere la sorți (de exemplu, loterie) sau folosind un tabel de numere aleatorii.

Selecția aleatorie adecvată „în forma sa pură” este rar folosită în practica observației selective, dar este originalul printre alte tipuri de selecție, implementează principiile de bază ale observației selective. Să luăm în considerare câteva întrebări din teoria metodei de eșantionare și formula de eroare pentru un eșantion aleator simplu.

Prejudecata de eșantionare este diferența dintre valoarea parametrului în populația generală și valoarea acestuia calculată din rezultatele observării eșantionului. Pentru o caracteristică cantitativă medie, eroarea de eșantionare este determinată de

Indicatorul se numește eroare marginală de eșantionare.
Media eșantionului este o variabilă aleatorie care poate lua valori diferite în funcție de unitățile incluse în eșantion. Prin urmare, erorile de eșantionare sunt, de asemenea, variabile aleatoare și pot lua valori diferite. Prin urmare, se determină media erorilor posibile - eroare medie de eșantionare, care depinde de:

Dimensiunea eșantionului: cu cât numărul este mai mare, cu atât eroarea medie este mai mică;

Gradul de modificare a caracteristicii studiate: cu cât variația caracteristicii este mai mică și, în consecință, dispersia, cu atât eroarea medie de eșantionare este mai mică.

La reselectare aleatorie eroarea medie se calculează:
.
În practică, varianța generală nu este cunoscută cu precizie, dar în teoria probabilității s-a dovedit că
.
Deoarece valoarea pentru n suficient de mare este aproape de 1, putem presupune că . Apoi se poate calcula eroarea medie de eșantionare:
.
Dar în cazul unui eșantion mic (cu n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

La eșantionare aleatorie nerepetitivă formulele date sunt ajustate cu valoarea . Atunci eroarea medie de eșantionare nerepetitivă este:
Și .
Deoarece este întotdeauna mai mic, atunci multiplicatorul () este întotdeauna mai mic decât 1. Aceasta înseamnă că eroarea medie în timpul selecției nerepetitive este întotdeauna mai mică decât în ​​timpul selecției repetate.
Prelevare mecanică de probe este utilizat atunci când populația generală este ordonată într-un fel (de exemplu, listele alegătorilor alfabetice, numerele de telefon, numerele casei, numerele apartamentelor). Selectarea unităților se efectuează la un anumit interval, care este egal cu inversul procentului de eșantionare. Deci, cu un eșantion de 2%, se selectează fiecare 50 de unități = 1/0,02, cu un eșantion de 5%, fiecare 1/0,05 = 20 de unități din populația generală.

Punctul de referință este selectat în diferite moduri: aleatoriu, de la mijlocul intervalului, cu modificarea punctului de referință. Principalul lucru este de a evita erorile sistematice. De exemplu, cu un eșantion de 5%, dacă prima unitate este a 13-a, atunci următoarele sunt 33, 53, 73 etc.

În ceea ce privește acuratețea, selecția mecanică este aproape de eșantionarea aleatorie reală. Prin urmare, pentru a determina eroarea medie a eșantionării mecanice, se folosesc formule adecvate de selecție aleatorie.

La selecție tipică populația chestionată este împărțită preliminar în grupuri omogene, similare. De exemplu, atunci când se studiază întreprinderi, acestea pot fi industrii, subsectoare, atunci când se studiază populația, acestea pot fi regiuni, grupuri sociale sau de vârstă; Apoi, o selecție independentă din fiecare grup se face mecanic sau pur aleatoriu.

Eșantionarea tipică produce rezultate mai precise decât alte metode. Tipizarea populației generale asigură că fiecare grup tipologic este reprezentat în eșantion, ceea ce face posibilă eliminarea influenței varianței intergrupurilor asupra erorii medii de eșantionare. În consecință, atunci când se află eroarea unui eșantion tipic conform regulii de adunare a variațiilor (), este necesar să se țină cont doar de media variațiilor de grup. Atunci eroarea medie de eșantionare este:
la reselectare
,
cu selecție nerepetitivă
,
unde este media variațiilor în interiorul grupului din eșantion.

Serial (sau cuib) selecție utilizat atunci când populația este împărțită în serii sau grupuri înainte de începerea anchetei prin sondaj. Aceste serii pot fi ambalaje de produse finite, grupuri de studenți, echipe. Serii pentru examinare sunt selectate mecanic sau pur aleatoriu, iar în cadrul seriei se efectuează o examinare continuă a unităților. Prin urmare, eroarea medie de eșantionare depinde numai de varianța intergrupurilor (interseriale), care este calculată folosind formula:

unde r este numărul de serii selectate;
- media seriei i-a.

Se calculează eroarea medie de eșantionare în serie:

la reselectare:
,
cu selecție nerepetitivă:
,
unde R este numărul total de episoade.

Combinate selecţie este o combinație a metodelor de selecție luate în considerare.

Eroarea medie de eșantionare pentru orice metodă de eșantionare depinde în principal de mărimea absolută a eșantionului și, într-o măsură mai mică, de procentul eșantionului. Să presupunem că se fac 225 de observații în primul caz de la o populație de 4.500 de unități și în al doilea de la o populație de 225.000 de unități. Varianțele în ambele cazuri sunt egale cu 25. Apoi, în primul caz, cu o selecție de 5%, eroarea de eșantionare va fi:

În al doilea caz, cu o selecție de 0,1%, va fi egal cu:

Astfel, cu o scădere a procentului de eșantionare de 50 de ori, eroarea de eșantionare a crescut ușor, deoarece dimensiunea eșantionului nu s-a modificat.
Să presupunem că dimensiunea eșantionului este mărită la 625 de observații. În acest caz, eroarea de eșantionare este:

Mărirea eșantionului de 2,8 ori cu aceeași dimensiune a populației reduce dimensiunea erorii de eșantionare de mai mult de 1,6 ori.

Metode și metode pentru formarea unei populații eșantion.

În statistică, se folosesc diverse metode de formare a populațiilor de eșantion, care este determinată de obiectivele studiului și depinde de specificul obiectului de studiu.

Condiția principală pentru efectuarea unei anchete prin sondaj este prevenirea apariției erorilor sistematice care decurg din încălcarea principiului egalității de șanse pentru fiecare unitate a populației generale care urmează să fie inclusă în eșantion. Prevenirea erorilor sistematice se realizează prin utilizarea metodelor bazate științific pentru formarea unei populații eșantion.

Există următoarele metode de selectare a unităților din populație:

1) selecție individuală - sunt selectate unități individuale pentru eșantion;

2) selecția grupului - eșantionul include grupuri sau serii de unități în studiu calitativ omogene;

3) selecția combinată este o combinație de selecție individuală și de grup.
Metodele de selecție sunt determinate de regulile de formare a unei populații eșantion.

Eșantionul ar putea fi:

  • de fapt aleatoriu constă în faptul că populaţia eşantion se formează ca urmare a selecţiei aleatorii (neintenţionate) a unităţilor individuale din populaţia generală. În acest caz, numărul de unități selectate în populația eșantionului este de obicei determinat pe baza proporției de eșantion acceptate. Proporția eșantionului este raportul dintre numărul de unități din populația eșantion n și numărul de unități din populația generală N, i.e.
  • mecanic constă în faptul că selecţia unităţilor din populaţia eşantion se face din populaţia generală, împărţită în intervale (grupe) egale. În acest caz, mărimea intervalului din populație este egală cu inversul proporției eșantionului. Deci, cu o probă de 2%, se selectează fiecare a 50-a unitate (1:0,02), cu o probă de 5%, fiecare a 20-a unitate (1:0,05), etc. Astfel, în conformitate cu proporția acceptată de selecție, populația generală este, parcă, împărțită mecanic în grupuri de dimensiuni egale. Din fiecare grup, este selectată o singură unitate pentru eșantion.
  • tipic -în care populaţia generală este mai întâi împărţită în grupuri tipice omogene. Apoi, din fiecare grup tipic, un eșantion pur aleatoriu sau mecanic este utilizat pentru a selecta individual unitățile din populația eșantionului. O caracteristică importantă a unui eșantion tipic este că oferă rezultate mai precise în comparație cu alte metode de selectare a unităților din populația eșantionului;
  • serial- în care populația generală este împărțită în grupuri de dimensiuni egale - serie. Serii sunt selectate în populația eșantionului. În cadrul seriei se efectuează observarea continuă a unităților incluse în serie;
  • combinate- eșantionarea poate fi în două etape. În acest caz, populația este mai întâi împărțită în grupuri. Apoi sunt selectate grupurile, iar în cadrul acestora din urmă sunt selectate unitățile individuale.

În statistică, se disting următoarele metode pentru selectarea unităților dintr-o populație eșantion::

  • o singură etapă eșantionare - fiecare unitate selectată este imediat supusă studiului după un criteriu dat (prelevare aleatorie și în serie corespunzătoare);
  • în mai multe etape eșantionare - se face o selecție din populația generală a grupurilor individuale, iar unitățile individuale sunt selectate din grupuri (eșantionare tipică cu o metodă mecanică de selectare a unităților în populația eșantion).

În plus, există:

  • re-selectare- conform schemei mingii returnate. În acest caz, fiecare unitate sau serie inclusă în eșantion este returnată populației generale și, prin urmare, are șansa de a fi inclusă din nou în eșantion;
  • repeta selectia- conform schemei mingii nereturnate. Are rezultate mai precise cu aceeași dimensiune a eșantionului.

Determinarea dimensiunii eșantionului necesar (folosind un tabel t al lui Student).

Unul dintre principiile științifice în teoria eșantionării este acela de a asigura selectarea unui număr suficient de unități. Teoretic, necesitatea respectării acestui principiu este prezentată în dovezile teoremelor limită în teoria probabilităților, care permit stabilirea ce volum de unități trebuie selectat din populație astfel încât să fie suficient și să asigure reprezentativitatea eșantionului.

O scădere a erorii standard de eșantionare și, prin urmare, o creștere a preciziei estimării, este întotdeauna asociată cu o creștere a dimensiunii eșantionului, prin urmare, deja în etapa de organizare a observării eșantionului, este necesar să se decidă care este dimensiunea populația eșantionului ar trebui să fie pentru a asigura acuratețea necesară a rezultatelor observației. Calculul mărimii eșantionului necesar este construit folosind formule derivate din formulele pentru erorile maxime de eșantionare (A), corespunzătoare unui anumit tip și metodei de selecție. Deci, pentru o dimensiune ale eșantionului repetat aleatoriu (n) avem:

Esența acestei formule este că, cu o selecție repetată aleatorie a numărului necesar, dimensiunea eșantionului este direct proporțională cu pătratul coeficientului de încredere. (t2)și varianța caracteristicii variaționale (?2) și este invers proporțională cu pătratul erorii maxime de eșantionare (?2). În special, cu o creștere a erorii maxime cu un factor de doi, dimensiunea necesară a eșantionului poate fi redusă cu un factor de patru. Dintre cei trei parametri, doi (t și?) sunt stabiliți de cercetător.

Totodată, cercetătorul, pe baza Din scopul și obiectivele anchetei prin sondaj trebuie rezolvată întrebarea: în ce combinație cantitativă este mai bine să includem acești parametri pentru a asigura opțiunea optimă? Într-un caz, el poate fi mai mulțumit de fiabilitatea rezultatelor obținute (t) decât de măsura acurateței (?), în altul - invers. Este mai dificil de rezolvat problema cu privire la valoarea erorii maxime de eșantionare, deoarece cercetătorul nu are acest indicator în etapa de proiectare a unei observații eșantionate, prin urmare, în practică, se obișnuiește să se stabilească valoarea erorii maxime de eșantionare, de obicei în 10% din nivelul mediu așteptat al atributului. Stabilirea mediei estimate poate fi abordată în diferite moduri: folosind date din anchete similare efectuate anterior sau folosind date din cadrul de eșantionare și efectuarea unui eșantion pilot mic.

Cel mai dificil lucru de stabilit atunci când se proiectează o observație eșantion este al treilea parametru din formula (5.2) - dispersia populației eșantionului. În acest caz, este necesar să se utilizeze toate informațiile de care dispune cercetătorul, obținute în sondaje similare și pilot efectuate anterior.

Întrebare despre definiție dimensiunea eșantionului necesară devine mai complicată dacă ancheta prin eșantionare presupune studierea mai multor caracteristici ale unităților de eșantionare. În acest caz, nivelurile medii ale fiecăreia dintre caracteristici și variația lor, de regulă, sunt diferite și, prin urmare, deciderea cărei variații a cărora dintre caracteristici să se acorde preferință este posibilă doar ținând cont de scopul și obiectivele studiu.

Atunci când se proiectează o observație prin eșantion, se presupune o valoare predeterminată a erorii de eșantionare admisibile în conformitate cu obiectivele unui anumit studiu și cu probabilitatea concluziilor pe baza rezultatelor observației.

În general, formula pentru eroarea maximă a mediei eșantionului ne permite să determinăm:

Mărimea posibilelor abateri ale indicatorilor populației generale de la indicatorii populației eșantionului;

Mărimea eșantionului necesară, asigurând acuratețea cerută, la care limitele de eroare posibilă nu vor depăși o anumită valoare specificată;

Probabilitatea ca eroarea dintr-un eșantion să aibă o limită specificată.

Repartizarea elevilorîn teoria probabilității, este o familie cu un singur parametru de distribuții absolut continue.

Serii dinamice (interval, moment), serie dinamică de închidere.

Seria dinamică- acestea sunt valorile indicatorilor statistici care sunt prezentați într-o anumită secvență cronologică.

Fiecare serie temporală conține două componente:

1) indicatori ai perioadelor de timp (ani, trimestre, luni, zile sau date);

2) indicatori care caracterizează obiectul studiat pe perioade de timp sau pe date corespunzătoare, care se numesc niveluri de serie.

Nivelurile seriei sunt exprimate atât valorile absolute, cât și valori medii sau relative. În funcție de natura indicatorilor, se construiesc serii temporale de valori absolute, relative și medii. Serii dinamice din valori relative și medii sunt construite pe baza unor serii derivate de valori absolute. Există intervale și serii de momente de dinamică.

Serii de intervale dinamice conține valori indicatoare pentru anumite perioade de timp. Într-o serie de intervale, nivelurile pot fi însumate pentru a obține volumul fenomenului pe o perioadă mai lungă, sau așa-numitele totaluri acumulate.

Serii de momente dinamice reflectă valorile indicatorilor la un anumit moment în timp (data de timp). În seria de momente, cercetătorul poate fi interesat doar de diferența de fenomene care reflectă schimbarea nivelului seriei între anumite date, deoarece suma nivelurilor de aici nu are un conținut real. Totalurile cumulate nu sunt calculate aici.

Condiția cea mai importantă pentru construirea corectă a seriilor de timp este comparabilitatea nivelurilor seriei aparținând unor perioade diferite. Nivelurile trebuie să fie prezentate în cantități omogene și trebuie să existe o acoperire egală a diferitelor părți ale fenomenului.

Pentru a Pentru a evita denaturarea dinamicii reale, într-un studiu statistic se efectuează calcule preliminare (închiderea seriei de dinamică), care preced analiza statistică a seriei de timp. Închiderea serii dinamice este înțeleasă ca combinarea într-o serie a două sau mai multe serii, ale căror niveluri sunt calculate folosind o metodologie diferită sau nu corespund limitelor teritoriale etc. Închiderea seriei de dinamică poate implica, de asemenea, aducerea nivelurilor absolute ale seriei de dinamică la o bază comună, ceea ce neutralizează incomparabilitatea nivelurilor seriei de dinamică.

Conceptul de comparabilitate a seriilor dinamice, coeficienților, creșterii și ratelor de creștere.

Seria dinamică— este vorba de o serie de indicatori statistici care caracterizează evoluția fenomenelor naturale și sociale în timp. Colecțiile statistice publicate de Comitetul de Stat de Statistică al Rusiei conțin un număr mare de serii dinamice în formă tabelară. Serii dinamice permit identificarea tiparelor de dezvoltare a fenomenelor studiate.

Serii de dinamică conțin două tipuri de indicatori. Indicatori de timp(ani, trimestre, luni etc.) sau momente în timp (la începutul anului, la începutul fiecărei luni etc.). Indicatori de nivel de rând. Indicatorii nivelurilor seriei de dinamică pot fi exprimați în valori absolute (producția de produse în tone sau ruble), valori relative (ponderea populației urbane în %) și valori medii (salariile medii ale lucrătorilor din industrie pe an). , etc.). În formă tabelară, o serie de timp conține două coloane sau două rânduri.

Construirea corectă a seriilor temporale necesită îndeplinirea unui număr de cerințe:

  1. toți indicatorii unei serii de dinamici trebuie să fie bazați științific și fiabili;
  2. indicatorii unei serii de dinamici trebuie sa fie comparabili in timp, i.e. trebuie calculate pentru aceleași perioade de timp sau la aceleași date;
  3. indicatorii unui număr de dinamici ar trebui să fie comparabili pe întreg teritoriul;
  4. indicatorii unei serii de dinamici trebuie sa fie comparabili ca continut, i.e. calculate după o singură metodologie, în același mod;
  5. indicatorii unui număr de dinamici ar trebui să fie comparabili în gama de ferme luate în considerare. Toți indicatorii unei serii de dinamică trebuie dați în aceleași unități de măsură.

Indicatori statistici poate caracteriza fie rezultatele procesului studiat pe o perioadă de timp, fie starea fenomenului studiat la un anumit moment în timp, i.e. indicatorii pot fi interval (periodici) și momentani. În consecință, inițial seria dinamică poate fi fie un interval, fie un moment. Serii de dinamică a momentelor, la rândul lor, pot fi cu intervale de timp egale sau inegale.

Seria inițială de dinamică poate fi transformată într-o serie de valori medii și o serie de valori relative (lanț și de bază). Astfel de serii temporale sunt numite serii temporale derivate.

Metodologia de calcul al nivelului mediu în seria de dinamică este diferită, în funcție de tipul seriei de dinamică. Folosind exemple, vom lua în considerare tipurile de serii dinamice și formule pentru calcularea nivelului mediu.

Creșteri absolute (Δy) arată câte unități s-a modificat nivelul următor al seriei față de cel anterior (gr. 3. - creșteri absolute în lanț) sau față de nivelul inițial (gr. 4. - creșteri absolute de bază). Formulele de calcul pot fi scrise după cum urmează:

Când valorile absolute ale seriei scad, va exista o „scădere” sau, respectiv, o „scădere”.

Indicatorii absoluti de creștere indică faptul că, de exemplu, în 1998, producția produsului „A” a crescut cu 4 mii tone față de 1997 și cu 34 mii tone față de 1994; pentru alti ani, vezi tabel. 11,5 gr. 3 și 4.

Rata de creștere arată de câte ori s-a modificat nivelul seriei față de cel precedent (gr. 5 - coeficienți de creștere sau declin în lanț) sau față de nivelul inițial (gr. 6 - coeficienți de bază de creștere sau declin). Formulele de calcul pot fi scrise după cum urmează:

Rata de creștere arata in ce procent este urmatorul nivel al seriei fata de cel anterior (gr. 7 - rate de crestere in lant) sau fata de nivelul initial (gr. 8 - rate de crestere de baza). Formulele de calcul pot fi scrise după cum urmează:

Deci, de exemplu, în 1997, volumul producției produsului „A” față de 1996 a fost de 105,5% (

Rata de creștere arata cu ce procent a crescut nivelul perioadei de raportare fata de cel precedent (coloana 9 - rate de crestere in lantul) sau fata de nivelul initial (coloana 10 - rate de crestere de baza). Formulele de calcul pot fi scrise după cum urmează:

T pr = T r - 100% sau T pr = creștere absolută / nivelul perioadei precedente * 100%

Deci, de exemplu, în 1996, comparativ cu 1995, produsul „A” a fost produs cu 3,8% (103,8% - 100%) sau (8:210)x100% mai mult, iar față de 1994 - cu 9% (109% - 100%).

Dacă nivelurile absolute din serie scad, atunci rata va fi mai mică de 100% și, în consecință, va exista o rată de scădere (rata de creștere cu semnul minus).

Valoarea absolută a creșterii cu 1%.(coloana 11) arată câte unități trebuie produse într-o anumită perioadă, astfel încât nivelul perioadei precedente să crească cu 1%. În exemplul nostru, în 1995 a fost necesar să se producă 2,0 mii tone, iar în 1998 - 2,3 mii tone, i.e. mult mai mult.

Valoarea absolută a creșterii de 1% poate fi determinată în două moduri:

Nivelul perioadei precedente este împărțit la 100;

Creșterile absolute ale lanțului sunt împărțite la ratele corespunzătoare de creștere a lanțului.

Valoarea absolută a creșterii cu 1% =

În dinamică, mai ales pe o perioadă lungă, este importantă o analiză comună a ratei de creștere cu conținutul fiecărei creșteri sau scăderi procentuale.

Rețineți că metodologia avută în vedere pentru analiza seriilor de timp este aplicabilă atât pentru seriile de timp, ale căror niveluri sunt exprimate în valori absolute (t, mii de ruble, număr de angajați etc.), cât și pentru seriile de timp, ale căror niveluri sunt exprimate în indicatori relativi (% de defecte, % conținut de cenușă de cărbune etc.) sau valori medii (randament mediu în c/ha, salariu mediu etc.).

Alături de indicatorii analitici considerați, calculați pentru fiecare an în comparație cu nivelul anterior sau inițial, la analiza serii de dinamică, este necesar să se calculeze indicatorii analitici medii pentru perioada: nivelul mediu al seriei, creșterea medie anuală absolută. (scădere) și rata medie anuală de creștere și rata de creștere.

Metodele de calcul al nivelului mediu al unei serii de dinamici au fost discutate mai sus. În seria de dinamică a intervalului pe care o luăm în considerare, nivelul mediu al seriei este calculat folosind formula medie aritmetică simplă:

Volumul mediu anual de producție al produsului pentru 1994-1998. a însumat 218,4 mii tone.

Creșterea medie anuală absolută este de asemenea calculată folosind formula medie aritmetică simplă:

Creșterile absolute anuale au variat de-a lungul anilor de la 4 la 12 mii de tone (vezi coloana 3), iar creșterea medie anuală a producției pentru perioada 1995 - 1998. s-a ridicat la 8,5 mii tone.

Metodele de calculare a ratei medii de creștere și a ratei medii de creștere necesită o analiză mai detaliată. Să le luăm în considerare utilizând exemplul indicatorilor anuali la nivel de serie din tabel.

Nivelul mediu al seriei de dinamică.

Serii dinamice (sau serii temporale)- acestea sunt valorile numerice ale unui anumit indicator statistic în momente sau perioade succesive de timp (adică, aranjate în ordine cronologică).

Se numesc valorile numerice ale unuia sau altui indicator statistic care alcătuiesc seria dinamicii niveluri de serieși este de obicei notat prin literă y. Primul termen al seriei y 1 numit initial sau nivel de bază, iar ultimul y n - final. Momentele sau perioadele de timp la care se referă nivelurile sunt desemnate de t.

Serii dinamice sunt de obicei prezentate sub forma unui tabel sau grafic, iar o scară de timp este construită de-a lungul axei absciselor t, iar de-a lungul axei ordonatelor - scara nivelurilor seriei y.

Indicatori medii ai seriei de dinamică

Fiecare serie de dinamică poate fi considerată ca un anumit set n indicatori variabili în timp care pot fi rezumați ca medii. Astfel de indicatori generalizați (medii) sunt necesari în special atunci când se compară modificările unui anumit indicator pe perioade diferite, în diferite țări etc.

O caracteristică generalizată a seriei de dinamică poate servi, în primul rând, nivelul rândului din mijloc. Metoda de calcul a nivelului mediu depinde dacă seria este momentană sau interval (periodic).

În cazul în care interval al unei serii, nivelul mediu al acesteia este determinat de formula unei medii aritmetice simple a nivelurilor seriei, i.e.

=
Dacă este disponibil moment rând care conține n niveluri ( y1, y2, …, yn) cu intervale egale între date (ori), atunci o astfel de serie poate fi ușor convertită într-o serie de valori medii. În acest caz, indicatorul (nivelul) de la începutul fiecărei perioade este simultan indicatorul de la sfârșitul perioadei precedente. Apoi valoarea medie a indicatorului pentru fiecare perioadă (intervalul dintre date) poate fi calculată ca jumătate din suma valorilor la la începutul și sfârșitul perioadei, adică Cum . Numărul de astfel de medii va fi . După cum sa menționat mai devreme, pentru serii de valori medii, nivelul mediu este calculat folosind media aritmetică.

Prin urmare, putem scrie:
.
După transformarea numărătorului obținem:
,

Unde Y1Şi Yn— primul și ultimul nivel al rândului; Yi— niveluri intermediare.

Această medie este cunoscută în statistici ca cronologic mediu pentru seria de momente. Și-a primit numele de la cuvântul „cronos” (timp, latină), deoarece este calculat din indicatori care se modifică în timp.

În caz de inegalitate intervale dintre date, media cronologică pentru o serie de momente poate fi calculată ca medie aritmetică a valorilor medii ale nivelurilor pentru fiecare pereche de momente, ponderată cu distanțele (intervalele de timp) dintre date, i.e.
.
În acest caz se presupune că în intervalele dintre date nivelurile au luat valori diferite, iar noi suntem unul dintre cei doi cunoscuți ( yiŞi yi+1) determinăm mediile, din care apoi calculăm media generală pentru întreaga perioadă analizată.
Dacă se presupune că fiecare valoare yi rămâne neschimbată până la următoarea (i+ 1)- al-lea moment, adică Dacă se cunoaște data exactă a modificării nivelurilor, atunci calculul poate fi efectuat folosind formula medie aritmetică ponderată:
,

unde este timpul în care nivelul a rămas neschimbat.

Pe lângă nivelul mediu din seria dinamică, se calculează și alți indicatori medii - modificarea medie a nivelurilor seriei (metode de bază și în lanț), rata medie de schimbare.

Linia de bază înseamnă schimbare absolută este coeficientul ultimei modificări absolute subiacente împărțit la numărul de modificări. Adică

Lanț înseamnă schimbare absolută nivelurile seriei este coeficientul de împărțire a sumei tuturor modificărilor absolute ale lanțului la numărul de modificări, adică

Semnul schimbărilor medii absolute este, de asemenea, utilizat pentru a judeca natura schimbării unui fenomen în medie: creștere, declin sau stabilitate.

Din regula pentru controlul modificărilor absolute de bază și în lanț rezultă că modificările de bază și medii în lanț trebuie să fie egale.

Alături de modificarea medie absolută, media relativă se calculează și folosind metodele de bază și în lanț.

Schimbarea relativă medie de referință determinat de formula:

Modificare relativă medie a lanțului determinat de formula:

În mod firesc, modificările relative medii de bază și în lanț trebuie să fie aceleași, iar comparându-le cu valoarea de criteriu 1 se trage o concluzie despre natura schimbării fenomenului în medie: creștere, declin sau stabilitate.
Scăzând 1 din variația relativă medie a bazei sau a lanțului, corespunzătoare rata medie de schimbare, după semnul căruia se poate judeca și natura schimbării fenomenului studiat, reflectată de această serie de dinamici.

Fluctuații sezoniere și indici de sezonalitate.

Fluctuațiile sezoniere sunt fluctuații intraanuale stabile.

Principiul de bază al managementului pentru obținerea unui efect maxim este maximizarea veniturilor și minimizarea costurilor. Prin studierea fluctuațiilor sezoniere se rezolvă problema ecuației maxime la fiecare nivel al anului.

Când se studiază fluctuațiile sezoniere, sunt rezolvate două probleme interdependente:

1. Identificarea specificului dezvoltării fenomenului în dinamică intraanuală;

2. Măsurarea fluctuațiilor sezoniere prin construirea unui model de val sezonier;

Pentru a măsura variația sezonieră, curcanii sezonieri sunt de obicei numărați. În general, ele sunt determinate de raportul dintre ecuațiile originale ale seriei de dinamică și ecuațiile teoretice, care acționează ca bază pentru comparație.

Deoarece abaterile aleatoare sunt suprapuse fluctuațiilor sezoniere, se face media indicilor de sezonalitate pentru a le elimina.

În acest caz, pentru fiecare perioadă a ciclului anual, se determină indicatorii generalizați sub forma unor indici medii sezonieri:

Indicii medii de fluctuație sezonieră sunt liberi de influența abaterilor aleatorii ale tendinței principale de dezvoltare.

În funcție de natura tendinței, formula pentru indicele de sezonalitate medie poate lua următoarele forme:

1.Pentru serii de dinamici intra-anuale cu o tendință principală de dezvoltare clar exprimată:

2. Pentru serii de dinamice intra-anuale în care nu există o tendință de creștere sau descreștere sau este nesemnificativă:

Unde este media generală;

Metode de analiză a tendinței principale.

Dezvoltarea fenomenelor în timp este influențată de factori de natură și forță de influență diferite. Unele dintre ele sunt aleatorii în natură, altele au un impact aproape constant și formează o anumită tendință de dezvoltare a dinamicii.

O sarcină importantă a statisticii este identificarea dinamicii tendințelor în serie, eliberate de influența diferiților factori aleatori. În acest scop, seriile de timp sunt prelucrate prin metodele de mărire a intervalelor, medie mobilă și nivelare analitică etc.

Metoda de mărire a intervalului se bazează pe lărgirea unor perioade de timp, care includ nivelurile unei serii de dinamici, i.e. este înlocuirea datelor referitoare la perioade de timp mici cu date pentru perioade mai mari. Este mai ales eficient atunci când nivelurile inițiale ale seriei se referă la perioade scurte de timp. De exemplu, serii de indicatori aferenti evenimentelor zilnice sunt inlocuite cu serii legate de saptamanal, lunar etc. Acest lucru se va arăta mai clar „axa de dezvoltare a fenomenului”. Media, calculată pe intervale mărite, ne permite să identificăm direcția și natura (accelerarea sau încetinirea creșterii) tendinței principale de dezvoltare.

Metoda mediei mobile similar cu cel precedent, dar în acest caz nivelurile reale sunt înlocuite cu niveluri medii calculate pentru intervale marite care se deplasează secvenţial (alunecă) care acoperă m niveluri de serie.

De exemplu, dacă acceptăm m=3, apoi mai întâi se calculează media primelor trei niveluri ale seriei, apoi - din același număr de niveluri, dar începând de la al doilea, apoi - începând cu al treilea etc. Astfel, media „alunecă” de-a lungul seriei de dinamică, mișcându-se cu un termen. Calculat din m membri, mediile mobile se referă la mijlocul (centrul) fiecărui interval.

Această metodă elimină doar fluctuațiile aleatorii. Dacă seria are un val sezonier, atunci va persista chiar și după netezire folosind metoda mediei mobile.

Alinierea analitică. Pentru a elimina fluctuațiile aleatoare și a identifica o tendință, se utilizează nivelarea nivelurilor de serie folosind formule analitice (sau nivelarea analitică). Esența acestuia este înlocuirea nivelurilor empirice (actuale) cu cele teoretice, care sunt calculate folosind o anumită ecuație adoptată ca model de tendință matematică, unde nivelurile teoretice sunt considerate în funcție de timp: . În acest caz, fiecare nivel real este considerat ca suma a două componente: , unde este o componentă sistematică și exprimată printr-o anumită ecuație și este o variabilă aleatoare care provoacă fluctuații în jurul tendinței.

Sarcina alinierii analitice se rezumă la următoarele:

1. Determinarea, pe baza datelor reale, a tipului de funcție ipotetică care poate reflecta cel mai adecvat tendința de dezvoltare a indicatorului studiat.

2. Găsirea parametrilor funcției specificate (ecuația) din date empirice

3. Calcul folosind ecuația găsită a nivelurilor teoretice (aliniate).

Alegerea unei anumite funcții se realizează, de regulă, pe baza unei reprezentări grafice a datelor empirice.

Modelele sunt ecuații de regresie, ai căror parametri sunt calculați folosind metoda celor mai mici pătrate

Mai jos sunt cele mai frecvent utilizate ecuații de regresie pentru alinierea seriilor de timp, indicând ce tendințe de dezvoltare sunt cele mai potrivite pentru a le reflecta.

Pentru a găsi parametrii ecuațiilor de mai sus, există algoritmi speciali și programe de calculator. În special, pentru a găsi parametrii unei ecuații în linie dreaptă, se poate folosi următorul algoritm:

Dacă perioadele sau momentele de timp sunt numerotate astfel încât St = 0, atunci algoritmii de mai sus vor fi simplificați semnificativ și se vor transforma în

Nivelurile aliniate pe diagramă vor fi situate pe o linie dreaptă, trecând la cea mai apropiată distanță de nivelurile reale ale acestei serii dinamice. Suma abaterilor pătrate este o reflectare a influenței factorilor aleatori.

Folosind-o, calculăm eroarea medie (standard) a ecuației:

Aici n este numărul de observații, iar m este numărul de parametri din ecuație (avem doi dintre ei - b 1 și b 0).

Tendința principală (tendința) arată modul în care factorii sistematici influențează nivelurile unei serii de dinamici, iar fluctuația nivelurilor în jurul tendinței () servește ca măsură a influenței factorilor reziduali.

Pentru a evalua calitatea modelului de serie temporală utilizat, se folosește și acesta Testul F al lui Fisher. Este raportul a două varianțe, și anume raportul varianței cauzate de regresie, adică. factorul studiat, la varianța cauzată de motive aleatorii, i.e. dispersie reziduala:

În formă extinsă, formula pentru acest criteriu poate fi prezentată după cum urmează:

unde n este numărul de observații, adică numărul de niveluri de rând,

m este numărul de parametri din ecuație, y este nivelul real al seriei,

Nivelul rândului aliniat - nivelul rândului mijlociu.

Un model care are mai mult succes decât altele poate să nu fie întotdeauna suficient de satisfăcător. Poate fi recunoscut ca atare numai în cazul în care criteriul său F depășește limita critică cunoscută. Această limită este stabilită folosind tabele de distribuție F.

Esența și clasificarea indicilor.

În statistică, un indice este înțeles ca un indicator relativ care caracterizează modificarea amplitudinii unui fenomen în timp, spațiu sau în comparație cu orice standard.

Elementul principal al relației index este valoarea indexată. O valoare indexată este înțeleasă ca valoarea unei caracteristici a unei populații statistice, a cărei modificare face obiectul de studiu.

Folosind indici, sunt rezolvate trei sarcini principale:

1) evaluarea schimbărilor într-un fenomen complex;

2) determinarea influenţei factorilor individuali asupra modificărilor unui fenomen complex;

3) compararea amplorii unui fenomen cu amploarea perioadei trecute, amploarea unui alt teritoriu, precum și cu standardele, planurile și prognozele.

Indicii sunt clasificați în funcție de 3 criterii:

2) după gradul de acoperire a elementelor populaţiei;

3) conform metodelor de calcul al indicilor generali.

După conținut cantități indexate, indicii se împart în indici ai indicatorilor cantitativi (de volum) și indici ai indicatorilor calitativi. Indici ai indicatorilor cantitativi - indici ai volumului fizic al produselor industriale, volumul fizic al vânzărilor, efectivul etc. Indici ai indicatorilor calitativi - indici ai prețurilor, costurilor, productivității muncii, salariilor medii etc.

În funcție de gradul de acoperire al unităților de populație, indicii sunt împărțiți în două clase: individuali și generali. Pentru a le caracteriza, introducem următoarele convenții adoptate în practica utilizării metodei indexului:

q- cantitatea (volumul) oricărui produs în termeni fizici ; r- preț unitar; z- costul unitar de producție; t— timpul petrecut pentru producerea unei unități de produs (intensitatea muncii) ; w- producerea produselor în termeni valorici pe unitatea de timp; v- producția în termeni fizici pe unitatea de timp; T— timpul total petrecut sau numărul de angajați.

Pentru a distinge cărei perioade sau obiect îi aparțin cantitățile indexate, se obișnuiește să se plaseze indicele în partea dreaptă jos a simbolului corespunzător. Deci, de exemplu, în indicii de dinamică, de regulă, indicele 1 este utilizat pentru perioadele comparate (curente, de raportare) și pentru perioadele cu care se face comparația,

Indici individuali servesc la caracterizarea modificărilor elementelor individuale ale unui fenomen complex (de exemplu, o modificare a volumului producției unui tip de produs). Ele reprezintă valori relative ale dinamicii, îndeplinirii obligațiilor, compararea valorilor indexate.

Se determină indicele individual al volumului fizic al produselor

Din punct de vedere analitic, indicii de dinamică individuali dați sunt similari cu coeficienții (ratele) de creștere și caracterizează modificarea valorii indexate în perioada curentă față de perioada de bază, adică arată de câte ori a crescut (a scăzut) sau ce procent este creșterea (scăderea). Valorile indicilor sunt exprimate în coeficienți sau procente.

Indice general (compozit). reflectă schimbări în toate elementele unui fenomen complex.

Indicele agregat este forma de bază a unui index. Se numește agregat deoarece numărătorul și numitorul său sunt un set de „agregate”

Indici medii, definiția lor.

Pe lângă indicii agregați, în statistică se utilizează o altă formă a acestora - indici medii ponderați. Se recurge la calculul acestora atunci când informațiile disponibile nu permit calcularea indicelui agregat general. Astfel, dacă nu există date despre prețuri, dar există informații despre costul produselor în perioada curentă și sunt cunoscuți indici individuali de preț pentru fiecare produs, atunci indicele general al prețurilor nu poate fi determinat ca unul agregat, dar este posibil. pentru a o calcula ca medie a celor individuale. În același mod, dacă nu se cunosc cantitățile de tipuri individuale de produse produse, dar se cunosc indicii individuali și costul de producție al perioadei de bază, atunci indicele general al volumului fizic al producției poate fi determinat ca medie ponderată. valoare.

Indicele mediu - Acest un indice calculat ca medie a indicilor individuali. Un indice agregat este forma de bază a unui indice general, deci indicele mediu trebuie să fie identic cu indicele agregat. La calcularea indicilor medii se folosesc două forme de medii: aritmetică și armonică.

Indicele medie aritmetică este identică cu indicele agregat dacă ponderile indicilor individuali sunt termenii numitorului indicelui agregat. Numai în acest caz, valoarea indicelui calculată folosind formula medie aritmetică va fi egală cu indicele agregat.

Dispersia este media aritmetică a abaterilor pătrate ale fiecărui atribut de la media generală. Varianta se numește de obicei pătratul mediu al abaterilor. În funcție de datele sursă, varianța poate fi calculată folosind media aritmetică simplă sau ponderată:

Pentru datele negrupate σ 2 =,

Pentru seria de variații σ 2 =
.

Pătrat mediu abatere este rădăcina pătrată a varianței:

Pentru datele negrupate σ =
,

Pentru seria de variații σ =
.

Abaterea standard este o caracteristică generalizantă a mărimii absolute a variației unei caracteristici în agregat. Se exprimă în aceleași unități de măsură ca și atributul (în metri, tone, procente, hectare etc.).

Calculul abaterii standard este precedat de calculul varianței.

Determinarea varianței și a abaterii standard de la valorile individuale

Procedura de calcul:

    media aritmetică simplă se calculează pe baza valorilor caracteristice

;


Sarcina 3. Folosind exemplul a două echipe (sarcina 1), determinați dispersia și abaterea standard a productivității muncii.

Metoda de rezolvare:

Determinarea dispersiei și a abaterii standard în serii de distribuție discretă și pe intervale

Procedura de calcul:

Sarcina 4. Calculați varianța și abaterea standard de la datele unei probleme tipice. Trageți o concluzie.

Produse produse de 1 muncitor, buc. (x optiuni)

Numărul de muncitori

Metoda de rezolvare:

Dacă datele sursă sunt prezentate sub forma unei serii de distribuție pe intervale, atunci trebuie mai întâi să determinați valoarea discretă a atributului și apoi să aplicați aceeași metodă descrisă mai sus.

Sarcina 5. Calculați dispersia și abaterea standard pentru seria de intervale pe baza distribuției suprafeței semănate în fermă în funcție de producția de grâu:

Randamentul grâului, c\ha

Suprafata semanata, ha

Metoda de rezolvare:

Calculul varianței într-un mod simplificat.

Utilizarea formulei de mai sus pentru calcularea dispersiei nu este întotdeauna convenabilă, deși reflectă bine esența indicatorului. Prin urmare, este necesar să se cunoască o altă formulă pentru o metodă de calcul simplificată, rezultată din cele de mai sus:

,

Unde - valoarea medie a pătratelor opțiunilor;

- pătratul mediei aritmetice.

Procedura de calcul (dacă datele nu sunt grupate):

Sarcina 6. Există date despre productivitatea lucrătorilor Calculați varianța într-un mod simplificat.

Muncitorul nr.

Produse produse pe schimb, buc.

Metoda de rezolvare:

Procedura de calcul (dacă datele sunt grupate):

Sarcina 7. Există date privind distribuția întreprinderilor agricole în funcție de disponibilitatea mijloacelor fixe. Calculați varianța într-un mod simplificat.

Grupuri de întreprinderi în funcție de disponibilitatea mijloacelor fixe, milioane de ruble.

Numărul de întreprinderi

Tehnica soluției.

Definiţie

Abaterea standard ( engleză Deviația standard, SD) este un indicator care este utilizat în teoria probabilităților și statistica matematică pentru a evalua gradul de dispersie a unei variabile aleatoare în raport cu așteptările ei matematice. În investiții, abaterea standard a rentabilității unei valori mobiliare sau a unui portofoliu este utilizată pentru a evalua o măsură a riscului. Cu cât este mai mare gradul de dispersie a randamentului unui titlu în raport cu randamentul așteptat (așteptarea matematică a rentabilității), cu atât riscul investiției este mai mare și invers.

Abaterea standard este de obicei indicată cu litera greacă σ (sigma), iar abaterea standard cu litera latină S sau ca Std(X), unde X este o variabilă aleatorie.

Formula

Adevărata abatere standard

Dacă este cunoscută distribuția exactă a unei variabile aleatoare discrete, și anume, valoarea acesteia este cunoscută pentru fiecare rezultat și probabilitatea fiecărui rezultat poate fi estimată, atunci formula de calcul a abaterii standard va arăta astfel.

Unde X i este valoarea variabilei aleatoare X pentru al-lea rezultat; M(X) așteptarea matematică a variabilei aleatoare X; p i – probabilitatea i-lea rezultat; N – numărul de rezultate posibile.

În acest caz, așteptarea matematică a unei variabile aleatoare este calculată folosind formula:

Abaterea standard a populației

În practică, în loc de distribuția exactă a unei variabile aleatoare, este de obicei disponibil doar un eșantion de date. În acest caz, se calculează o valoare estimată a abaterii standard, care în acest caz se numește abaterea standard (S). Dacă estimarea se bazează pe întreaga populație de date, trebuie utilizată următoarea formulă.

Unde X i este valoarea i-a a variabilei aleatoare X; X – media aritmetică a populației generale; N este volumul populației generale.

Deviația standard a eșantionului

Dacă nu se utilizează întreaga populație de date, ci un eșantion din aceasta, atunci formula de calcul a abaterii standard se bazează pe o estimare imparțială a varianței.

Unde X i este valoarea i-a a variabilei aleatoare X; X – media aritmetică a probei; N – dimensiunea eșantionului.

Exemple de calcul

Exemplul 1

Un manager de portofoliu trebuie să evalueze riscurile investiției în acțiuni ale a două companii A și B. În același timp, el are în vedere 5 scenarii de desfășurare a evenimentelor, informații despre care sunt prezentate în tabel.

Deoarece cunoaștem distribuția exactă a rentabilității fiecărui stoc, putem calcula adevărata abatere standard a rentabilității pentru fiecare stoc.

Pasul 1. Să calculăm așteptarea matematică a rentabilității pentru fiecare stoc.

M(A) = -5%×0,02+6%×0,25+15%×0,40+24%×0,30+34%×0,03 = 15,62%

M(B) = -18%×0,02+2%×0,25+16%×0,40+27%×0,30+36%×0,03 = 22,14%

Pasul 2. Să substituim datele obținute în prima formulă.

După cum putem observa, acțiunile Companiei A se caracterizează printr-un nivel mai scăzut de risc, deoarece au o abatere standard mai mică a randamentelor. De asemenea, trebuie remarcat faptul că randamentul așteptat al acestora este mai mic decât cel al acțiunilor Companiei B.

Exemplul 2

Analistul are date despre rentabilitatea a două titluri de valoare în ultimii 5 ani, care sunt prezentate în tabel.

Deoarece distribuția exactă a randamentelor este necunoscută și analistul are doar un eșantion din populația de date, putem calcula abaterea standard a eșantionului pe baza varianței nepărtinitoare.

Pasul 1. Să calculăm rentabilitatea așteptată pentru fiecare titlu ca medie aritmetică a eșantionului.

X A = (7 + 15 + 2 – 5 + 6) ÷ 5 = 5%

X B = (3 – 2 + 12 + 4 +8) ÷ 5 = 5%

Pasul 2. Să calculăm abaterea standard a randamentului pentru fiecare dintre titlurile de valoare folosind formula pentru un eșantion din populația generală de date.

Trebuie remarcat faptul că ambele titluri au un randament așteptat egal de 5%. Totodată, abaterea standard a randamentului titlului B este mai mică, ceea ce, în egală măsură, face din aceasta un obiect de investiții mai atractiv datorită unui profil risc-randament mai bun.

Deviația standard în Excel

Excel oferă două funcții pentru a calcula abaterea standard a unui eșantion și a unei populații.

Pentru eșantionare, utilizați funcția „STDEV.V”:

  1. Într-o serie de celule B1:F1
  2. Selectați celula de ieșire B2.
  3. fx , în fereastra pop-up " Inserarea unei funcții» selectați categoria « Lista completă alfabetică" și selectați funcția " STDEV.V».
  4. În câmp" Numărul 1» selectați intervalul de celule B1:F1, câmp " Numărul 2Bine».

Pentru populația generală, se utilizează funcția „STDEV.G”:

  1. Într-o serie de celule B1:F1 se introduc valorile variabilei aleatoare X.
  2. Selectați celula de ieșire B2.
  3. Pe linia de comandă, faceți clic fx , în fereastra pop-up " Inserarea unei funcții» selectați categoria « Lista completă alfabetică" și selectați funcția " STDEV.G».
  4. În câmp" Numărul 1» selectați intervalul de celule B1:F1, câmp " Numărul 2" lăsați necompletat și faceți clic pe butonul " Bine».

Interpretare

În investiții, abaterea standard a randamentelor este utilizată ca măsură a volatilității. Cu cât valoarea sa este mai mare, cu atât este mai mare riscul asociat investiției în acest activ și invers. Toate celelalte lucruri fiind egale, ar trebui să se acorde preferință activului pentru care acest indicator este minim.

Rădăcina pătrată a varianței se numește abatere standard de la medie, care se calculează după cum urmează:

O transformare algebrică elementară a formulei deviației standard o duce la următoarea formă:

Această formulă se dovedește adesea a fi mai convenabilă în practica de calcul.

Abaterea standard, la fel ca abaterea liniară medie, arată cât de mult în medie valorile specifice ale unei caracteristici se abat de la valoarea lor medie. Abaterea standard este întotdeauna mai mare decât abaterea liniară medie. Există următoarea relație între ei:

Cunoscând acest raport, puteți folosi indicatorii cunoscuți pentru a determina necunoscutul, de exemplu, dar (I calculați a și invers. Abaterea standard măsoară dimensiunea absolută a variabilității unei caracteristici și este exprimată în aceleași unități de măsură ca și valorile caracteristicii (ruble, tone, ani etc.). Este o măsură absolută a variației.

Pentru semne alternative, de exemplu, prezența sau absența învățământului superior, asigurărilor, formulele de dispersie și abaterea standard sunt următoarele:

Să arătăm calculul abaterii standard în funcție de datele unei serii discrete care caracterizează distribuția studenților la una dintre facultățile universitare pe vârstă (Tabelul 6.2).

Tabelul 6.2.

Rezultatele calculelor auxiliare sunt prezentate în coloanele 2-5 din tabel. 6.2.

Vârsta medie a unui student, ani, este determinată de formula mediei aritmetice ponderate (coloana 2):

Abaterile la pătrat ale vârstei individuale a elevului de la medie sunt cuprinse în coloanele 3-4, iar produsele abaterilor la pătrat și frecvențele corespunzătoare sunt cuprinse în coloana 5.

Găsim varianța vârstei, anii elevilor, folosind formula (6.2):

Atunci o = l/3,43 1,85 *oda, i.e. Fiecare valoare specifică a vârstei unui student se abate de la medie cu 1,85 ani.

Coeficientul de variație

În valoarea sa absolută, abaterea standard depinde nu numai de gradul de variație a caracteristicii, ci și de nivelurile absolute ale opțiunilor și de medie. Prin urmare, este imposibil să se compare direct abaterile standard ale seriei de variații cu diferite niveluri medii. Pentru a putea face o astfel de comparație, trebuie să găsiți ponderea abaterii medii (liniară sau pătratică) în media aritmetică, exprimată ca procent, i.e. calcula măsuri relative de variație.

Coeficient liniar de variație calculat prin formula

Coeficientul de variație determinată de următoarea formulă:

În coeficienții de variație se elimină nu numai incomparabilitatea asociată cu diferite unități de măsură ale caracteristicii studiate, ci și incomparabilitatea care apare din cauza diferențelor de valoare a mediilor aritmetice. În plus, indicatorii de variație caracterizează omogenitatea populației. Populația este considerată omogenă dacă coeficientul de variație nu depășește 33%.

Conform tabelului. 6.2 și rezultatele calculelor obținute mai sus, determinăm coeficientul de variație, %, conform formulei (6.3):

Dacă coeficientul de variație depășește 33%, atunci aceasta indică eterogenitatea populației studiate. Valoarea obținută în cazul nostru indică faptul că populația de elevi pe vârstă este omogenă ca compoziție. Astfel, o funcție importantă a generalizării indicatorilor de variație este de a evalua fiabilitatea mediilor. Cu cât mai puțin c1, a2 și V, cu cât setul de fenomene rezultat este mai omogen și cu atât media rezultată este mai fiabilă. Conform „regulii trei sigma” luată în considerare de statistica matematică, în serii normal distribuite sau apropiate acestora, abaterile de la media aritmetică care nu depășesc ±3 se produc în 997 de cazuri din 1000. Astfel, cunoscând X și a, puteți obține o idee generală inițială a seriei de variații. Dacă, de exemplu, salariul mediu al unui angajat într-o companie este de 25.000 de ruble, iar a este egal cu 100 de ruble, atunci cu o probabilitate apropiată de certitudine, putem spune că salariile angajaților companiei fluctuează în intervalul (25.000 de ruble). ± ± 3 x 100) adică de la 24.700 la 25.300 de ruble.

Pe lângă așteptarea matematică a unei variabile aleatorii care. determină poziția centrului distribuției de probabilitate o caracteristică cantitativă a distribuției unei variabile aleatoare este dispersia variabilei aleatoare

Vom nota dispersia prin D [x] sau .

Cuvântul dispersie înseamnă dispersie. Dispersia este o caracteristică numerică a dispersiei, răspândirea valorilor unei variabile aleatoare în raport cu așteptările ei matematice.

Definiție 1. Varianța unei variabile aleatoare este așteptarea matematică a pătratului diferenței dintre o variabilă aleatoare și așteptarea ei matematică (adică așteptarea matematică a pătratului variabilei aleatoare centrate corespunzătoare):

Varianta are dimensiunea pătratului variabilei aleatoare. Uneori, pentru a caracteriza dispersia, este mai convenabil să folosiți o mărime a cărei dimensiune coincide cu dimensiunea unei variabile aleatorii. Această valoare este abaterea standard.

Definiția 2. Deviația pătrată medie a unei variabile aleatoare este rădăcina pătrată a varianței acesteia:

sau în formă extinsă

Se notează și abaterea standard

Observație 1. Când se calculează varianța, formula (1) poate fi transformată în mod convenabil după cum urmează:

adică, varianța este egală cu diferența dintre așteptarea matematică a pătratului variabilei aleatoare și pătratul așteptării matematice a variabilei aleatoare.

Exemplul 1. Se trage o singură lovitură asupra unui obiect. Probabilitatea de lovire. Determinați așteptările matematice, dispersia și abaterea standard.

Soluţie. Construirea unui tabel cu valorile numerelor de accesare

Prin urmare,

Pentru a prezenta semnificația conceptului de dispersie și deviație standard ca caracteristici ale dispersiei unei variabile aleatoare, luați în considerare exemple.

Exemplul 2. O variabilă aleatorie este dată de următoarea lege de distribuție (vezi tabelul și Fig. 413):

Exemplul 3. O variabilă aleatoare este dată de următoarea lege de distribuție (vezi tabelul și Fig. 414):

Determinați: 1) așteptarea matematică, 2) dispersia, 3) abaterea standard.

Dispersia, împrăștierea variabilei aleatoare din primul exemplu este mai mică decât dispersia variabilei aleatoare din al doilea exemplu (vezi Fig. 414 și 415). Varianțele acestor valori sunt 0,6 și, respectiv, 2,4.

Exemplul 4; Variabila aleatoare este dată de următoarea lege de distribuție (vezi tabelul și Fig. 415):

Determinați: 1) așteptarea matematică, 2) dispersia, 3) abaterea standard.