Formula kvadratnega odstopanja. Povprečno linearno odstopanje

$X$. Za začetek se spomnimo naslednje definicije:

Definicija 1

Prebivalstvo-- nabor naključno izbranih predmetov dane vrste, nad katerimi se izvajajo opazovanja, da se pridobijo določene vrednosti naključna spremenljivka izvajajo se pod stalnimi pogoji pri proučevanju ene naključne spremenljivke danega tipa.

Definicija 2

Splošno odstopanje--povprečno aritmetika kvadratov odstopanja vrednosti populacijske različice od njihove povprečne vrednosti.

Naj imajo vrednosti možnosti $x_1,\ x_2,\dots ,x_k$ frekvence $n_1,\ n_2,\dots ,n_k$. Potem splošna varianca izračunano po formuli:

Razmislimo o posebnem primeru. Naj bodo vse možnosti $x_1,\ x_2,\dots ,x_k$ različne. V tem primeru $n_1,\ n_2,\dots ,n_k=1$. Ugotovimo, da se v tem primeru splošna varianca izračuna po formuli:

Ta koncept je povezan tudi s konceptom splošnega standardnega odklona.

Definicija 3

Splošna povprečja standardni odklon

\[(\sigma )_g=\sqrt(D_g)\]

Varianca vzorca

Naj nam bo dana vzorčna populacija glede na naključno spremenljivko $X$. Za začetek se spomnimo naslednje definicije:

Definicija 4

Vzorčna populacija -- del izbranih objektov iz splošne populacije.

Definicija 5

Varianca vzorca--povprečno aritmetične vrednosti možnost vzorčenja.

Naj imajo vrednosti možnosti $x_1,\ x_2,\dots ,x_k$ frekvence $n_1,\ n_2,\dots ,n_k$. Nato se vzorčna varianca izračuna po formuli:

Razmislimo o posebnem primeru. Naj bodo vse možnosti $x_1,\ x_2,\dots ,x_k$ različne. V tem primeru $n_1,\ n_2,\dots ,n_k=1$. Ugotovimo, da se vzorčna varianca v tem primeru izračuna po formuli:

S tem konceptom je povezan tudi koncept standardne deviacije vzorca.

Opredelitev 6

Standardni odklon vzorca -- Kvadratni koren iz splošnega odstopanja:

\[(\sigma )_v=\sqrt(D_v)\]

Popravljena varianca

Da bi našli popravljeno varianco $S^2$, je treba vzorčno varianco pomnožiti z ulomkom $\frac(n)(n-1)$, tj.

Ta koncept je povezan tudi s konceptom popravljenega standardnega odklona, ​​ki ga najdemo s formulo:

V primeru, ko vrednosti variant niso diskretne, ampak predstavljajo intervale, se v formulah za izračun splošne ali vzorčne variance vrednost $x_i$ vzame kot vrednost sredine intervala do kateri $x_i.$ pripada.

Primer težave za iskanje variance in standardnega odklona

Primer 1

Vzorčna populacija je opredeljena z naslednjo distribucijsko tabelo:

Slika 1.

Poiščimo zanj vzorčno varianco, vzorčni standardni odklon, popravljeno varianco in popravljeni standardni odklon.

Za rešitev te težave najprej naredimo tabelo za izračun:

Slika 2.

Vrednost $\overline(x_в)$ (vzorčno povprečje) v tabeli najdemo po formuli:

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(305)(20)=15,25\]

Poiščimo vzorčno varianco s formulo:

Standardni odklon vzorca:

\[(\sigma )_v=\sqrt(D_v)\približno 5,12\]

Popravljeno odstopanje:

\[(S^2=\frac(n)(n-1)D)_v=\frac(20)(19)\cdot 26,1875\približno 27,57\]

Popravljeno standardno odstopanje.

Program Excel zelo cenijo tako profesionalci kot amaterji, saj lahko z njim delajo uporabniki katere koli ravni znanja. Na primer, vsak z minimalnimi "komunikacijskimi" veščinami v Excelu lahko nariše preprost graf, naredi spodoben krožnik itd.

Hkrati vam ta program omogoča celo izvajanje različnih vrst izračunov, na primer izračunov, vendar to zahteva nekoliko drugačno stopnjo usposabljanja. Če pa ste se šele začeli pobliže seznanjati s tem programom in vas zanima vse, kar vam bo pomagalo postati naprednejši uporabnik, je ta članek za vas. Danes vam bom povedal, kaj je formula standardnega odklona v Excelu, zakaj je sploh potrebna in, strogo gledano, kdaj se uporablja. Pojdi!

kaj je

Začnimo s teorijo. Standardni odklon se običajno imenuje kvadratni koren, dobljen iz aritmetične sredine vseh kvadratov razlik med razpoložljivimi vrednostmi, kot tudi njihove aritmetične sredine. Mimogrede, ta vrednost se običajno imenuje grška črka "sigma". Standardni odklon se izračuna po formuli STANDARDEVAL, zato program to naredi za uporabnika sam.

Bistvo tega koncepta je ugotoviti stopnjo variabilnosti instrumenta, to je, da je na svoj način indikator, ki izhaja iz deskriptivne statistike. Opredeljuje spremembe volatilnosti instrumenta v določenem časovnem obdobju. Z uporabo formul za standardni odklon lahko ocenite standardni odklon pri pridobivanju so logične in besedilne vrednosti prezrte.

Formula

Pomaga izračunati standardno odstopanje v excel formula, ki je samodejno na voljo v program Excel. Če ga želite najti, morate v Excelu poiskati razdelek s formulo in nato izbrati tistega z imenom STANDARDEVAL, tako da je zelo preprosto.

Po tem se pred vami prikaže okno, v katerega boste morali vnesti podatke za izračun. Predvsem je treba v posebni polji vnesti dve številki, po katerih bo program sam izračunal standardni odklon za vzorec.

Nedvomno so matematične formule in izračuni precej zapleteno vprašanje in vsi uporabniki se z njim ne morejo takoj spopasti. Če pa se malo poglobite in pogledate zadevo nekoliko podrobneje, se izkaže, da ni vse tako žalostno. Upam, da ste se o tem prepričali na primeru izračuna standardnega odklona.

Video v pomoč

Modri ​​matematiki in statistiki so se domislili bolj zanesljivega kazalnika, čeprav za nekoliko drugačen namen - povprečje linearno odstopanje . Ta indikator označuje mero disperzije vrednosti nabora podatkov okoli njihove povprečne vrednosti.

Če želite prikazati mero razpršenosti podatkov, se morate najprej odločiti, na podlagi česa bo ta razpršenost izračunana – običajno je to povprečna vrednost. Nato morate izračunati, kako daleč so vrednosti analiziranega niza podatkov od povprečja. Jasno je, da vsaka vrednost ustreza določeni vrednosti odstopanja, vendar nas zanima skupna ocena, ki zajema celotno populacijo. Zato se povprečno odstopanje izračuna po običajni formuli aritmetične sredine. Ampak! A da bi izračunali povprečje odstopanj, jih je treba najprej sešteti. In če seštejemo pozitivna in negativna števila, se bodo med seboj izničila in njihova vsota se bo nagibala k ničli. Da bi se temu izognili, se vsa odstopanja upoštevajo modulo, to pomeni, da vsa negativna števila postanejo pozitivna. Zdaj bo povprečno odstopanje pokazalo posplošeno mero širjenja vrednosti. Posledično se povprečno linearno odstopanje izračuna po formuli:

a– povprečno linearno odstopanje,

x– analizirani kazalnik, zgoraj s pomišljajem – povprečna vrednost kazalnika,

n– število vrednosti v analiziranem nizu podatkov,

Upam, da operater seštevanja ne bo koga prestrašil.

Povprečno linearno odstopanje, izračunano z navedeno formulo, odraža povprečno absolutno odstopanje od povprečne vrednosti za določeno populacijo.

Na sliki je rdeča črta povprečna vrednost. Odstopanja vsakega opazovanja od povprečja so označena z majhnimi puščicami. Vzamejo se po modulu in seštejejo. Nato se vse deli s številom vrednosti.

Da bi sliko dopolnili, moramo navesti primer. Recimo, da obstaja podjetje, ki proizvaja potaknjence za lopate. Vsak rez mora biti dolg 1,5 metra, vendar je še pomembneje, da morajo biti vsi enaki ali vsaj plus ali minus 5 cm, vendar bodo neprevidni delavci odrezali 1,2 m ali 1,8 m. Poletni prebivalci so nezadovoljni. Direktor podjetja se je odločil za statistično analizo dolžine posekov. Izbral sem 10 kosov in izmeril njihovo dolžino, našel povprečje in izračunal povprečno linearno odstopanje. Izkazalo se je, da je povprečje ravno tisto, kar je bilo potrebno - 1,5 m, povprečno linearno odstopanje pa je bilo 0,16 m, tako da se je izkazalo, da je vsak rez daljši ali krajši, kot je potrebno, v povprečju za 16 cm. delavci . Pravzaprav nisem videl nobene dejanske uporabe tega indikatorja, zato sem si sam izmislil primer. Vendar pa v statistiki obstaja tak indikator.

Razpršenost

Tako kot povprečno linearno odstopanje tudi varianca odraža obseg širjenja podatkov okoli srednje vrednosti.

Formula za izračun variance izgleda takole:

(za serije variacij (utežena varianca))

(za nezdružene podatke (enostavna varianca))

Kjer je: σ 2 – disperzija, Xi– analiziramo kazalnik sq (vrednost predznaka), – povprečno vrednost kazalnika, f i – število vrednosti v analiziranem nizu podatkov.

Disperzija je povprečni kvadrat odstopanj.

Najprej se izračuna povprečna vrednost, nato se razlika med vsako izvirno in povprečno vrednostjo vzame, kvadrira, pomnoži s frekvenco ustrezne vrednosti atributa, doda in nato deli s številom vrednosti v populaciji.

Vendar pa v čista oblika, kot je aritmetična sredina ali indeks, se varianca ne uporablja. Je bolj pomožni in vmesni indikator, ki se uporablja za druge vrste statističnih analiz.

Poenostavljen način za izračun variance

Standardni odklon

Za uporabo variance za analizo podatkov se vzame kvadratni koren variance. Izkazalo se je tako imenovano standardni odklon.

Mimogrede, standardni odklon se imenuje tudi sigma - iz grške črke, ki jo označuje.

Standardni odklon seveda označuje tudi mero razpršenosti podatkov, vendar ga je zdaj (za razliko od variance) mogoče primerjati z izvirnimi podatki. Praviloma srednje kvadratne mere v statistiki dajejo natančnejše rezultate kot linearne. Zato je standardna deviacija natančnejša mera razpršenosti podatkov kot linearna povprečna deviacija.

Standardni odklon(sinonimi: standardni odklon, standardni odklon, kvadratno odstopanje; povezani izrazi: standardni odklon, standardni namaz) - v teoriji verjetnosti in statistiki najpogostejši indikator razpršenosti vrednosti naključne spremenljivke glede na njeno matematično pričakovanje. Pri omejenih nizih vzorcev vrednosti se namesto matematičnega pričakovanja uporablja aritmetična sredina množice vzorcev.

Enciklopedični YouTube

  • 1 / 5

    Standardni odklon se meri v merskih enotah same naključne spremenljivke in se uporablja pri izračunu standardne napake aritmetične sredine, pri konstruiranju intervalov zaupanja, pri statističnem testiranju hipotez, pri merjenju linearne povezave med naključnimi spremenljivkami. Definirano kot kvadratni koren variance naključne spremenljivke.

    Standardni odklon:

    s = n n − 1 σ 2 = 1 n − 1 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s=(\sqrt ((\frac (n)(n-1))\sigma ^(2)))=(\sqrt ((\frac (1)(n-1))\sum _( i=1)^(n)\levo(x_(i)-(\bar (x))\desno)^(2)));)
    • Opomba: Zelo pogosto prihaja do neskladij v imenih MSD (povprečno kvadratno odstopanje) in STD (standardno odstopanje) z njunima formulama. Na primer, v modulu numPy programskega jezika Python je funkcija std() opisana kot "standardni odklon", medtem ko formula odraža standardni odklon (deljenje s korenom vzorca). V Excelu je funkcija STANDARDEVAL() drugačna (deljenje s korenom iz n-1).

    Standardni odklon(ocena standardnega odklona naključne spremenljivke x glede na njegovo matematično pričakovanje, ki temelji na nepristranski oceni njegove variance) s (\displaystyle s):

    σ = 1 n ∑ i = 1 n (x i − x ¯) 2 . (\displaystyle \sigma =(\sqrt ((\frac (1)(n))\sum _(i=1)^(n)\levo(x_(i)-(\bar (x))\desno) ^(2))).)

    Kje σ 2 (\displaystyle \sigma ^(2))- disperzija; x i (\displaystyle x_(i)) - jaz element izbora; n (\displaystyle n)- Velikost vzorca; - aritmetična sredina vzorca:

    x ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + … + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\pike +x_(n)).)

    Opozoriti je treba, da sta obe oceni pristranski. V splošnem primeru je nemogoče sestaviti nepristransko oceno. Vendar je ocena, ki temelji na nepristranski oceni variance, dosledna.

    V skladu z GOST R 8.736-2011 se standardni odklon izračuna z uporabo druge formule tega razdelka. Preverite rezultate.

    Pravilo treh sigm

    Pravilo treh sigm (3 σ (\displaystyle 3\sigma )) - skoraj vse vrednosti normalno porazdeljene naključne spremenljivke ležijo v intervalu (x ¯ − 3 σ ; x ¯ + 3 σ) (\displaystyle \left((\bar (x))-3\sigma ;(\bar (x))+3\sigma \desno)). Natančneje - s približno verjetnostjo 0,9973 je vrednost normalno porazdeljene naključne spremenljivke v določenem intervalu (pod pogojem, da vrednost x ¯ (\displaystyle (\bar (x))) res in ni pridobljeno kot rezultat obdelave vzorca).

    Če je prava vrednost x ¯ (\displaystyle (\bar (x))) je neznano, potem ne smete uporabljati σ (\displaystyle \sigma ), A s. Tako se pravilo treh sigm spremeni v pravilo treh s .

    Razlaga vrednosti standardnega odklona

    Večja vrednost standardnega odklona kaže večji razpon vrednosti v predstavljenem nizu s povprečno vrednostjo niza; manjša vrednost torej kaže, da so vrednosti v nizu združene okoli povprečne vrednosti.

    Na primer, imamo tri številčni nizi: (0, 0, 14, 14), (0, 6, 8, 14) in (6, 6, 8, 8). Vsi trije nizi imajo srednje vrednosti enake 7, standardni odkloni pa enaki 7, 5 in 1. Zadnji niz ima majhen standardni odklon, saj so vrednosti v nizu združene okoli srednje vrednosti; prvi niz ima največ velik pomen standardni odklon - vrednosti znotraj nabora se močno razlikujejo od povprečne vrednosti.

    V splošnem se standardni odklon lahko šteje za merilo negotovosti. Na primer, v fiziki se standardna deviacija uporablja za določitev napake niza zaporednih meritev neke količine. Ta vrednost je zelo pomembna za določitev verjetnosti preučevanega pojava v primerjavi z vrednostjo, ki jo predvideva teorija: če se povprečna vrednost meritev močno razlikuje od vrednosti, ki jih predvideva teorija (velik standardni odklon), potem je treba dobljene vrednosti ali način njihovega pridobivanja ponovno preveriti. identificirati s tveganjem portfelja.

    Podnebje

    Recimo, da obstajata dve mesti z enako povprečno najvišjo dnevno temperaturo, vendar se eno nahaja na obali, drugo pa na ravnini. Znano je, da imajo mesta na obali veliko različnih najvišjih dnevnih temperatur, ki so nižje od mest v notranjosti. Zato bo standardni odklon najvišjih dnevnih temperatur za obalno mesto manjši kot za drugo mesto, kljub temu da je povprečna vrednost te vrednosti enaka, kar v praksi pomeni, da je verjetnost, da bo najvišja temperatura zraka na kateri koli dan v letu bo višja razlika od povprečne vrednosti, višja za mesto v notranjosti.

    Šport

    Predpostavimo, da obstaja več nogometnih ekip, ki so ocenjene na podlagi določenega niza parametrov, na primer število doseženih in prejetih golov, priložnosti za zadetek itd. Najbolj verjetno je, da bo najboljša ekipa v tej skupini imela boljše vrednosti na več parametrih. Manjši kot je standardni odklon ekipe za vsakega od predstavljenih parametrov, bolj predvidljiv je rezultat ekipe; takšne ekipe so uravnotežene. Na drugi strani pa ekipa z dobra vrednost standardna deviacija otežuje napovedovanje rezultata, kar je razloženo z neravnovesjem, na primer močna obramba, a šibek napad.

    Uporaba standardnega odklona moštvenih parametrov omogoča v takšni ali drugačni meri predvidevanje rezultata dvoboja med dvema ekipama, oceno moči in šibke strani ukazov, zato tudi izbranih načinov boja.

    Omeniti velja, da ima ta izračun variance pomanjkljivost - izkaže se za pristranskega, tj. njo pričakovana vrednost ni enaka pravi vrednosti variance. Preberite več o tem. Hkrati pa ni vse tako slabo. Ko se velikost vzorca povečuje, se še vedno približuje svojemu teoretičnemu analogu, tj. je asimptotično nepristranska. Zato pri delu z velike velikosti vzorcev, lahko uporabite zgornjo formulo.

    Jezik znakov je koristno prevesti v jezik besed. Izkazalo se je, da je varianca povprečni kvadrat odstopanj. To pomeni, da se najprej izračuna povprečna vrednost, nato se razlika med vsako prvotno in povprečno vrednostjo vzame, kvadrira, doda in nato deli s številom vrednosti v populaciji. Razlika med posamezno vrednostjo in povprečjem odraža mero odstopanja. Kvadrira se tako, da postanejo vsa odstopanja izključno pozitivna števila in da se izognemo medsebojnemu uničenju pozitivnih in negativnih odstopanj pri njihovem seštevanju. Nato glede na kvadrat odstopanja preprosto izračunamo aritmetično sredino. Povprečje - kvadrat - odstopanja. Odstopanja se kvadrirajo in izračuna se povprečje. Rešitev je le v treh besedah.

    Vendar pa se disperzija v svoji čisti obliki, kot je aritmetična sredina ali indeks, ne uporablja. Je bolj pomožni in vmesni indikator, ki je potreben za druge vrste statističnih analiz. Niti običajne merske enote nima. Sodeč po formuli je to kvadrat merske enote izvirnih podatkov. Brez steklenice, kot pravijo, ne morete ugotoviti.

    (modul 111)

    Da bi varianco vrnili v realnost, torej jo uporabili za bolj vsakdanje namene, se iz nje izvleče kvadratni koren. Izkazalo se je tako imenovano standardni odklon (RMS). Obstajajo imena "standardna deviacija" ali "sigma" (iz imena grške črke). Formula standardnega odklona je:

    Za pridobitev tega indikatorja za vzorec uporabite formulo:

    Tako kot pri varianci obstaja nekoliko drugačna možnost izračuna. Ko pa vzorec raste, razlika izgine.

    Standardni odklon seveda označuje tudi mero razpršenosti podatkov, vendar ga je zdaj (za razliko od razpršenosti) mogoče primerjati z izvirnimi podatki, saj imajo enake merske enote (to je jasno iz formule za izračun). Toda ta indikator v svoji čisti obliki ni zelo informativen, saj vsebuje preveč vmesnih izračunov, ki povzročajo zmedo (odklon, kvadrat, vsota, povprečje, koren). Vendar pa je že mogoče delati neposredno s standardnim odklonom, ker so lastnosti tega indikatorja dobro proučene in znane. Na primer, obstaja to pravilo treh sigm, ki navaja, da ima podatek 997 vrednosti od 1000 znotraj ±3 sigme aritmetične sredine. Standardni odklon kot merilo negotovosti je prav tako vključen v številne statistične izračune. Z njegovo pomočjo se določi stopnja točnosti različnih ocen in napovedi. Če je variacija zelo velika, bo velik tudi standardni odklon, zato bo napoved netočna, kar se bo izrazilo na primer v zelo širokih intervalih zaupanja.

    Koeficient variacije

    Standardni odklon daje absolutno oceno mere disperzije. Zato je za razumevanje, kako velik je razpon glede na same vrednosti (tj. ne glede na njihovo lestvico), potreben relativni indikator. Ta indikator se imenuje koeficient variacije in se izračuna po naslednji formuli:

    Koeficient variacije se meri v odstotkih (če se pomnoži s 100 %). S tem indikatorjem lahko primerjate različne pojave, ne glede na njihov obseg in merske enote. To dejstvo zaradi česar je koeficient variacije tako priljubljen.

    V statistiki velja, da če je vrednost koeficienta variacije manjša od 33%, se populacija šteje za homogeno; če je večja od 33%, potem je heterogena. Tukaj težko kar koli komentiram. Ne vem, kdo je to definiral in zakaj, vendar velja za aksiom.

    Čutim, da me zanese suhoparna teorija in moram prinesti nekaj vizualnega in figurativnega. Po drugi strani pa vsi kazalniki variacije opisujejo približno isto stvar, le da so izračunani drugače. Zato je težko pokazati različne primere, razlikujejo se lahko le vrednosti kazalnikov, ne pa tudi njihovo bistvo. Primerjajmo torej, kako se vrednosti različnih kazalnikov variacije razlikujejo za isti nabor podatkov. Vzemimo primer izračuna povprečnega linearnega odstopanja (od ). Tukaj so izvorni podatki:

    In urnik, ki vas bo spomnil.

    Z uporabo teh podatkov izračunamo različni indikatorji variacije.

    Povprečna vrednost je običajna aritmetična sredina.

    Razpon variacije je razlika med največjo in najmanjšo vrednostjo:

    Povprečno linearno odstopanje se izračuna po formuli:

    Standardni odklon:

    Povzemimo izračun v tabelo.

    Kot je razvidno, dajeta linearna sredina in standardni odklon podobne vrednosti za stopnjo variacije podatkov. Varianca je sigma kvadrat, zato bo vedno relativna veliko število, kar pa pravzaprav ne pomeni nič. Razpon variacije je razlika med skrajnimi vrednostmi in lahko veliko pove.

    Povzemimo nekaj rezultatov.

    Variacija indikatorja odraža spremenljivost procesa ali pojava. Njegovo stopnjo je mogoče izmeriti z več kazalniki.

    1. Razpon variacije - razlika med maksimumom in minimumom. Odraža obseg možne vrednosti.
    2. Povprečno linearno odstopanje – odraža povprečje absolutnih (modulo) odstopanj vseh vrednosti analizirane populacije od njihove povprečne vrednosti.
    3. Disperzija - povprečni kvadrat odstopanj.
    4. Standardni odklon je koren disperzije (povprečni kvadrat odklonov).
    5. Koeficient variacije je najbolj univerzalen indikator, ki odraža stopnjo razpršenosti vrednosti, ne glede na njihovo lestvico in merske enote. Koeficient variacije se meri v odstotkih in se lahko uporablja za primerjavo variacije različnih procesov in pojavov.

    Tako v Statistična analiza obstaja sistem kazalnikov, ki odražajo homogenost pojavov in stabilnost procesov. Indikatorji variacije pogosto nimajo samostojnega pomena in se uporabljajo za nadaljnjo analizo podatkov (izračun intervalov zaupanja).