Statistička značajnost razlika između uzoraka. Studija opće populacije i uzorka. Statistička značajnost

Razina značajnosti u statistici je važan pokazatelj, odražavajući stupanj povjerenja u točnost i istinitost primljenih (predviđenih) podataka. Koncept se široko koristi u raznim područjima: od dirigiranja sociološka istraživanja, prije statističkog testiranja znanstvenih hipoteza.

Definicija

Razina statistička značajnost(ili statistički značajan rezultat) pokazuje kolika je vjerojatnost slučajnog pojavljivanja proučavanih pokazatelja. Ukupna statistička značajnost neke pojave izražava se koeficijentom p-vrijednosti (p-razina). U svakom pokusu ili promatranju postoji mogućnost da su dobiveni podaci rezultat pogrešaka uzorkovanja. To posebno vrijedi za sociologiju.

Odnosno, statistički značajna vrijednost je vrijednost čija je vjerojatnost slučajnog pojavljivanja izrazito mala ili teži ekstremu. Ekstrem u ovom kontekstu je stupanj do kojeg statistika odstupa od nulte hipoteze (hipoteze čija se dosljednost testira s dobivenim uzorkom podataka). U znanstvenoj praksi razina značajnosti odabire se prije prikupljanja podataka i u pravilu je njezin koeficijent 0,05 (5%). Za sustave gdje su precizne vrijednosti izuzetno važne, ova brojka može biti 0,01 (1%) ili manje.

Pozadina

Koncept razine značajnosti uveo je britanski statističar i genetičar Ronald Fisher 1925. godine, kada je razvijao tehniku za testiranje statističkih hipoteza. Pri analizi bilo kojeg procesa postoji određena vjerojatnost određenih pojava. Poteškoće nastaju pri radu s malim (ili neočitim) postocima vjerojatnosti koji potpadaju pod koncept "pogreške mjerenja".

U radu sa statističkim podacima koji nisu dovoljno specifični da bi ih mogli testirati, znanstvenici se suočavaju s problemom nulte hipoteze koja “onemogućuje” operiranje s malim količinama. Fisher je za takve sustave predložio određivanje vjerojatnosti događaja na 5% (0,05) kao pogodan rez uzorkovanja, dopuštajući odbacivanje nulte hipoteze u izračunima.

Uvođenje fiksnih tečajeva

Godine 1933 Jerzy znanstvenici Neyman i Egon Pearson u svojim su radovima preporučili postavljanje određene razine značajnosti unaprijed (prije prikupljanja podataka). Primjeri korištenja ovih pravila jasno su vidljivi tijekom izbora. Recimo, postoje dva kandidata, od kojih je jedan vrlo popularan, a drugi malo poznat. Očito je da će na izborima pobijediti prvi kandidat, a šanse drugoga teže nuli. Trude se – ali nisu jednaki: uvijek postoji mogućnost više sile, senzacionalnih informacija, neočekivanih odluka koje mogu promijeniti predviđene rezultate izbora.

Neyman i Pearson su se složili da je Fisherova razina značajnosti od 0,05 (označena s α) najprikladnija. Međutim, sam Fischer 1956. usprotivio se fiksiranju te vrijednosti. Smatrao je da se razina α treba postaviti prema specifičnim okolnostima. Na primjer, u fizici čestica to je 0,01.

vrijednost p-razine

Pojam p-vrijednost prvi je upotrijebio Brownlee 1960. P-razina (p-vrijednost) je pokazatelj koji je obrnuto proporcionalan istinitosti rezultata. Najviši koeficijent p-vrijednosti odgovara najnižoj razini pouzdanosti u uzorkovani odnos između varijabli.

Ova vrijednost odražava vjerojatnost pogrešaka povezanih s tumačenjem rezultata. Pretpostavimo da je p-razina = 0,05 (1/20). Pokazuje vjerojatnost od pet posto da je odnos između varijabli pronađenih u uzorku samo slučajna značajka uzorka. Odnosno, ako te ovisnosti nema, onda se kod ponovljenih sličnih eksperimenata, u prosjeku, u svakom dvadesetom istraživanju može očekivati ista ili veća ovisnost između varijabli. P-razina se često smatra "marginom" za stopu pogreške.

Usput, p-vrijednost možda ne odražava stvarni odnos između varijabli, već samo pokazuje određenu prosječnu vrijednost unutar pretpostavki. Konkretno, konačna analiza podataka također će ovisiti o odabranim vrijednostima ovog koeficijenta. Na p-razini = 0,05 bit će nekih rezultata, a na koeficijentu jednakom 0,01 bit će drugačijih rezultata.

Testiranje statističkih hipoteza

Razina statističke značajnosti posebno je važna kod testiranja hipoteza. Na primjer, kada se izračunava dvostrani test, područje odbijanja jednako se dijeli na oba kraja distribucije uzorkovanja (u odnosu na nultu koordinatu) i izračunava se istinitost dobivenih podataka.

Pretpostavimo da se prilikom praćenja određenog procesa (pojave) pokazalo da nove statističke informacije ukazuju male promjene u odnosu na prethodne vrijednosti. Istodobno, odstupanja u rezultatima su mala, nisu očita, ali važna za studiju. Specijalist je suočen s dilemom: događaju li se doista promjene ili se radi o pogrešci uzorkovanja (netočnosti mjerenja)?

U tom slučaju koriste ili odbacuju nultu hipotezu (sve pripisuju pogrešci ili promjenu u sustavu prepoznaju kao svršenu činjenicu). Proces rješavanja problema temelji se na omjeru ukupne statističke značajnosti (p-vrijednosti) i razine značajnosti (α). Ako je p-razina< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Korištene vrijednosti

Razina značajnosti ovisi o materijalu koji se analizira. U praksi se koriste sljedeće fiksne vrijednosti:

α = 0,1 (ili 10%);
α = 0,05 (ili 5%);
α = 0,01 (ili 1%);
α = 0,001 (ili 0,1%).

Što su točniji izračuni potrebni, to se niži koeficijent α koristi. Naravno, statističke prognoze u fizici, kemiji, farmaciji i genetici zahtijevaju veću točnost nego u političkim znanostima i sociologiji.

Pragovi značajnosti u određenim područjima

U područjima visoke preciznosti kao što su fizika čestica i proizvodnja, statistička se značajnost često izražava kao omjer standardne devijacije (označene sigma koeficijentom - σ) u odnosu na normalnu distribuciju vjerojatnosti (Gaussova distribucija). σ je statistički pokazatelj koji određuje disperziju vrijednosti određene veličine u odnosu na matematička očekivanja. Koristi se za iscrtavanje vjerojatnosti događaja.

Ovisno o području znanja, koeficijent σ jako varira. Na primjer, kada se predviđa postojanje Higgsovog bozona, parametar σ jednak je pet (σ = 5), što odgovara p-vrijednosti = 1/3,5 milijuna. U studijama genoma, razina značajnosti može biti 5 × 10 - 8, što nije neuobičajeno za ove krajeve.

Učinkovitost

Mora se uzeti u obzir da koeficijenti α i p-vrijednost nisu egzaktne karakteristike. Bez obzira na razinu značajnosti u statistici fenomena koji se proučava, to nije bezuvjetna osnova za prihvaćanje hipoteze. Na primjer, nego manje vrijednostiα, veća je vjerojatnost da je postavljena hipoteza značajna. Međutim, postoji rizik od pogreške, što smanjuje statističku snagu (značajnost) studije.

Istraživači koji se usredotočuju isključivo na statistički značajne rezultate mogu doći do pogrešnih zaključaka. U isto vrijeme, teško je još jednom provjeriti njihov rad, budući da primjenjuju pretpostavke (koje su zapravo α i p-vrijednosti). Stoga se uvijek preporuča, uz izračunavanje statističke značajnosti, odrediti još jedan pokazatelj - veličinu statističkog učinka. Veličina učinka je kvantitativna mjera snage učinka.

Glavna obilježja svakog odnosa između varijabli.

Možemo uočiti dva najjednostavnija svojstva odnosa između varijabli: (a) veličinu odnosa i (b) pouzdanost odnosa.

- Veličina . Veličinu ovisnosti lakše je razumjeti i izmjeriti nego pouzdanost. Na primjer, ako bilo koji muškarac u uzorku ima višu vrijednost broja bijelih krvnih stanica (WCC) od bilo koje žene, tada možete reći da je odnos između dvije varijable (spol i WCC) vrlo visok. Drugim riječima, možete predvidjeti vrijednosti jedne varijable iz vrijednosti druge.

- Pouzdanost ("istina"). Pouzdanost međuovisnosti manje je intuitivan koncept od veličine ovisnosti, ali je izuzetno važan. Pouzdanost odnosa izravno je povezana s reprezentativnošću određenog uzorka na temelju kojeg se donose zaključci. Drugim riječima, pouzdanost se odnosi na to kolika je vjerojatnost da će odnos biti ponovno otkriven (drugim riječima, potvrđen) korištenjem podataka iz drugog uzorka iz iste populacije.

Treba imati na umu da krajnji cilj gotovo nikada nije proučavanje ovog određenog uzorka vrijednosti; uzorak je od interesa samo utoliko što pruža informacije o cjelokupnoj populaciji. Ako studija zadovoljava određene specifične kriterije, tada se pouzdanost pronađenih odnosa između varijabli uzorka može kvantificirati i prikazati korištenjem standardne statističke mjere.

Veličina ovisnosti i pouzdanost predstavljaju dvije razne karakteristike ovisnosti između varijabli. Međutim, ne može se reći da su potpuno neovisni. Što je veća veličina odnosa (povezanosti) između varijabli u uzorku normalne veličine, to je on pouzdaniji (vidi sljedeći odjeljak).

Statistička značajnost rezultata (p-razina) procijenjena je mjera povjerenja u njegovu “istinitost” (u smislu “reprezentativnosti uzorka”). Tehnički govoreći, p-razina je mjera koja varira u opadajućem redu veličine s pouzdanošću rezultata. Više visoka p-razina više odgovara niska razina povjerenje u odnos između varijabli pronađenih u uzorku. Naime, p-razina predstavlja vjerojatnost pogreške povezanu s distribucijom promatranog rezultata na cjelokupnu populaciju.

Na primjer, p-razina = 0,05(tj. 1/20) označava da postoji 5% šanse da je odnos između varijabli pronađenih u uzorku samo slučajna značajka uzorka. U mnogim studijama, p-razina od 0,05 smatra se "prihvatljivom marginom" za razinu pogreške.

Ne postoji način da se izbjegne proizvoljnost u odlučivanju koja se razina značaja doista treba smatrati "značajnom". Odabir određene razine značajnosti iznad koje se rezultati odbacuju kao lažni prilično je proizvoljan.

Na praksi konačna odluka obično ovisi o tome je li rezultat bio predviđen a priori (tj. prije nego što je pokus proveden) ili je otkriven a posteriori kao rezultat mnogih analiza i usporedbi izvedenih na različitim podacima, kao i o tradiciji polja proučavanja.

Općenito, u mnogim poljima, rezultat od p 0,05 je prihvatljiva granična vrijednost za statističku značajnost, ali imajte na umu da ova razina još uvijek uključuje prilično veliku marginu pogreške (5%).

Rezultati značajni na razini p .01 općenito se smatraju statistički značajnima, dok se rezultati na razini p .005 ili p .00 općenito smatraju statistički značajnima. 001 kao vrlo značajan. Međutim, treba imati na umu da je ova klasifikacija razina značajnosti prilično proizvoljna i samo je neformalni dogovor usvojen na temelju praktičnog iskustva u određenom području studija.

Jasno je da što veći broj analize će se provoditi na ukupnosti prikupljenih podataka, što će veći broj značajnih (na odabranoj razini) rezultata biti otkriven čisto slučajno.

Neke statističke metode koje uključuju mnoge usporedbe i stoga imaju značajnu vjerojatnost ponavljanja ove vrste pogrešaka, vrše posebne prilagodbe ili ispravke za ukupni broj usporedbe. Međutim, mnoge statističke metode (osobito jednostavne metode istraživačka analiza podataka) ne nude nikakav način rješavanja ovog problema.

Ako je odnos između varijabli “objektivno” slab, onda ne postoji drugi način testiranja takvog odnosa osim proučavanja velikog uzorka. Čak i ako je uzorak savršeno reprezentativan, učinak neće biti statistički značajan ako je uzorak malen. Isto tako, ako je odnos “objektivno” vrlo jak, tada se može otkriti s visokim stupnjem značajnosti čak iu vrlo malom uzorku.

Što je slabiji odnos između varijabli, to je veća veličina uzorka potrebna da bi se to smisleno otkrilo.

Mnogo različitih mjere odnosa između varijabli. Odabir određene mjere u određenoj studiji ovisi o broju varijabli, korištenim mjernim ljestvicama, prirodi odnosa itd.

Većina tih mjera, međutim, podliježe opći princip: Pokušavaju procijeniti opaženu ovisnost uspoređujući je s "maksimalnom zamislivom ovisnošću" između varijabli koje se razmatraju. Tehnički govoreći, uobičajeni način za izradu takvih procjena je promatranje kako vrijednosti varijabli variraju i zatim izračunavanje koliki se dio ukupne prisutne varijacije može objasniti prisutnošću "zajedničke" ("zajedničke") varijacije u dvije (ili više) varijabli.

Značajnost uglavnom ovisi o veličini uzorka. Kao što je već objašnjeno, u vrlo velikim uzorcima čak će i vrlo slabi odnosi između varijabli biti značajni, dok u malim uzorcima čak ni vrlo jaki odnosi nisu pouzdani.

Dakle, da bi se odredila razina statističke značajnosti, potrebna je funkcija koja predstavlja odnos između "veličine" i "značajnosti" odnosa između varijabli za svaku veličinu uzorka.

Takva bi funkcija pokazala točno "koliko je vjerojatno da će se dobiti ovisnost zadane vrijednosti (ili više) u uzorku zadane veličine, pod pretpostavkom da ne postoji takva ovisnost u populaciji." Drugim riječima, ova bi funkcija dala razinu značajnosti
(p-razina), a time i vjerojatnost pogrešnog odbacivanja pretpostavke o nepostojanju ove ovisnosti u populaciji.

Ova "alternativna" hipoteza (da ne postoji odnos u populaciji) obično se naziva Nulta hipoteza.

Bilo bi idealno kada bi funkcija koja izračunava vjerojatnost pogreške bila linearna i imala različite nagibe samo za različite veličine uzorka. Nažalost, ova funkcija je mnogo složenija i nije uvijek potpuno ista. Međutim, u većini slučajeva njegov je oblik poznat i može se koristiti za određivanje razina značajnosti u studijama uzoraka određene veličine. Većina ovih funkcija povezana je s klasom distribucija tzv normalan .

Zadatak 3. Pet predškolaca polaže se na test. Bilježi se vrijeme potrebno za rješavanje svakog zadatka. Hoće li biti utvrđene statistički značajne razlike između vremena rješavanja prva tri testa?

Broj predmeta

Referentni materijal

Ovaj se zadatak temelji na teoriji analize varijance. Općenito, zadatak analize varijance je identificirati one čimbenike koji imaju značajan utjecaj na rezultat eksperimenta. Analiza varijance može se koristiti za usporedbu srednjih vrijednosti nekoliko uzoraka ako postoji više od dva uzorka. U tu svrhu koristi se jednosmjerna analiza varijance.

U svrhu rješavanja postavljenih zadataka prihvaća se slijedeće. Ako se varijance dobivenih vrijednosti parametra optimizacije u slučaju utjecaja čimbenika razlikuju od varijanci rezultata u odsutnosti utjecaja čimbenika, tada se takav faktor smatra značajnim.

Kao što je vidljivo iz formulacije problema, ovdje se koriste metode za provjeru statističkih hipoteza, odnosno zadatak testiranja dviju empirijskih varijanci. Stoga se analiza varijance temelji na testiranju varijanci Fisherovim testom. U ovom zadatku potrebno je provjeriti jesu li razlike u vremenu rješavanja prva tri ispitna zadatka kod svakog od šestero predškolaca statistički značajne.

Nulta (glavna) hipoteza naziva se postavljena hipoteza H o. Bit e svodi se na pretpostavku da je razlika između uspoređivanih parametara jednaka nuli (odatle i naziv hipoteze - nula) i da su promatrane razlike slučajne.

Konkurentska (alternativna) hipoteza naziva se H1, što je u suprotnosti s nultom hipotezom.

Riješenje:

Metodom analize varijance na razini značajnosti α = 0,05 testirat ćemo nultu hipotezu (H o) o postojanju statistički značajnih razlika između vremena rješavanja prva tri testna zadatka za šestero djece predškolske dobi.

Pogledajmo tablicu uvjeta zadataka u kojoj ćemo pronaći prosječno vrijeme rješavanja svakog od tri ispitna zadatka

Broj predmeta	Razine faktora
Broj predmeta	Vrijeme rješavanja prvog testnog zadatka (u sekundama).	Vrijeme rješavanja drugog testnog zadatka (u sekundama).	Vrijeme rješavanja trećeg ispitnog zadatka (u sekundama).






Grupni prosjek

Određivanje ukupnog prosjeka:

Kako bi se uzela u obzir značajnost vremenskih razlika u svakom testu, ukupna varijanca uzorka podijeljena je u dva dijela, od kojih se prvi naziva faktorijelom, a drugi rezidualom.

Izračunajmo ukupan zbroj kvadrata odstupanja od ukupnog prosjeka pomoću formule

ili , gdje je p broj mjerenja vremena za rješavanje testnih zadataka, q broj ispitanika. Da bismo to učinili, napravimo tablicu kvadrata

Broj predmeta	Razine faktora
Broj predmeta	Vrijeme rješavanja prvog testnog zadatka (u sekundama).	Vrijeme rješavanja drugog testnog zadatka (u sekundama).	Vrijeme rješavanja trećeg ispitnog zadatka (u sekundama).

Što mislite da vašu "drugu polovicu" čini posebnom i značajnom? Je li to povezano s njezinom/njegovom osobnošću ili s vašim osjećajima koje imate prema toj osobi? Ili možda sa jednostavna činjenica da hipoteza o slučajnosti vaše simpatije, kako pokazuju studije, ima vjerojatnost manju od 5%? Ako posljednju izjavu smatramo pouzdanom, uspješne stranice za upoznavanje ne bi postojale u načelu:

Kada provodite split testiranje ili bilo koju drugu analizu svoje web stranice, nerazumijevanje "statističke značajnosti" može dovesti do pogrešnog tumačenja rezultata i, stoga, netočnih radnji u procesu optimizacije konverzije. To vrijedi za tisuće drugih statističkih testova koji se izvode svaki dan u svakoj postojećoj industriji.

Da biste razumjeli što je "statistička značajnost", trebate uroniti u povijest pojma, naučiti njegovo pravo značenje i razumjeti kako će vam ovo "novo" staro razumijevanje pomoći da ispravno protumačite rezultate vašeg istraživanja.

Malo povijesti

Iako se čovječanstvo stoljećima služi statistikom za rješavanje raznih problema, moderno shvaćanje statističke značajnosti, testiranja hipoteza, randomizacije pa čak i dizajna eksperimenata (DOE) počelo se oblikovati tek početkom 20. stoljeća i neraskidivo je povezano s ime Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher bio je evolucijski biolog i statističar koji je imao posebnu strast za proučavanje evolucije i prirodne selekcije u životinjskim i biljnim carstvima. Tijekom svoje slavne karijere razvio je i popularizirao mnoge korisne statističke alate koje i danas koristimo.

Fisher je koristio tehnike koje je razvio kako bi objasnio procese u biologiji kao što su dominacija, mutacije i genetske devijacije. Danas možemo koristiti iste alate za optimizaciju i poboljšanje sadržaja web izvora. Čini se prilično iznenađujućom činjenica da se ovi alati za analizu mogu koristiti za rad s objektima koji nisu ni postojali u vrijeme njihova nastanka. Jednako iznenađujuće kao i prije složene kalkulacije ljudi su izvodili bez kalkulatora ili računala.

Kako bi opisao rezultate statističkog eksperimenta kao one za koje postoji velika vjerojatnost da su istiniti, Fisher je upotrijebio riječ "značajnost".

Također, jedan od Fisherovih najzanimljivijih razvoja može se nazvati hipotezom o "seksi sinu". Prema ovoj teoriji, žene preferiraju seksualno promiskuitetne muškarce (promiskuitetne) jer će to omogućiti sinovima rođenim od tih muškaraca da imaju iste predispozicije i daju više potomaka (napominjemo da je ovo samo teorija).

Ali nitko, čak ni briljantni znanstvenici, nije imun na pogreške. Fisherove mane i dan danas muče stručnjake. Ali zapamtite riječi Alberta Einsteina: "Tko nikada nije pogriješio, nikada nije stvorio ništa novo."

Prije nego prijeđete na sljedeću točku, upamtite: statistička značajnost je kada je razlika u rezultatima testa toliko velika da se razlika ne može objasniti slučajnim faktorima.

Koja je vaša hipoteza?

Da biste razumjeli što znači "statistička značajnost", prvo morate razumjeti što je "testiranje hipoteza", budući da su ta dva pojma usko isprepletena.
Hipoteza je samo teorija. Nakon što ste razvili teoriju, morat ćete uspostaviti postupak za prikupljanje dovoljno dokaza i stvarno prikupljanje tih dokaza. Postoje dvije vrste hipoteza.

Jabuke ili naranče - što je bolje?

Nulta hipoteza

U pravilu, tu mnogi ljudi imaju poteškoća. Jedna stvar koju treba imati na umu je da nulta hipoteza nije nešto što treba dokazati, kao što dokazujete da će određena promjena na web stranici dovesti do povećanja broja konverzija, već obrnuto. Nulta hipoteza je teorija koja tvrdi da se ništa neće dogoditi ako napravite bilo kakve promjene na web mjestu. A cilj istraživača je opovrgnuti ovu teoriju, a ne dokazati je.

Ako pogledamo iskustvo rješavanja zločina, gdje istražitelji također postavljaju hipoteze o tome tko je zločinac, nulta hipoteza poprima oblik tzv. presumpcije nevinosti, koncepta prema kojem se optuženik smatra nevinim dok se ne dokaže krivnja na sudu.

Ako je nulta hipoteza da su dva objekta jednaka u svojim svojstvima, a vi pokušavate dokazati da je jedan bolji (na primjer, A je bolji od B), morate odbaciti nultu hipotezu u korist alternative. Na primjer, uspoređujete jedan ili drugi alat za optimizaciju pretvorbe. U nultoj hipotezi, oboje imaju isti učinak (ili nemaju učinak) na metu. U suprotnom, učinak jednog od njih je bolji.

Vaša alternativna hipoteza može sadržavati numeričku vrijednost, kao što je B - A > 20%. U ovom slučaju, nulta hipoteza i alternativa mogu imati sljedeći oblik:

Drugi naziv za alternativnu hipotezu je istraživačka hipoteza jer je istraživač uvijek zainteresiran za dokazivanje ove određene hipoteze.

Statistička značajnost i p vrijednost

Vratimo se ponovno Ronaldu Fisheru i njegovom konceptu statističke značajnosti.

Sada kada imate nultu hipotezu i alternativu, kako možete dokazati jednu i opovrgnuti drugu?

Budući da statistika po svojoj prirodi uključuje proučavanje određene populacije (uzorka), nikada ne možete biti 100% sigurni u dobivene rezultate. Dobar primjer: izborni rezultati često se razlikuju od rezultata preliminarnih anketa, pa čak i izlaznih anketa.

Dr. Fisher želio je stvoriti liniju razdvajanja koja bi vam pokazala je li vaš eksperiment bio uspješan ili ne. Tako se pojavio indeks pouzdanosti. Vjerodostojnost je razina koju zauzimamo kako bismo rekli što smatramo "značajnim", a što ne. Ako je "p", indeks značajnosti, 0,05 ili manji, tada su rezultati pouzdani.

Ne brinite, zapravo nije tako zbunjujuće kao što se čini.

Gaussova distribucija vjerojatnosti. Uz rubove su manje vjerojatne vrijednosti varijable, u sredini su najvjerojatnije. P-rezultat (zeleno osjenčano područje) je vjerojatnost da se promatrani ishod dogodi slučajno.

Normalna distribucija vjerojatnosti (Gaussova distribucija) je prikaz svega moguće vrijednosti određene varijable na grafu (na gornjoj slici) i njihove frekvencije. Ako ispravno istražite i zatim sve svoje odgovore iscrtate na grafikonu, dobit ćete upravo ovu distribuciju. Prema normalnoj distribuciji, dobit ćete veliki postotak sličnih odgovora, a preostale opcije će se nalaziti na rubovima grafikona (tzv. “repovi”). Ovakva raspodjela vrijednosti često se nalazi u prirodi, zbog čega se naziva "normalna".

Koristeći jednadžbu temeljenu na vašem uzorku i rezultatima testa, možete izračunati ono što se naziva "test statistika", koja će pokazati koliko vaši rezultati odstupaju. Također će vam reći koliko ste blizu istinitosti nulte hipoteze.

Da biste lakše shvatili, upotrijebite mrežne kalkulatore za izračun statističke značajnosti:

Jedan primjer takvih kalkulatora

Slovo "p" predstavlja vjerojatnost da je nulta hipoteza istinita. Ako je broj mali, to će ukazivati na razliku između ispitnih skupina, dok bi nulta hipoteza bila da su iste. Grafički, izgledat će kao da će vaša testna statistika biti bliža jednom od repova vaše zvonolike distribucije.

Dr. Fisher je odlučio postaviti prag značajnosti na p ≤ 0,05. Međutim, ova izjava je kontroverzna, jer dovodi do dvije poteškoće:

1. Prvo, činjenica da ste dokazali da je nulta hipoteza pogrešna ne znači da ste dokazali alternativnu hipotezu. Sav ovaj značaj samo znači da ne možete dokazati ni A ni B.

2. Drugo, ako je p-rezultat 0,049, to će značiti da će vjerojatnost nulte hipoteze biti 4,9%. To može značiti da rezultati vašeg testa mogu biti i istiniti i lažni u isto vrijeme.

Možete koristiti p-ocjenu ili je možete napustiti, ali tada će vam trebati svaki poseban slučaj Izračunajte vjerojatnost da je nulta hipoteza istinita i odlučite je li dovoljno velika da vas spriječi u izvršenju promjena koje ste planirali i testirali.

Najčešći scenarij za provođenje statističkog testa danas je postavljanje praga značajnosti od p ≤ 0,05 prije izvođenja samog testa. Samo pazite da pažljivo pogledate p-vrijednost kada provjeravate svoje rezultate.

Pogreške 1 i 2

Prošlo je toliko vremena da su pogreške koje se mogu pojaviti pri korištenju metrike statističke značajnosti dobile čak i vlastita imena.

Pogreške tipa 1

Kao što je gore spomenuto, p-vrijednost od 0,05 znači da postoji 5% šanse da je nulta hipoteza istinita. Ako to ne učinite, činit ćete pogrešku broj 1. Rezultati govore da je vaša nova web stranica povećala stopu konverzije, ali postoji 5% šanse da nije.

Pogreške tipa 2

Ova je pogreška suprotna pogrešci 1: prihvaćate nultu hipotezu kada je netočna. Na primjer, rezultati testiranja vam govore da promjene napravljene na stranici nisu donijele nikakva poboljšanja, dok je promjena bilo. Kao rezultat toga, propuštate priliku poboljšati svoju izvedbu.

Ova je pogreška uobičajena u testovima s nedovoljnom veličinom uzorka, pa zapamtite: što je veći uzorak, to je rezultat pouzdaniji.

Zaključak

Možda niti jedan pojam nije tako popularan među istraživačima kao statistička značajnost. Kada se rezultati ispitivanja ne pokažu statistički značajnim, posljedice se kreću od povećanja stope konverzije do propasti poduzeća.

A budući da trgovci koriste ovaj izraz kada optimiziraju svoje resurse, morate znati što on zapravo znači. Uvjeti ispitivanja mogu varirati, ali veličina uzorka i kriteriji uspjeha uvijek su važni. Zapamtite ovo.

Statistička značajnost ili p-razina značajnosti glavni je rezultat testa

statistička hipoteza. govoreći tehnički jezik, je vjerojatnost primanja danog

rezultat uzorka studije, pod uvjetom da zapravo za opće

Sve u svemu, nulta statistička hipoteza je točna - to jest, nema veze. Drugim riječima, ovo

vjerojatnost da je otkriveni odnos slučajan, a ne svojstvo

totalitet. To je statistička značajnost, p-razina značajnosti, tj

kvantitativna procjena pouzdanost komunikacije: što je ova vjerojatnost niža, to je veza pouzdanija.

Pretpostavimo da je pri usporedbi dviju srednjih vrijednosti uzorka dobivena vrijednost razine

statistička značajnost p=0,05. To znači da testiranje statističke hipoteze o

jednakost sredstava u populaciji pokazala je da ako je istina, tada je vjerojatnost

Slučajna pojava otkrivenih razlika nije veća od 5%. Drugim riječima, ako

dva su uzorka više puta izvučena iz iste populacije, a zatim u 1 od

20 slučajeva otkrilo bi istu ili veću razliku između srednjih vrijednosti ovih uzoraka.

To jest, postoji 5% šanse da su pronađene razlike rezultat slučajnosti.

karakter, a nisu svojstvo agregata.

U vezi znanstvena hipoteza razina statističke značajnosti je kvantitativna

pokazatelj stupnja nepovjerenja u zaključak o postojanju veze, izračunat iz rezultata

selektivno, empirijsko testiranje ove hipoteze. Što je niža vrijednost p-razine, to je veća

statistička značajnost rezultata istraživanja koji potvrđuje znanstvenu hipotezu.

Korisno je znati što utječe na razinu značajnosti. Razina značaja, ako su sve ostale stvari jednake

uvjeti su viši (vrijednost p-razine je niža) ako:

Veličina veze (razlike) je veća;

Varijabilnost svojstva(a) je manja;

Veličina(e) uzorka je veća.

Jednostrano Dvostrani testovi značajnosti

Ako je svrha studije identificirati razlike u parametrima dva opća

agregati koji odgovaraju njegovim različitim prirodnim uvjetima ( životni uvjeti,

dob ispitanika itd.), tada se često ne zna koji će od ovih parametara biti veći, te

Koji je manji?

Na primjer, ako vas zanima varijabilnost rezultata u testu i

eksperimentalne skupine, tada u pravilu nema povjerenja u predznak razlike varijanci odn.

standardne devijacije rezultati iz kojih se procjenjuje varijabilnost. U ovom slučaju

nulta hipoteza je da su varijance jednake, a svrha studije je

dokazati suprotno, tj. prisutnost razlika između varijanci. Dopušteno je da

razlika može biti bilo kojeg predznaka. Takve se hipoteze nazivaju dvostranim.

Ali ponekad je izazov dokazati povećanje ili smanjenje parametra;

na primjer, prosječni rezultat u eksperimentalnoj skupini viši je od kontrolne skupine. pri čemu

Više nije dopušteno da razlika može biti različitog predznaka. Takve se hipoteze nazivaju

Jednostrano.

Testovi značajnosti koji se koriste za testiranje dvostranih hipoteza nazivaju se

Dvostrano, a za jednostrano - jednostrano.

Postavlja se pitanje koji kriterij odabrati u pojedinom slučaju. Odgovor

Ovo pitanje nadilazi formalnost statističke metode i potpuno

Ovisi o ciljevima studija. Ni pod kojim okolnostima ne biste trebali odabrati jedan ili drugi kriterij nakon

Provođenje eksperimenta na temelju analize eksperimentalnih podataka, jer to može

Navesti na netočne zaključke. Ako se prije izvođenja pokusa pretpostavi da razlika

Uspoređeni parametri mogu biti pozitivni ili negativni, tada biste trebali