Štatistická významnosť rozdielov medzi vzorkami. Všeobecný populačný a výberový výskum. Štatistická spoľahlivosť

Úroveň významnosti v štatistike je dôležitým ukazovateľom, odrážajúci mieru dôvery v presnosť, pravdivosť získaných (predpovedaných) údajov. Tento koncept je široko používaný v rôznych oblastiach: od dirigovania sociologický výskum pred štatistickým testovaním vedeckých hypotéz.

Definícia

úroveň štatistická významnosť(alebo štatisticky významný výsledok) ukazuje, aká je pravdepodobnosť náhodného výskytu skúmaných ukazovateľov. Celková štatistická významnosť javu je vyjadrená koeficientom p-value (p-level). Pri akomkoľvek experimente alebo pozorovaní existuje možnosť, že získané údaje sú spôsobené chybami vo vzorke. To platí najmä pre sociológiu.

To znamená, že štatisticky významná hodnota je hodnota, ktorej pravdepodobnosť náhodného výskytu je extrémne malá alebo má tendenciu k extrému. Extrémom je v tomto kontexte miera odchýlky štatistiky od nulovej hypotézy (hypotéza, ktorá sa testuje na konzistenciu so získanými vzorovými údajmi). Vo vedeckej praxi sa hladina významnosti volí pred zberom údajov a jej koeficient je spravidla 0,05 (5 %). Pre systémy, kde sú presné hodnoty mimoriadne dôležité, môže byť toto číslo 0,01 (1 %) alebo menej.

História problému

Pojem hladiny významnosti zaviedol britský štatistik a genetik Ronald Fisher v roku 1925, keď vyvíjal metódu na testovanie štatistických hypotéz. Pri analýze procesu existuje určitá pravdepodobnosť určitých javov. Ťažkosti vznikajú pri práci s malými (alebo nie zrejmými) percentami pravdepodobností, ktoré spadajú pod pojem „chyba merania“.

Pri práci so štatistickými údajmi, ktoré nie sú dostatočne špecifické na ich testovanie, sa vedci stretávajú s problémom nulovej hypotézy, ktorá „bráni“ operovať s malými hodnotami. Fisher navrhol pre takéto systémy určiť pravdepodobnosť udalostí na 5 % (0,05) ako vhodný výber vzorky na zamietnutie nulovej hypotézy vo výpočtoch.

Zavedenie fixného koeficientu

V roku 1933 vedci Jerzy Neumann a Egon Pearson vo svojich prácach odporúčali stanoviť si vopred (ešte pred zberom dát) určitú úroveň významnosti. Príklady použitia týchto pravidiel sú jasne viditeľné počas volieb. Predpokladajme, že sú dvaja kandidáti, z ktorých jeden je veľmi populárny a druhý málo známy. Je zrejmé, že voľby vyhrá prvý kandidát a šance druhého sú takmer nulové. Snažia sa – ale nie rovní: vždy existuje možnosť vyššej moci, senzačných informácií, neočakávaných rozhodnutí, ktoré môžu zmeniť predpovedané výsledky volieb.

Neumann a Pearson sa zhodli, že Fisherova hladina významnosti 0,05 (označená symbolom α) je najvhodnejšia. Sám Fischer sa však v roku 1956 postavil proti stanoveniu tejto hodnoty. Veril, že úroveň α by mala byť nastavená podľa konkrétnych okolností. Napríklad v časticovej fyzike je to 0,01.

Hodnota P-úrovne

Termín p-hodnota prvýkrát použil Brownlee v roku 1960. P-hodnota (p-hodnota) je miera, ktorá je nepriamo úmerná pravdivosti výsledkov. Najvyššia p-hodnota zodpovedá najnižšej úrovni spoľahlivosti vo vzorke závislostí medzi premennými.

Táto hodnota odráža pravdepodobnosť chýb spojených s interpretáciou výsledkov. Predpokladajme, že p-úroveň = 0,05 (1/20). Ukazuje päťpercentnú pravdepodobnosť, že vzťah medzi premennými nájdenými vo vzorke je len náhodná vlastnosť vzorky. To znamená, že ak táto závislosť chýba, potom pri opakovaných podobných experimentoch možno v priemere v každej dvadsiatej štúdii očakávať rovnakú alebo väčšiu závislosť medzi premennými. P-úroveň sa často považuje za „prijateľnú hranicu“ chybovosti.

Mimochodom, p-hodnota nemusí odrážať skutočný vzťah medzi premennými, ale ukazuje len určitú priemernú hodnotu v rámci predpokladov. Konečná analýza údajov bude závisieť najmä od zvolených hodnôt tohto koeficientu. Na úrovni p = 0,05 budú nejaké výsledky a pri koeficiente 0,01 iné.

Testovanie štatistických hypotéz

Úroveň štatistickej významnosti je dôležitá najmä pri testovaní hypotéz. Napríklad pri výpočte obojstranného testu sa oblasť odmietnutia rozdelí rovnomerne na oba konce rozloženia vzorky (vzhľadom na nulovú súradnicu) a vypočíta sa pravdivosť získaných údajov.

Predpokladajme, že pri monitorovaní procesu (javu) sa ukázalo, že nové štatistické informácie naznačujú malé zmeny v porovnaní s predchádzajúcimi hodnotami. Zároveň sú nezrovnalosti vo výsledkoch malé, nie zrejmé, ale pre výskum dôležité. Špecialista stojí pred dilemou: dochádza k zmenám skutočne alebo ide o výberové chyby (nepresnosť merania)?

V tomto prípade sa nulová hypotéza buď aplikuje alebo zamietne (všetko sa odpíše na chybu, alebo sa zmena v systéme uzná ako hotová vec). Proces riešenia problému je založený na pomere celkovej štatistickej významnosti (p-hodnota) a hladiny významnosti (α). Ak p-úroveň< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Použité hodnoty

Úroveň významnosti závisí od analyzovaného materiálu. V praxi sa používajú tieto pevné hodnoty:

  • a = 0,1 (alebo 10 %);
  • a = 0,05 (alebo 5 %);
  • a = 0,01 (alebo 1 %);
  • a = 0,001 (alebo 0,1 %).

Čím presnejšie sú potrebné výpočty, tým menší je koeficient α. Prirodzene, štatistické prognózy vo fyzike, chémii, farmácii, genetike vyžadujú väčšiu presnosť ako v politológii a sociológii.

Hranice významnosti v špecifických oblastiach

V oblastiach s vysokou presnosťou, ako je fyzika častíc a výroba, sa štatistická významnosť často vyjadruje ako pomer štandardnej odchýlky (označenej koeficientom sigma - σ) vo vzťahu k normálnemu rozdeleniu pravdepodobnosti (Gaussovo rozdelenie). σ je štatistický ukazovateľ, ktorý určuje rozptyl hodnôt určitej veličiny vzhľadom na matematické očakávania... Používa sa na vykreslenie pravdepodobnosti udalostí.

V závislosti od oblasti vedomostí sa koeficient σ veľmi líši. Napríklad pri predpovedaní existencie Higgsovho bozónu je parameter σ päť (σ = 5), čo zodpovedá p-hodnote = 1 / 3,5 milióna V štúdiách genómu môže byť hladina významnosti 5 × 10 -8, čo nie je pre túto oblasť nezvyčajné.

Efektívnosť

Treba mať na pamäti, že koeficienty α a p-hodnota nie sú presné charakteristiky. Bez ohľadu na úroveň významnosti v štatistike skúmaného javu to nie je bezpodmienečný základ pre prijatie hypotézy. Napríklad, než menšiu hodnotuα, tým väčšia je šanca, že stanovená hypotéza je významná. Existuje však riziko chyby, ktorá znižuje štatistickú silu (významnosť) štúdie.

Výskumníci, ktorí sa zameriavajú výlučne na štatisticky významné výsledky, môžu dospieť k zavádzajúcim záverom. Zároveň je ťažké dvakrát skontrolovať ich prácu, pretože uplatňujú predpoklady (čo sú v skutočnosti hodnoty α a p). Preto sa vždy odporúča spolu s výpočtom štatistickej významnosti určiť aj ďalší ukazovateľ - veľkosť štatistického efektu. Veľkosť účinku je kvantitatívna miera sily účinku.

Hlavné črty akejkoľvek závislosti medzi premennými.

Možno si všimnúť dve z najjednoduchších vlastností vzťahu medzi premennými: (a) veľkosť vzťahu a (b) spoľahlivosť vzťahu.

- Veľkosť ... Veľkosť vzťahu sa dá ľahšie pochopiť a merať ako spoľahlivosť. Napríklad, ak mal niektorý muž vo vzorke hodnotu počtu bielych krviniek (WCC) vyššiu ako ktorákoľvek žena, potom by ste mohli povedať, že vzťah medzi týmito dvoma premennými (Pohlavie a WCC) je veľmi vysoký. Inými slovami, môžete predpovedať hodnoty jednej premennej z hodnôt inej.

- Spoľahlivosť ("pravda"). Spoľahlivosť vzájomnej závislosti je menej intuitívny pojem ako veľkosť závislosti, ale je mimoriadne dôležitá. Spoľahlivosť vzťahu priamo súvisí s reprezentatívnosťou konkrétnej vzorky, na základe ktorej sa vyvodzujú závery. Inými slovami, spoľahlivosť naznačuje, aká je pravdepodobnosť, že vzťah bude znovu objavený (inými slovami, potvrdený) na údajoch z inej vzorky odobratej z rovnakej populácie.

Malo by sa pamätať na to, že konečným cieľom takmer nikdy nie je preskúmať túto konkrétnu vzorku hodnôt; vzorka je zaujímavá len do tej miery, pokiaľ poskytuje informácie o celej populácii. Ak štúdia spĺňa niektoré špeciálne kritériá, potom možno spoľahlivosť zistených vzťahov medzi premennými vzorky kvantifikovať a prezentovať pomocou štandardného štatistického merania.

Veľkosť závislosti a spoľahlivosť sú dve rôzne vlastnosti závislosti medzi premennými. Nedá sa však povedať, že sú úplne nezávislé. Čím väčšia je hodnota vzťahu (vzťahu) medzi premennými vo vzorke bežnej veľkosti, tým je spoľahlivejšia (pozri nasledujúcu časť).

Štatistická významnosť výsledku (p-hladina) je odhadovaná miera dôvery v jeho „pravdivosť“ (v zmysle „reprezentatívnosti vzorky“). Technickejšie povedané, p-úroveň je indikátor, ktorý klesá so spoľahlivosťou výsledku. Vyššia úroveň p zodpovedá viac nízky level spoľahlivosť v závislosti medzi premennými zistenými vo vzorke. Konkrétne p-úroveň je pravdepodobnosť chyby spojenej s rozšírením pozorovaného výsledku na celú populáciu.

napr. p-hladina = 0,05(t.j. 1/20) ukazuje, že existuje 5% pravdepodobnosť, že vzťah medzi premennými nájdenými vo vzorke je len náhodným znakom danej vzorky. V mnohých štúdiách sa p-úroveň 0,05 považuje za „prijateľnú hranicu“ úrovne chyby.

Neexistuje spôsob, ako sa vyhnúť svojvôli pri rozhodovaní o tom, ktorá úroveň významnosti by sa mala skutočne považovať za „významnú“. Výber určitej hladiny významnosti, nad ktorou sú výsledky zamietnuté ako nepravdivé, je skôr svojvoľný.



Na praxi konečné rozhodnutie zvyčajne závisí od toho, či bol výsledok predpovedaný a priori (teda pred experimentom), alebo bol objavený a posteriori v dôsledku mnohých analýz a porovnaní vykonaných na veľkom počte údajov, ako aj od tradície existujúcej v danej oblasti výskumu .

V mnohých oblastiach je zvyčajne výsledok p 0,05 prijateľnou hranicou štatistickej významnosti, ale treba pamätať na to, že táto úroveň stále zahŕňa pomerne veľkú pravdepodobnosť chyby (5 %).

Výsledky významné na úrovni p 0,01 sa vo všeobecnosti považujú za štatisticky významné, zatiaľ čo výsledky s p 0,005 alebo p. 001 ako veľmi významný. Malo by sa však chápať, že táto klasifikácia hladín významnosti je dosť svojvoľná a ide len o neformálnu dohodu prijatú na základe praktických skúseností. v konkrétnej oblasti výskumu.

Je jasné, že čo viac analýzy sa budú vykonávať so súborom zozbieraných údajov, tým väčší počet významných (na zvolenej úrovni) výsledkov sa objaví čisto náhodou.

Niektoré štatistické metódy, ktoré zahŕňajú veľa porovnaní, a preto majú veľkú šancu opakovať tieto druhy chýb, vykonávajú špeciálne úpravy alebo opravy pre celkový počet prirovnania. Mnohé štatistické metódy (najmä jednoduché metódy prieskumná analýza údajov) neponúkajú žiadne riešenie tohto problému.

Ak je vzťah medzi premennými „objektívne“ slabý, potom neexistuje iný spôsob, ako takýto vzťah otestovať, ako skúmaním veľkej vzorky. Aj keď je vzorka dokonale reprezentatívna, účinok nebude štatisticky významný, ak je vzorka malá. Rovnako, ak je vzťah „objektívne“ veľmi silný, potom ho možno nájsť s vysokou mierou významnosti aj na veľmi malej vzorke.

Čím slabší je vzťah medzi premennými, tým väčšia veľkosť vzorky je potrebná na zmysluplné zistenie.

Veľa rôznych prepojenia medzi premennými. Výber konkrétnej miery v konkrétnej štúdii závisí od počtu premenných, použitých meracích škál, charakteru závislostí atď.

Väčšina z týchto opatrení však podlieha všeobecný princíp Snažia sa vyhodnotiť pozorovaný vzťah porovnaním s „maximálnym mysliteľným vzťahom“ medzi predmetnými premennými. Technicky povedané, bežným spôsobom, ako urobiť takéto odhady, je pozrieť sa na to, ako sa menia hodnoty premenných, a potom vypočítať, koľko z celkovej dostupnej variácie možno vysvetliť prítomnosťou „spoločnej“ („spoločnej“) variácie. dve (alebo viac) premenných.

Významnosť závisí najmä od veľkosti vzorky. Ako už bolo vysvetlené, vo veľmi veľkých vzorkách budú aj veľmi slabé vzťahy medzi premennými významné, zatiaľ čo v malých vzorkách nie sú spoľahlivé ani veľmi silné vzťahy.

Na určenie úrovne štatistickej významnosti je teda potrebná funkcia, ktorá by reprezentovala vzťah medzi „veľkosťou“ a „významnosťou“ vzťahu medzi premennými pre každú veľkosť vzorky.

Takáto funkcia by presne naznačovala, „aká je pravdepodobnosť získania závislosti danej hodnoty (alebo vyššej) vo vzorke danej veľkosti, za predpokladu, že takáto závislosť v populácii neexistuje.“ Inými slovami, táto funkcia by dávala úroveň významnosti
(p - úroveň), a teda pravdepodobnosť chybného odmietnutia predpokladu, že tento vzťah v populácii chýba.

Táto „alternatívna“ hypotéza (že v populácii neexistuje závislosť) sa zvyčajne nazýva nulová hypotéza.

Ideálne by bolo, keby funkcia, ktorá počíta pravdepodobnosť chyby, bola lineárna a mala len rôzne sklony pre rôzne veľkosti vzoriek. Bohužiaľ, táto funkcia je oveľa zložitejšia a nie vždy úplne rovnaká. Vo väčšine prípadov je však jeho tvar známy a možno ho použiť na určenie hladín významnosti pri skúmaní vzoriek danej veľkosti. Väčšina týchto funkcií je spojená s triedou distribúcií tzv normálne .

Úloha 3. Piati predškoláci dostanú test. Zaznamenáva sa čas na vyriešenie každej úlohy. Nájdu sa štatisticky významné rozdiely medzi časom potrebným na splnenie prvých troch položiek testu?

Počet predmetov

Referenčný materiál

Táto úloha je založená na teórii analýzy rozptylu. Vo všeobecnosti je úlohou analýzy rozptylu identifikovať tie faktory, ktoré majú významný vplyv na výsledok experimentu. ANOVA možno použiť na porovnanie priemerov viacerých vzoriek, ak je počet vzoriek väčší ako dve. Na tento účel sa používa jednosmerná analýza rozptylu.

Na vyriešenie stanovených úloh sa prijíma nasledovné. Ak sa rozptyly získaných hodnôt optimalizačného parametra v prípade vplyvu faktorov líšia od rozptylov výsledkov pri absencii vplyvu faktorov, potom sa takýto faktor považuje za významný.

Ako vyplýva z formulácie problému, využívajú sa tu metódy testovania štatistických hypotéz, a to problém testovania dvoch empirických rozptylov. V dôsledku toho je analýza rozptylu založená na kontrole rozptylov pomocou Fisherovho testu. V tejto úlohe je potrebné skontrolovať, či sú rozdiely medzi časom riešenia prvých troch úloh testu u každého zo šiestich predškolákov štatisticky významné.

Nulová (základná) hypotéza sa nazýva H ®. Podstata e sa redukuje na predpoklad, že rozdiel medzi porovnávanými parametrami je rovný nule (odtiaľ názov hypotézy - nula) a že pozorované rozdiely sú náhodné.

Konkurenčná (alternatívna) hypotéza sa nazýva hypotéza H 1, ktorá je v rozpore s nulovou.

Riešenie:

Pomocou metódy analýzy rozptylu na hladine významnosti α = 0,05 overíme nulovú hypotézu (H о) o existencii štatisticky významných rozdielov medzi časom riešenia prvých troch testových položiek u šiestich predškolákov.

Zoberme si tabuľku stavu úlohy, v ktorej nájdeme priemerný čas na vyriešenie každej z troch testovacích úloh

Počet predmetov

Úrovne faktorov

Čas na vyriešenie prvej úlohy testu (v sekundách).

Čas na vyriešenie druhej úlohy testu (v sekundách).

Čas na vyriešenie tretej úlohy testu (v sekundách).

Priemer skupiny

Nájdite celkový priemer:

Aby sa zohľadnila významnosť časových rozdielov každého testu, celkový rozptyl vzorky je rozdelený na dve časti, z ktorých prvá sa nazýva faktoriál a druhá reziduálna.

Vypočítajme celkový súčet druhých mocnín odchýlok variantu od celkového priemeru podľa vzorca

alebo , kde p je počet meraní času riešenia testových úloh, q je počet predmetov. Ak to chcete urobiť, vytvorte možnosť tabuľky štvorcov

Počet predmetov

Úrovne faktorov

Čas na vyriešenie prvej úlohy testu (v sekundách).

Čas na vyriešenie druhej úlohy testu (v sekundách).

Čas na vyriešenie tretej úlohy testu (v sekundách).

Čím je podľa vás vaša spriaznená duša výnimočná, zmysluplná? Súvisí to s jej (jeho) osobnosťou alebo s vašimi citmi, ktoré k tejto osobe chováte? Alebo možno s jednoduchý faktže hypotéza o náhodnosti vášho sympatií, ako ukazuje výskum, má menej ako 5% pravdepodobnosť? Ak sa posledné vyhlásenie považuje za spoľahlivé, úspešné zoznamky by v zásade neexistovali:

Keď robíte A / C testovanie alebo akúkoľvek inú analýzu vašej stránky, nepochopenie "štatistickej významnosti" môže viesť k nesprávnej interpretácii výsledkov, a tým k mylným predstavám v procese optimalizácie konverzie. To platí pre tisíce ďalších štatistických testov vykonávaných denne v akomkoľvek existujúcom odvetví.

Aby ste pochopili, čo je „štatistický význam“, musíte sa ponoriť do histórie vzhľadu tohto pojmu, naučiť sa jeho skutočný význam a pochopiť, ako vám toto „nové“ staré chápanie pomôže správne interpretovať výsledky vášho výskumu.

Trochu histórie

Hoci ľudstvo používa štatistiku na riešenie určitých problémov už mnoho storočí, moderné chápanie štatistickej významnosti, testovanie hypotéz, randomizácia a dokonca aj dizajn experimentov (Design of Experiments (DOE) sa začali formovať až na začiatku 20. a je neoddeliteľne spojené s menom Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher bol evolučný biológ a štatistik, ktorý mal mimoriadnu vášeň pre štúdium evolúcie a prirodzeného výberu v živočíšnej a rastlinnej ríši. Počas svojej slávnej kariéry vyvinul a spopularizoval mnoho užitočných štatistických nástrojov, ktoré používame dodnes.

Fischer použil techniky, ktoré vyvinul, na vysvetlenie procesov v biológii, ako je dominancia, mutácie a genetické abnormality. Rovnaké nástroje dnes môžeme použiť na optimalizáciu a zlepšenie obsahu webových zdrojov. Skutočnosť, že tieto analytické nástroje je možné použiť na prácu s objektmi, ktoré v čase ich vzniku ešte neexistovali, sa zdá pomerne prekvapivá. Rovnako prekvapivé je, že ľudia kedysi robili tie najzložitejšie výpočty bez kalkulačiek či počítačov.

Fisher použil slovo významnosť na opísanie výsledkov štatistického experimentu ako s vysokou pravdepodobnosťou pravdivosti.

Jeden z najzaujímavejších objavov Fischera možno nazvať hypotézou „sexy syna“. Podľa tejto teórie ženy uprednostňujú promiskuitných mužov (chôdza), pretože to umožní synom narodeným týmto mužom mať rovnakú predispozíciu a porodiť viac svojich potomkov (všimnite si, že je to len teória).

Ale nikto, dokonca ani brilantní vedci, nie je imúnny voči chybám. Fischerove nedostatky trápia špecialistov dodnes. Pamätajte však na slová Alberta Einsteina: „Kto sa nikdy nemýlil, nevytvoril nič nové.“

Skôr než prejdeme k ďalšiemu bodu, nezabudnite, že štatistická významnosť je situácia, keď je rozdiel vo výsledkoch testov taký veľký, že rozdiel nemožno vysvetliť vplyvom náhodných faktorov.

Aká je tvoja hypotéza?

Aby ste pochopili, čo znamená „štatistická významnosť“, musíte najprv pochopiť, čo je „testovanie hypotéz“, pretože tieto dva pojmy sú úzko prepojené.
Hypotéza je len teória. Keď rozviniete akúkoľvek teóriu, budete musieť zaviesť postup na zhromaždenie dostatočného množstva dôkazov a v skutočnosti tieto dôkazy zhromaždiť. Existujú dva typy hypotéz.

Jablká alebo pomaranče - čo je lepšie?

Nulová hypotéza

Spravidla práve na tomto mieste majú mnohí ťažkosti. Treba si uvedomiť, že nulová hypotéza nie je niečo, čo je potrebné dokazovať, keďže napríklad dokazujete, že určitá zmena na stránke povedie k zvýšeniu konverzií, ale naopak. Nulová hypotéza je teória, že keď na stránke urobíte nejaké zmeny, nič sa nestane. A cieľom výskumníka je túto teóriu vyvrátiť, nie dokázať.

Ak sa obrátime na skúsenosti z riešenia trestných činov, kde vyšetrovatelia predpokladajú aj to, kto je páchateľ, nulová hypotéza má podobu takzvanej prezumpcie neviny, teda konceptu, podľa ktorého sa obvinený považuje za nevinného až do dokázania viny na súde. .

Ak je nulová hypotéza, že dva objekty sú si svojimi vlastnosťami rovnaké, a vy sa snažíte dokázať, že jeden z nich je stále lepší (napríklad A je lepší ako B), musíte opustiť nulovú hypotézu v prospech alternatívy. jeden. Napríklad porovnávate jeden alebo druhý nástroj na optimalizáciu konverzie. V nulovej hypotéze majú obe rovnaký účinok na cieľ (alebo nemajú žiadny účinok). Prípadne je účinok jedného z nich lepší.

Vaša alternatívna hypotéza môže obsahovať číselnú hodnotu, napríklad B – A > 20 %. V tomto prípade môže mať nulová hypotéza a alternatíva nasledujúcu formu:

Iný názov pre alternatívnu hypotézu je prieskumná hypotéza, pretože výskumník má vždy záujem túto konkrétnu hypotézu dokázať.

Štatistická významnosť a p-hodnota

Vráťme sa k Ronaldovi Fischerovi a jeho konceptu štatistickej významnosti.

Teraz, keď máte nulovú hypotézu a alternatívnu hypotézu, ako môžete jednu dokázať a druhú vyvrátiť?

Keďže štatistiky zo svojej podstaty zahŕňajú štúdium konkrétnej populácie (vzorky), nikdy si nemôžete byť 100% istý výsledkami, ktoré dostanete. Názorný príklad: výsledky volieb sa často líšia od výsledkov predbežných prieskumov verejnej mienky a dokonca aj od výsledkov.

Dr. Fisher chcel vytvoriť deliacu čiaru, aby zistil, či bol váš experiment úspešný alebo nie. Takto sa objavil index dôvery. Dôveryhodnosť je úroveň, ktorú používame, aby sme povedali, čo považujeme za „významné“ a čo nie. Ak je "p", index spoľahlivosti, 0,05 alebo menej, potom sú výsledky spoľahlivé.

Nebojte sa, v skutočnosti to nie je také mätúce, ako to znie.

Gaussovo rozdelenie pravdepodobnosti. Na okrajoch - menej pravdepodobné hodnoty premennej, v strede - tie najpravdepodobnejšie. P-skóre (zelená podfarbená oblasť) je pravdepodobnosť, že sa pozorovaný výsledok vyskytne náhodne.

Normálne rozdelenie pravdepodobnosti (Gaussovo rozdelenie) je reprezentáciou všetkých možné hodnoty nejaká premenná na grafe (na obrázku vyššie) a ich frekvencie. Ak urobíte svoj výskum správne a potom zakreslíte všetky odpovede, ktoré dostanete, do grafu, dostanete toto rozdelenie. Podľa normálneho rozdelenia dostanete veľké percento podobných odpovedí a zvyšné možnosti sa budú nachádzať na okrajoch grafu (takzvané „chvosty“). Takéto rozloženie veličín sa často vyskytuje v prírode, preto sa nazýva „normálne“.

Použitím rovnice založenej na vzorke a výsledkoch testu môžete vypočítať takzvané „štatistiky testu“, ktoré naznačujú, do akej miery sú výsledky mimo. Tiež vám povie, ako blízko ste k tomu, aby ste splnili nulovú hypotézu.

Aby ste mali sklonenú hlavu, použite online kalkulačky štatistickej významnosti:

Jeden príklad takýchto kalkulačiek

Písmeno „p“ označuje pravdepodobnosť, že nulová hypotéza je pravdivá. Malý počet by naznačoval rozdiel medzi testovacími skupinami, zatiaľ čo nulová hypotéza by bola, že sú rovnaké. Graficky to bude vyzerať tak, že vaša testovacia štatistika je bližšie k jednému z koncov vašej distribúcie v tvare zvona.

Dr. Fisher sa rozhodol stanoviť prah spoľahlivosti výsledkov na úrovni p ≤ 0,05. Toto tvrdenie je však tiež kontroverzné, pretože vedie k dvom ťažkostiam:

1. Po prvé, skutočnosť, že ste dokázali, že nulová hypotéza je neplatná, neznamená, že ste dokázali alternatívnu hypotézu. Celý tento význam znamená, že nemôžete dokázať ani A, ani B.

2. Po druhé, p-hodnota 0,049 by znamenala, že pravdepodobnosť nulovej hypotézy by bola 4,9 %. To môže znamenať, že vaše výsledky testov môžu byť platné a zároveň chybné.

Môžete použiť p-exponent, alebo ho môžete odmietnuť, ale potom ho budete potrebovať v každom samostatný prípad vypočítajte pravdepodobnosť naplnenia nulovej hypotézy a rozhodnite, či je dostatočne veľká na to, aby ste neurobili zmeny, ktoré ste plánovali a testovali.

Najbežnejším scenárom na vykonávanie štatistického testu v súčasnosti je nastavenie prahu významnosti p ≤ 0,05 pred spustením samotného testu. Len nezabudnite pri kontrole výsledkov pozorne sledovať p-hodnotu.

Chyby 1 a 2

Je to už tak dávno, že chyby, ktoré sa môžu vyskytnúť pri použití ukazovateľa štatistickej významnosti, dostali dokonca svoje pomenovanie.

Chyba 1 (Chyby typu 1)

Ako bolo uvedené vyššie, p-hodnota 0,05 znamená, že pravdepodobnosť, že nulová hypotéza je správna, je 5 %. Ak to opustíte, urobíte chybu číslo 1. Výsledky hovoria, že vaša nová webová stránka zlepšila mieru konverzie, ale je tu 5% šanca, že to tak nie je.

Chyba 2 (chyby typu 2)

Táto chyba je opakom chyby 1: akceptujete nulovú hypotézu, kým je nepravdivá. Výsledky testov vám napríklad povedia, že vykonané zmeny na stránke nepriniesli žiadne zlepšenie, zatiaľ čo zmeny áno. Pointa je, že prichádzate o príležitosť zlepšiť svoj výkon.

Táto chyba je bežná v testoch s podvzorkovaním, takže pamätajte, že čím väčšia vzorka, tým spoľahlivejší výsledok.

Záver

Snáď žiadny iný termín medzi výskumníkmi nie je taký populárny ako štatistická významnosť. Ak sa výsledky testov nepovažujú za štatisticky významné, dôsledky môžu byť veľmi odlišné: od zvýšenia miery konverzie až po krach spoločnosti.

A keďže marketéri tento výraz používajú pri optimalizácii svojich aktív, musíte vedieť, čo to naozaj znamená. Podmienky testu sa môžu líšiť, ale veľkosť vzorky a kritériá úspešnosti sú vždy dôležité. Zapamätaj si to.

Štatistická významnosť alebo hladina p-významnosti je hlavným výsledkom testu

štatistická hypotéza. Rozprávanie technický jazyk, toto je pravdepodobnosť získania daného

výsledok vzorovej štúdie za predpokladu, že v skutočnosti pre všeobecnú

populácie, platí nulová štatistická hypotéza – to znamená, že neexistuje žiadny vzťah. Inými slovami, je

pravdepodobnosť, že objavený vzťah je náhodný a nie vlastnosť

agregát. Je to štatistická významnosť, p-hladina významnosti je

kvantifikácia spoľahlivosť komunikácie: čím je táto pravdepodobnosť menšia, tým je komunikácia spoľahlivejšia.

Predpokladajme, že pri porovnaní dvoch priemerov vzorky bola získaná hodnota hladiny

štatistická významnosť p = 0,05. To znamená, že testovanie štatistickej hypotézy o

rovnosť prostriedkov vo všeobecnej populácii ukázala, že ak je správna, tak pravdepodobnosť

náhodný výskyt zistených rozdielov nie je väčší ako 5 %. Inými slovami, ak

dve vzorky boli opakovane odobraté z rovnakej všeobecnej populácie, potom v 1 z

20 prípadov by ukázalo rovnaký alebo väčší rozdiel medzi priemermi týchto vzoriek.

To znamená, že existuje 5% šanca, že zistené rozdiely sú náhodné.

charakter a nie vlastnosť celku.

Vo vzťahu vedecká hypotéza hladina štatistickej významnosti je kvantitatívna

ukazovateľ miery nedôvery v záver o existencii súvislosti vypočítaný z výsledkov

selektívne, empirické testovanie tejto hypotézy. Čím nižšia je hodnota p-úrovne, tým vyššia

štatistickú významnosť výsledku výskumu potvrdzujúceho vedeckú hypotézu.

Je užitočné vedieť, čo ovplyvňuje úroveň významnosti. Úroveň významnosti, ceteris paribus

podmienky vyššie (hodnota na úrovni p je nižšia), ak:

Množstvo spojenia (rozdiel) je väčšie;

Variabilita znaku (znakov) je menšia;

Veľkosť vzorky (vzorky) je väčšia.

Jednostranné obojstranné testovacie kritériá významnosti

Ak je účelom štúdie identifikovať rozdiel v parametroch dvoch všeobecných

zbierky, ktoré zodpovedajú jeho rôznym prírodným podmienkam ( životné podmienky,

vek subjektov a pod.), potom sa často nevie, ktorý z týchto parametrov bude väčší a

čo je menej.

Ak vás napríklad zaujíma variabilita výsledkov pri kontrole a

experimentálnych skupín, potom spravidla neexistuje dôvera v znamienko rozdielu rozptylov resp

štandardné odchýlky výsledky, na základe ktorých sa hodnotí variabilita. V tomto prípade

nulová hypotéza je, že rozptyly sú rovnaké a cieľom štúdie je

dokázať opak, t.j. rozdiel medzi odchýlkami. Navyše sa predpokladá, že

rozdiel môže mať akékoľvek znamenie. Takéto hypotézy sa nazývajú obojstranné.

Niekedy je však výzvou dokázať zvýšenie alebo zníženie parametra;

napríklad priemerný výsledok v experimentálnej skupine je vyšší ako v kontrolnej skupine. V čom

už sa nepripúšťa, že rozdiel môže byť iného znamenia. Takéto hypotézy sa nazývajú

Jednostranné.

Testy významnosti používané na testovanie obojstranných hypotéz sú tzv

Obojstranné a pre jednostranné - jednostranné.

Vzniká otázka, ktoré z kritérií by sa malo zvoliť v tom alebo onom prípade. Odpoveď

Táto otázka je mimo formálnej roviny štatistické metódy a úplne

Závisí od cieľov štúdie. V žiadnom prípade by sa nemalo zvoliť jedno alebo druhé kritérium

Uskutočnenie experimentu založeného na analýze experimentálnych údajov, ako je to možné

Viesť k nesprávnym záverom. Ak sa pred experimentom predpokladá, že rozdiel

Porovnávané parametre môžu byť pozitívne alebo negatívne, potom to nasleduje