Semnificația statistică a diferențelor dintre eșantioane. Studiul populației generale și al eșantionului. Semnificație statistică

Nivelul de semnificație în statistică este indicator important, reflectând gradul de încredere în acuratețea și adevărul datelor primite (prevăzute). Conceptul este utilizat pe scară largă în diverse domenii: de la dirijat cercetare sociologică, înainte de testarea statistică a ipotezelor științifice.

Definiție

Nivel semnificație statistică(sau rezultat semnificativ statistic) arată care este probabilitatea unei apariții aleatorii a indicatorilor studiați. Semnificația statistică generală a unui fenomen este exprimată prin coeficientul valorii p (nivelul p). În orice experiment sau observație, există posibilitatea ca datele obținute să se fi datorat erorilor de eșantionare. Acest lucru este valabil mai ales pentru sociologie.

Adică, o valoare semnificativă statistic este o valoare a cărei probabilitate de apariție aleatorie este extrem de mică sau tinde la extrem. Extrema în acest context este gradul în care statisticile se abat de la ipoteza nulă (o ipoteză care este testată pentru coerența cu datele eșantionului obținut). În practica științifică, nivelul de semnificație este selectat înainte de colectarea datelor și, de regulă, coeficientul acestuia este de 0,05 (5%). Pentru sistemele în care valorile precise sunt extrem de importante, această cifră poate fi de 0,01 (1%) sau mai mică.

fundal

Conceptul de nivel de semnificație a fost introdus de statisticianul și geneticianul britanic Ronald Fisher în 1925, când dezvolta o tehnică de testare a ipotezelor statistice. Când se analizează orice proces, există o anumită probabilitate pentru anumite fenomene. Dificultățile apar atunci când se lucrează cu procente mici (sau nu evidente) de probabilități care se încadrează sub conceptul de „eroare de măsurare”.

Atunci când lucrează cu date statistice care nu sunt suficient de specifice pentru a le testa, oamenii de știință se confruntă cu problema ipotezei nule, care „împiedecă” operarea cu cantități mici. Fisher a propus ca astfel de sisteme să determine probabilitatea evenimentelor la 5% (0,05) ca o reducere de eșantionare convenabilă, permițând să respingă ipoteza nulă în calcule.

Introducerea cotelor fixe

În 1933 Oamenii de știință Jerzy Neyman și Egon Pearson în lucrările lor au recomandat stabilirea unui anumit nivel de semnificație în avans (înainte de colectarea datelor). Exemple de utilizare a acestor reguli sunt clar vizibile în timpul alegerilor. Să presupunem că sunt doi candidați, dintre care unul este foarte popular, iar celălalt este puțin cunoscut. Este evident că primul candidat va câștiga alegerile, iar șansele celui de-al doilea tind la zero. Ei se străduiesc – dar nu sunt egali: există întotdeauna posibilitatea de forță majoră, informații senzaționale, decizii neașteptate care pot schimba rezultatele alegerilor prezise.

Neyman și Pearson au fost de acord că nivelul de semnificație al lui Fisher de 0,05 (notat cu α) este cel mai potrivit. Cu toate acestea, Fischer însuși în 1956 s-a opus fixării acestei valori. El credea că nivelul α ar trebui stabilit în funcție de circumstanțe specifice. De exemplu, în fizica particulelor este 0,01.

valoarea p-level

Termenul de valoare p a fost folosit pentru prima dată de Brownlee în 1960. Nivelul P (valoarea p) este un indicator care este invers legat de adevărul rezultatelor. Cel mai mare coeficient de valoare p corespunde celui mai scăzut nivel de încredere în relația eșantionată dintre variabile.

Această valoare reflectă probabilitatea erorilor asociate cu interpretarea rezultatelor. Să presupunem p-level = 0,05 (1/20). Arată o probabilitate de cinci procente ca relația dintre variabilele găsite în eșantion să fie doar o caracteristică aleatorie a eșantionului. Adică, dacă această dependență este absentă, atunci cu experimente similare repetate, în medie, în fiecare al douăzecilea studiu se poate aștepta la aceeași dependență sau mai mare între variabile. Nivelul p este adesea văzut ca o „marjă” pentru rata de eroare.

Apropo, valoarea p poate să nu reflecte relația reală dintre variabile, ci arată doar o anumită valoare medie în cadrul ipotezelor. În special, analiza finală a datelor va depinde și de valorile selectate ale acestui coeficient. La p-level = 0,05 vor fi unele rezultate, iar la un coeficient egal cu 0,01 vor fi rezultate diferite.

Testarea ipotezelor statistice

Nivelul de semnificație statistică este deosebit de important atunci când se testează ipoteze. De exemplu, atunci când se calculează un test cu două fețe, regiunea de respingere este împărțită în mod egal la ambele capete ale distribuției de eșantionare (față de coordonatele zero) și se calculează adevărul datelor rezultate.

Să presupunem că, la monitorizarea unui anumit proces (fenomen), s-a dovedit că noi informații statistice indică mici modificări raportat la valorile anterioare. În același timp, discrepanțele în rezultate sunt mici, nu evidente, dar importante pentru studiu. Specialistul se confruntă cu o dilemă: au loc într-adevăr schimbări sau sunt aceste erori de eșantionare (inecizie de măsurare)?

În acest caz, ei folosesc sau resping ipoteza nulă (atribuie totul unei erori sau recunosc schimbarea din sistem ca un fapt împlinit). Procesul de rezolvare a problemelor se bazează pe raportul dintre semnificația statistică generală (valoarea p) și nivelul de semnificație (α). Dacă nivelul p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valori folosite

Nivelul de semnificație depinde de materialul analizat. În practică, se folosesc următoarele valori fixe:

  • a = 0,1 (sau 10%);
  • a = 0,05 (sau 5%);
  • a = 0,01 (sau 1%);
  • α = 0,001 (sau 0,1%).

Cu cât sunt necesare calculele mai precise, cu atât coeficientul α este mai mic. Desigur, prognozele statistice din fizică, chimie, farmaceutică și genetică necesită o precizie mai mare decât în ​​știința politică și sociologie.

Praguri de semnificație în anumite zone

În domenii de înaltă precizie, cum ar fi fizica particulelor și producția, semnificația statistică este adesea exprimată ca raportul abaterii standard (notat cu coeficientul sigma - σ) față de o distribuție normală de probabilitate (distribuția Gauss). σ este un indicator statistic care determină dispersia valorilor unei anumite cantități relativ la așteptări matematice. Folosit pentru a reprezenta grafic probabilitatea evenimentelor.

În funcție de domeniul de cunoaștere, coeficientul σ variază foarte mult. De exemplu, atunci când se prezice existența bosonului Higgs, parametrul σ este egal cu cinci (σ = 5), ceea ce corespunde valorii p = 1/3,5 milioane În studiile genomului, nivelul de semnificație poate fi 5 × 10 - 8, ceea ce nu este neobișnuit pentru aceste zone.

Eficienţă

Trebuie avut în vedere faptul că coeficienții α și p-valoarea nu sunt caracteristici exacte. Oricare ar fi nivelul de semnificație în statistica fenomenului studiat, nu este o bază necondiționată pentru acceptarea ipotezei. De exemplu, decât valoare mai micăα, cu atât este mai mare șansa ca ipoteza care se stabilește să fie semnificativă. Cu toate acestea, există riscul de eroare, care reduce puterea statistică (semnificația) studiului.

Cercetătorii care se concentrează exclusiv pe rezultate semnificative din punct de vedere statistic pot ajunge la concluzii eronate. În același timp, este dificil să-și verifice munca, deoarece aceștia aplică ipoteze (care sunt de fapt valorile α și p). Prin urmare, se recomandă întotdeauna, împreună cu calcularea semnificației statistice, să se determine un alt indicator - amploarea efectului statistic. Mărimea efectului este o măsură cantitativă a puterii unui efect.

Principalele caracteristici ale oricărei relații între variabile.

Putem observa cele mai simple două proprietăți ale relației dintre variabile: (a) mărimea relației și (b) fiabilitatea relației.

- Magnitudinea . Mărimea dependenței este mai ușor de înțeles și de măsurat decât fiabilitatea. De exemplu, dacă orice bărbat din eșantion a avut o valoare a numărului de globule albe (WCC) mai mare decât orice femeie, atunci puteți spune că relația dintre cele două variabile (Sex și WCC) este foarte mare. Cu alte cuvinte, ai putea prezice valorile unei variabile din valorile alteia.

- Fiabilitate ("adevăr"). Fiabilitatea interdependenței este un concept mai puțin intuitiv decât amploarea dependenței, dar este extrem de importantă. Fiabilitatea relației este direct legată de reprezentativitatea unui anumit eșantion pe baza căruia se trag concluziile. Cu alte cuvinte, fiabilitatea se referă la cât de probabil este ca o relație să fie redescoperită (cu alte cuvinte, confirmată) folosind date dintr-un alt eșantion extras din aceeași populație.

Trebuie amintit că scopul final nu este aproape niciodată studierea acestui eșantion special de valori; un eşantion prezintă interes numai în măsura în care oferă informaţii despre întreaga populaţie. Dacă studiul îndeplinește anumite criterii specifice, atunci fiabilitatea relațiilor găsite între variabilele eșantionului poate fi cuantificată și prezentată folosind o măsură statistică standard.

Mărimea dependenței și a fiabilității reprezintă două diverse caracteristici dependențe între variabile. Cu toate acestea, nu se poate spune că sunt complet independenți. Cu cât amploarea relației (conexiunii) dintre variabilele dintr-un eșantion de mărime normală este mai mare, cu atât este mai fiabilă (vezi secțiunea următoare).

Semnificația statistică a unui rezultat (p-level) este o măsură estimată a încrederii în „adevărul” acestuia (în sensul „reprezentativității eșantionului”). Mai tehnic vorbind, nivelul p este o măsură care variază în ordin descrescător de mărime odată cu fiabilitatea rezultatului. Mai mult p-nivel ridicat corespunde mai mult nivel scăzutîncrederea în relația dintre variabilele găsite în eșantion. Și anume, nivelul p reprezintă probabilitatea de eroare asociată cu distribuția rezultatului observat la întreaga populație.

De exemplu, p-level = 0,05(adică 1/20) indică faptul că există o șansă de 5% ca relația dintre variabilele găsite în eșantion să fie doar o caracteristică aleatorie a eșantionului. În multe studii, un nivel p de 0,05 este considerat o „marjă acceptabilă” pentru nivelul de eroare.

Nu există nicio modalitate de a evita arbitrariul în a decide ce nivel de semnificație ar trebui cu adevărat considerat „semnificativ”. Alegerea unui anumit nivel de semnificație peste care rezultatele sunt respinse ca false este destul de arbitrară.



La practică decizia finala depinde de obicei dacă rezultatul a fost prezis a priori (adică înainte de efectuarea experimentului) sau descoperit a posteriori ca urmare a multor analize și comparații efectuate pe o varietate de date, precum și pe tradiția domeniului de studiu.

În general, în multe domenii, un rezultat de p .05 este o limită acceptabilă pentru semnificația statistică, dar rețineți că acest nivel include încă o marjă de eroare destul de mare (5%).

Rezultatele semnificative la nivelul p .01 sunt în general considerate semnificative statistic, în timp ce rezultatele la nivelul p .005 sau p .00 sunt considerate în general semnificative statistic. 001 ca fiind extrem de semnificativ. Cu toate acestea, trebuie înțeles că această clasificare a nivelurilor de semnificație este destul de arbitrară și este doar un acord informal adoptat pe baza experienței practice. într-un anumit domeniu de studiu.

Este clar că ce număr mai mare se vor efectua analize pe totalitatea datelor colectate, cu atât numărul rezultatelor semnificative (la nivelul selectat) va fi descoperit pur întâmplător.

Unele metode statistice care implică multe comparații, și astfel au șanse semnificative de a repeta aceste tipuri de erori, fac o ajustare sau o corecție specială pentru numărul total comparatii. Cu toate acestea, multe metode statistice (în special metode simple analiza exploratorie a datelor) nu oferă nicio modalitate de a rezolva această problemă.

Dacă relația dintre variabile este „obiectiv” slabă, atunci nu există altă modalitate de a testa o astfel de relație decât studierea unui eșantion mare. Chiar dacă eșantionul este perfect reprezentativ, efectul nu va fi semnificativ statistic dacă eșantionul este mic. La fel, dacă o relație este „obiectiv” foarte puternică, atunci ea poate fi detectată cu un grad ridicat de semnificație chiar și într-un eșantion foarte mic.

Cu cât relația dintre variabile este mai slabă, cu atât este mai mare dimensiunea eșantionului necesară pentru a o detecta în mod semnificativ.

Multe diferite măsuri de relație între variabile. Alegerea unei anumite măsuri într-un anumit studiu depinde de numărul de variabile, de scalele de măsurare utilizate, de natura relațiilor etc.

Cu toate acestea, majoritatea acestor măsuri sunt supuse principiu general: Ei încearcă să estimeze dependența observată comparând-o cu „dependența maximă imaginabilă” dintre variabilele luate în considerare. Din punct de vedere tehnic, modalitatea obișnuită de a face astfel de estimări este să ne uităm la modul în care variază valorile variabilelor și apoi să calculați cât de mult din variația totală prezentă poate fi explicată prin prezența unei variații „comune” („comunite”) în două (sau mai multe) variabile.

Semnificația depinde în principal de dimensiunea eșantionului. După cum sa explicat deja, în eșantioanele foarte mari chiar și relațiile foarte slabe dintre variabile vor fi semnificative, în timp ce în eșantioanele mici chiar și relațiile foarte puternice nu sunt de încredere.

Astfel, pentru a determina nivelul de semnificație statistică este necesară o funcție care să reprezinte relația dintre „magnitudinea” și „semnificația” relației dintre variabile pentru fiecare dimensiune a eșantionului.

O astfel de funcție ar indica exact „cât de probabil este să se obțină o dependență de o valoare dată (sau mai mult) într-un eșantion de o dimensiune dată, presupunând că nu există o astfel de dependență în populație”. Cu alte cuvinte, această funcție ar da un nivel de semnificație
(p-level) și, prin urmare, probabilitatea de a respinge în mod eronat ipoteza absenței acestei dependențe în populație.

Această ipoteză „alternativă” (că nu există nicio relație în populație) este de obicei numită ipoteza nulă.

Ideal ar fi dacă funcția care calculează probabilitatea de eroare ar fi liniară și ar avea pante diferite doar pentru diferite dimensiuni ale eșantionului. Din păcate, această funcție este mult mai complexă și nu este întotdeauna exact aceeași. Cu toate acestea, în majoritatea cazurilor, forma sa este cunoscută și poate fi utilizată pentru a determina niveluri de semnificație în studiile de eșantioane de o anumită dimensiune. Majoritatea acestor funcții sunt asociate cu o clasă de distribuții numită normal .

Sarcina 3. Cinci preșcolari primesc un test. Timpul necesar pentru rezolvarea fiecărei sarcini este înregistrat. Se vor găsi diferențe semnificative statistic între momentul rezolvării primilor trei itemi de test?

Nr de subiecte

Material de referinta

Această sarcină se bazează pe teoria analizei varianței. În general, sarcina analizei varianței este de a identifica acei factori care au un impact semnificativ asupra rezultatului experimentului. Analiza varianței poate fi utilizată pentru a compara mediile mai multor eșantioane dacă există mai mult de două eșantioane. În acest scop, este utilizată analiza unidirecțională a varianței.

Pentru rezolvarea sarcinilor atribuite se acceptă următoarele. Dacă variațiile valorilor obținute ale parametrului de optimizare în cazul influenței factorilor diferă de variațiile rezultatelor în absența influenței factorilor, atunci un astfel de factor este considerat semnificativ.

După cum se poate observa din formularea problemei, aici sunt utilizate metode de testare a ipotezelor statistice, și anume sarcina de a testa două varianțe empirice. Prin urmare, analiza varianței se bazează pe testarea variațiilor folosind testul lui Fisher. În această sarcină, este necesar să se verifice dacă diferențele dintre timpul rezolvării primelor trei sarcini de testare de către fiecare dintre cei șase preșcolari sunt semnificative statistic.

Ipoteza nulă (principală) se numește ipoteza propusă H o. Esența lui e se rezumă la ipoteza că diferența dintre parametrii comparați este zero (de unde și numele ipotezei - zero) și că diferențele observate sunt aleatorii.

O ipoteză concurentă (alternativă) se numește H1, ceea ce contrazice ipoteza nulă.

Soluţie:

Folosind metoda analizei varianței la un nivel de semnificație de α = 0,05, vom testa ipoteza nulă (H o) despre existența unor diferențe semnificative statistic între momentul rezolvării primelor trei sarcini de testare pentru șase preșcolari.

Să ne uităm la tabelul cu condițiile sarcinii, în care vom găsi timpul mediu pentru a rezolva fiecare dintre cele trei sarcini de testare

Nr de subiecte

Nivelurile factorilor

Timpul pentru a rezolva prima sarcină de testare (în secunde).

Timpul pentru a rezolva a doua sarcină de testare (în secunde).

Timpul pentru a rezolva a treia sarcină de testare (în secunde).

Media grupului

Găsirea mediei generale:

Pentru a ține cont de semnificația diferențelor de timp în fiecare test, varianța totală a eșantionului este împărțită în două părți, prima fiind numită factorială, iar a doua - reziduală.

Să calculăm suma totală a abaterilor pătrate de la media generală folosind formula

sau , unde p este numărul de măsurători de timp pentru rezolvarea sarcinilor de testare, q este numărul de participanți la testare. Pentru a face acest lucru, să creăm un tabel de pătrate

Nr de subiecte

Nivelurile factorilor

Timpul pentru a rezolva prima sarcină de testare (în secunde).

Timpul pentru a rezolva a doua sarcină de testare (în secunde).

Timpul pentru a rezolva a treia sarcină de testare (în secunde).

Ce crezi că face „cealaltă jumătate” a ta specială și semnificativă? Are legătură cu personalitatea ei sau cu sentimentele tale pe care le ai pentru această persoană? Sau poate cu simplu fapt că ipoteza despre caracterul aleatoriu al simpatiei tale, după cum arată studiile, are o probabilitate mai mică de 5%? Dacă considerăm că ultima afirmație este de încredere, atunci site-urile de întâlniri de succes nu ar exista în principiu:

Atunci când efectuați testări separate sau orice altă analiză a site-ului dvs., neînțelegerea „semnificației statistice” poate duce la interpretarea greșită a rezultatelor și, prin urmare, la acțiuni incorecte în procesul de optimizare a conversiilor. Acest lucru este valabil pentru miile de alte teste statistice efectuate în fiecare zi în fiecare industrie existentă.

Pentru a înțelege ce este „semnificația statistică”, trebuie să vă scufundați în istoria termenului, să aflați adevăratul său sens și să înțelegeți cum această „nouă” înțelegere veche vă va ajuta să interpretați corect rezultatele cercetării dumneavoastră.

Puțină istorie

Deși omenirea folosește statistica pentru a rezolva diverse probleme timp de multe secole, înțelegerea modernă a semnificației statistice, testarea ipotezelor, randomizarea și chiar Design of Experiments (DOE) a început să prindă contur abia la începutul secolului al XX-lea și este indisolubil legată de numele lui Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher a fost un biolog și statistician evoluționist care avea o pasiune deosebită pentru studiul evoluției și selecției naturale în regnurile animal și vegetal. De-a lungul ilustrei sale cariere, a dezvoltat și popularizat multe instrumente statistice utile pe care le folosim și astăzi.

Fisher a folosit tehnicile pe care le-a dezvoltat pentru a explica procese din biologie, cum ar fi dominanța, mutațiile și deviațiile genetice. Putem folosi aceleași instrumente astăzi pentru a optimiza și îmbunătăți conținutul resurselor web. Faptul că aceste instrumente de analiză pot fi folosite pentru a lucra cu obiecte care nici măcar nu existau la momentul creării lor pare destul de surprinzător. La fel de surprinzător ca înainte calcule complexe oamenii s-au descurcat fără calculatoare sau calculatoare.

Pentru a descrie rezultatele unui experiment statistic ca având o mare probabilitate de a fi adevărate, Fisher a folosit cuvântul „semnificație”.

De asemenea, una dintre cele mai interesante dezvoltări ale lui Fisher poate fi numită ipoteza „fiului sexy”. Conform acestei teorii, femeile preferă bărbații promiscui sexual (promiscui), deoarece acest lucru va permite fiilor născuți din acești bărbați să aibă aceeași predispoziție și să producă mai mulți descendenți (rețineți că aceasta este doar o teorie).

Dar nimeni, chiar și oamenii de știință geniali, nu este imun de a face greșeli. Defectele lui Fisher încă îi afectează pe specialiști până în prezent. Dar amintiți-vă cuvintele lui Albert Einstein: „Cine nu a greșit niciodată nu a creat nimic nou”.

Înainte de a trece la următorul punct, rețineți: semnificația statistică este atunci când diferența dintre rezultatele testelor este atât de mare încât diferența nu poate fi explicată prin factori aleatori.

Care este ipoteza ta?

Pentru a înțelege ce înseamnă „semnificație statistică”, trebuie mai întâi să înțelegeți ce este „testarea ipotezei”, deoarece cei doi termeni sunt strâns legați.
O ipoteză este doar o teorie. Odată ce ați dezvoltat o teorie, va trebui să stabiliți un proces pentru a colecta suficiente dovezi și pentru a colecta efectiv acele dovezi. Există două tipuri de ipoteze.

Mere sau portocale - care este mai bine?

Ipoteza nulă

De regulă, aici mulți oameni se confruntă cu dificultăți. Un lucru de reținut este că o ipoteză nulă nu este ceva ce trebuie dovedit, așa cum demonstrezi că o anumită modificare pe un site web va duce la o creștere a conversiilor, ci invers. Ipoteza nulă este o teorie care afirmă că dacă faci vreo modificare a site-ului, nu se va întâmpla nimic. Iar scopul cercetătorului este să infirme această teorie, nu să o demonstreze.

Dacă ne uităm la experiența soluționării infracțiunilor, unde anchetatorii formează și ipoteze cu privire la cine este infractorul, ipoteza nulă ia forma așa-numitei prezumții de nevinovăție, concept conform căruia acuzatul este prezumat nevinovat până la proba vinovăției. într-o instanță de judecată.

Dacă ipoteza nulă este că două obiecte sunt egale în proprietățile lor și încercați să demonstrați că unul este mai bun (de exemplu, A este mai bun decât B), trebuie să respingeți ipoteza nulă în favoarea alternativei. De exemplu, comparați unul sau altul instrument de optimizare a conversiilor. În ipoteza nulă, ambele au același efect (sau nici un efect) asupra țintei. În mod alternativ, efectul unuia dintre ele este mai bun.

Ipoteza dvs. alternativă poate conține o valoare numerică, cum ar fi B - A > 20%. În acest caz, ipoteza nulă și alternativa pot lua următoarea formă:

Un alt nume pentru o ipoteză alternativă este o ipoteză de cercetare, deoarece cercetătorul este întotdeauna interesat să demonstreze această ipoteză particulară.

Semnificația statistică și valoarea p

Să revenim din nou la Ronald Fisher și la conceptul său de semnificație statistică.

Acum că aveți o ipoteză nulă și o alternativă, cum puteți demonstra una și infirma pe cealaltă?

Deoarece statisticile, prin însăși natura lor, implică studiul unei anumite populații (eșantion), nu poți fi niciodată 100% sigur de rezultatele obținute. Un bun exemplu: rezultatele alegerilor diferă adesea de rezultatele sondajelor preliminare și chiar ale grupurilor de ieșire.

Dr. Fisher a vrut să creeze o linie de demarcație care să vă permită să știți dacă experimentul dvs. a fost un succes sau nu. Așa a apărut indicele de fiabilitate. Credibilitatea este nivelul pe care îl luăm pentru a spune ceea ce considerăm „semnificativ” și ceea ce nu. Dacă „p”, indicele de semnificație, este de 0,05 sau mai puțin, atunci rezultatele sunt de încredere.

Nu vă faceți griji, de fapt nu este atât de confuz pe cât pare.

Distribuția de probabilitate gaussiană. De-a lungul marginilor sunt valorile mai puțin probabile ale variabilei, în centru sunt cele mai probabile. Scorul P (zona umbrită în verde) este probabilitatea ca rezultatul observat să apară întâmplător.

Distribuția normală de probabilitate (distribuția Gauss) este o reprezentare a tuturor valori posibile o anumită variabilă de pe grafic (în figura de mai sus) și frecvențele acestora. Dacă faci cercetările corect și apoi trasezi toate răspunsurile pe un grafic, vei obține exact această distribuție. Conform distribuției normale, veți primi un procent mare de răspunsuri similare, iar opțiunile rămase vor fi situate la marginile graficului (așa-numitele „cozi”). Această distribuție a valorilor se găsește adesea în natură, motiv pentru care este numită „normală”.

Folosind o ecuație bazată pe eșantionul și rezultatele testelor, puteți calcula ceea ce se numește „statistică de testare”, care va indica cât de mult se abate rezultatele dvs. De asemenea, vă va spune cât de aproape sunteți ca ipoteza nulă să fie adevărată.

Pentru a vă ajuta să vă înțelegeți, utilizați calculatoare online pentru a calcula semnificația statistică:

Un exemplu de astfel de calculatoare

Litera „p” reprezintă probabilitatea ca ipoteza nulă să fie adevărată. Dacă numărul este mic, va indica o diferență între grupurile de testare, în timp ce ipoteza nulă ar fi că acestea sunt aceleași. Grafic, va părea că statistica dvs. de testare va fi mai aproape de una dintre cozile distribuției dvs. în formă de clopot.

Dr. Fisher a decis să stabilească pragul de semnificație la p ≤ 0,05. Cu toate acestea, această afirmație este controversată, deoarece duce la două dificultăți:

1. În primul rând, faptul că ați dovedit că ipoteza nulă este falsă nu înseamnă că ați dovedit ipoteza alternativă. Toată această semnificație înseamnă doar că nu poți dovedi nici A, nici B.

2. În al doilea rând, dacă scorul p este 0,049, va însemna că probabilitatea ipotezei nule va fi de 4,9%. Acest lucru poate însemna că rezultatele testelor dvs. pot fi atât adevărate, cât și false în același timp.

Puteți folosi p-score-ul sau îl puteți abandona, dar atunci veți avea nevoie de fiecare caz special Calculați probabilitatea ca ipoteza nulă să fie adevărată și decideți dacă este suficient de mare pentru a vă împiedica să faceți modificările planificate și testate.

Cel mai comun scenariu pentru efectuarea unui test statistic astăzi este stabilirea unui prag de semnificație de p ≤ 0,05 înainte de a rula testul în sine. Asigurați-vă că vă uitați îndeaproape la valoarea p atunci când verificați rezultatele.

Erori 1 și 2

A trecut atât de mult timp încât erorile care pot apărea atunci când se utilizează metrica semnificației statistice au primit chiar propriile nume.

Erori de tip 1

După cum sa menționat mai sus, o valoare p de 0,05 înseamnă că există o șansă de 5% ca ipoteza nulă să fie adevărată. Dacă nu o faceți, veți face greșeala numărul 1. Rezultatele spun că noul dvs. site web v-a crescut ratele de conversie, dar există o șansă de 5% să nu fie așa.

Erori de tip 2

Această eroare este opusul erorii 1: acceptați ipoteza nulă atunci când este falsă. De exemplu, rezultatele testelor vă spun că modificările aduse site-ului nu au adus îmbunătățiri, în timp ce au existat modificări. Ca urmare, pierzi ocazia de a-ți îmbunătăți performanța.

Această eroare este frecventă în testele cu o dimensiune insuficientă a eșantionului, așa că rețineți: cu cât eșantionul este mai mare, cu atât rezultatul este mai fiabil.

Concluzie

Poate că niciun termen nu este la fel de popular printre cercetători ca semnificația statistică. Atunci când rezultatele testelor nu sunt considerate semnificative din punct de vedere statistic, consecințele variază de la o creștere a ratelor de conversie până la prăbușirea unei companii.

Și din moment ce specialiștii în marketing folosesc acest termen atunci când își optimizează resursele, trebuie să știi ce înseamnă cu adevărat. Condițiile de testare pot varia, dar dimensiunea eșantionului și criteriile de succes sunt întotdeauna importante. Tine minte asta.

Semnificația statistică sau nivelul p de semnificație este principalul rezultat al testului

ipoteza statistica. Vorbitor limbaj tehnic, este probabilitatea de a primi un dat

rezultatul unui studiu prin eșantion, cu condiția ca de fapt pentru general

În total, ipoteza statistică nulă este adevărată - adică nu există nicio legătură. Cu alte cuvinte, asta

probabilitatea ca relația detectată să fie aleatorie și nu o proprietate

totalitate. Este semnificația statistică, nivelul p de semnificație, adică

evaluare cantitativă fiabilitatea comunicării: cu cât această probabilitate este mai mică, cu atât conexiunea este mai fiabilă.

Să presupunem că, la compararea a două medii de eșantion, s-a obținut o valoare de nivel

semnificație statistică p=0,05. Aceasta înseamnă că testarea ipotezei statistice despre

egalitatea de mijloace în populație a arătat că dacă este adevărat, atunci probabilitatea

Apariția aleatorie a diferențelor detectate nu este mai mare de 5%. Cu alte cuvinte, dacă

două probe au fost extrase în mod repetat din aceeași populație, apoi în 1 din

20 de cazuri ar dezvălui aceeași diferență sau mai mare între mediile acestor eșantioane.

Adică există o șansă de 5% ca diferențele găsite să se datoreze întâmplării.

caracter și nu sunt o proprietate a agregatului.

Într-o relație ipoteza stiintifica nivelul de semnificație statistică este unul cantitativ

un indicator al gradului de neîncredere în concluzia despre existența unei legături, calculat din rezultate

testarea selectivă, empirică a acestei ipoteze. Cu cât valoarea p-level este mai mică, cu atât este mai mare

semnificația statistică a unui rezultat al cercetării care confirmă o ipoteză științifică.

Este util să știm ce influențează nivelul de semnificație. Nivel de semnificație, toate celelalte lucruri fiind egale

condițiile sunt mai mari (valoarea nivelului p este mai mică) dacă:

Mărimea conexiunii (diferența) este mai mare;

Variabilitatea trăsăturii (trăsăturii) este mai mică;

Dimensiunea(ele) eșantionului este mai mare.

Unilateral Teste de semnificație bilaterală

Dacă scopul studiului este de a identifica diferențele în parametrii a doi generali

agregate care corespund diferitelor sale condiții naturale ( conditii de viata,

vârsta subiecților etc.), atunci nu se știe adesea care dintre acești parametri va fi mai mare și

Care este mai mic?

De exemplu, dacă sunteți interesat de variabilitatea rezultatelor într-un test și

grupuri experimentale, atunci, de regulă, nu există încredere în semnul diferenței de varianțe sau

abateri standard rezultate din care se evaluează variabilitatea. În acest caz

ipoteza nulă este că varianțele sunt egale, iar scopul studiului este

demonstra contrariul, adică. prezența diferențelor între varianțe. Este permis ca

diferența poate fi de orice semn. Astfel de ipoteze se numesc cu două fețe.

Dar uneori provocarea este de a dovedi o creștere sau o scădere a unui parametru;

de exemplu, rezultatul mediu în grupul experimental este mai mare decât în ​​grupul martor. în care

Nu mai este permis ca diferența să fie de alt semn. Astfel de ipoteze se numesc

Unilateral.

Se numesc teste de semnificație utilizate pentru a testa ipotezele cu două fețe

Face-verso, iar pentru unilateral - unilateral.

Se pune întrebarea ce criteriu trebuie ales într-un caz dat. Răspuns

Această întrebare este dincolo de formală metode statistice si complet

Depinde de scopurile studiului. În niciun caz nu trebuie să alegeți unul sau altul criteriu după

Efectuarea unui experiment bazat pe analiza datelor experimentale, după caz

Duce la concluzii incorecte. Dacă, înainte de a efectua un experiment, se presupune că diferența

Parametrii comparați pot fi fie pozitivi, fie negativi, atunci ar trebui