นัยสำคัญทางสถิติของความแตกต่างระหว่างตัวอย่าง ประชากรทั่วไปและการศึกษาตัวอย่าง นัยสำคัญทางสถิติ

ระดับนัยสำคัญทางสถิติคือ ตัวบ่งชี้ที่สำคัญสะท้อนถึงระดับความเชื่อมั่นในความถูกต้องและความจริงของข้อมูลที่ได้รับ (คาดการณ์) แนวคิดนี้ใช้กันอย่างแพร่หลายในด้านต่างๆ: จากการดำเนินการ การวิจัยทางสังคมวิทยาก่อนการทดสอบทางสถิติของสมมติฐานทางวิทยาศาสตร์

คำนิยาม

ระดับ นัยสำคัญทางสถิติ(หรือผลลัพธ์ที่มีนัยสำคัญทางสถิติ) แสดงให้เห็นว่าความน่าจะเป็นที่ตัวบ่งชี้ที่ศึกษาจะเกิดขึ้นแบบสุ่มคืออะไร นัยสำคัญทางสถิติโดยรวมของปรากฏการณ์แสดงโดยค่าสัมประสิทธิ์ค่า p (p-level) ในการทดลองหรือการสังเกตการณ์ใดๆ มีความเป็นไปได้ที่ข้อมูลที่ได้รับจะเกิดจากข้อผิดพลาดในการสุ่มตัวอย่าง นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับสังคมวิทยา

นั่นคือค่าที่มีนัยสำคัญทางสถิติคือค่าที่มีความน่าจะเป็นที่จะเกิดขึ้นแบบสุ่มมีน้อยมากหรือมีแนวโน้มที่จะรุนแรงถึงขั้นสุด สิ่งที่รุนแรงที่สุดในบริบทนี้คือระดับที่สถิติเบี่ยงเบนไปจากสมมติฐานว่าง (สมมติฐานที่ได้รับการทดสอบความสอดคล้องกับข้อมูลตัวอย่างที่ได้รับ) ในการปฏิบัติทางวิทยาศาสตร์ ระดับนัยสำคัญจะถูกเลือกก่อนการรวบรวมข้อมูล และตามกฎแล้ว ค่าสัมประสิทธิ์ของมันคือ 0.05 (5%) สำหรับระบบที่ค่าที่แม่นยำมีความสำคัญอย่างยิ่ง ตัวเลขนี้อาจมีค่าเท่ากับ 0.01 (1%) หรือน้อยกว่า

พื้นหลัง

แนวคิดเรื่องระดับนัยสำคัญได้รับการแนะนำโดยโรนัลด์ ฟิชเชอร์ นักสถิติและนักพันธุศาสตร์ชาวอังกฤษในปี 1925 เมื่อเขากำลังพัฒนาเทคนิคในการทดสอบสมมติฐานทางสถิติ เมื่อวิเคราะห์กระบวนการใด ๆ มีความน่าจะเป็นของปรากฏการณ์บางอย่าง ความยากลำบากเกิดขึ้นเมื่อทำงานกับเปอร์เซ็นต์ความน่าจะเป็นเล็กน้อย (หรือไม่ชัดเจน) ที่อยู่ภายใต้แนวคิด "ข้อผิดพลาดในการวัด"

เมื่อทำงานกับข้อมูลทางสถิติที่ไม่เฉพาะเจาะจงเพียงพอที่จะทดสอบ นักวิทยาศาสตร์ต้องเผชิญกับปัญหาสมมติฐานว่างซึ่ง "ขัดขวาง" การทำงานในปริมาณน้อย ฟิชเชอร์เสนอให้ระบบดังกล่าวกำหนดความน่าจะเป็นของเหตุการณ์ที่ 5% (0.05) เป็นการสุ่มตัวอย่างที่สะดวกซึ่งช่วยให้สามารถปฏิเสธสมมติฐานว่างในการคำนวณได้

การแนะนำอัตราต่อรองคงที่

ในปี พ.ศ. 2476 นักวิทยาศาสตร์เจอร์ซี่ Neyman และ Egon Pearson ในงานของพวกเขาแนะนำให้ตั้งค่าความสำคัญไว้ล่วงหน้า (ก่อนที่จะรวบรวมข้อมูล) ตัวอย่างการใช้กฎเหล่านี้มองเห็นได้ชัดเจนในระหว่างการเลือกตั้ง สมมติว่ามีผู้สมัครสองคน คนหนึ่งได้รับความนิยมอย่างมาก และอีกคนหนึ่งไม่ค่อยมีใครรู้จัก เห็นได้ชัดว่าผู้สมัครคนแรกจะชนะการเลือกตั้ง และโอกาสของผู้สมัครคนที่สองมีแนวโน้มเป็นศูนย์ พวกเขาพยายาม - แต่ไม่เท่าเทียมกัน: มีความเป็นไปได้ที่จะเกิดเหตุสุดวิสัย ข้อมูลที่น่าตื่นเต้น การตัดสินใจที่ไม่คาดคิดซึ่งสามารถเปลี่ยนแปลงผลการเลือกตั้งที่คาดการณ์ไว้ได้เสมอ

เนย์แมนและเพียร์สันเห็นพ้องกันว่าระดับนัยสำคัญของฟิชเชอร์ที่ 0.05 (แสดงด้วย α) มีความเหมาะสมที่สุด อย่างไรก็ตาม ฟิสเชอร์เองก็คัดค้านการแก้ไขค่านี้ในปี 1956 เขาเชื่อว่าควรตั้งค่าระดับ α ตามสถานการณ์เฉพาะ เช่น ในฟิสิกส์อนุภาคมีค่าเท่ากับ 0.01

ค่าระดับ p

คำว่า p-value ถูกใช้ครั้งแรกโดย Brownlee ในปี 1960 ระดับ P (ค่า p) เป็นตัวบ่งชี้ที่เกี่ยวข้องกับความจริงของผลลัพธ์แบบผกผัน ค่าสัมประสิทธิ์ค่า p สูงสุดสอดคล้องกับระดับความเชื่อมั่นต่ำสุดในความสัมพันธ์ตัวอย่างระหว่างตัวแปร

ค่านี้สะท้อนถึงความน่าจะเป็นของข้อผิดพลาดที่เกี่ยวข้องกับการตีความผลลัพธ์ สมมติว่าระดับ p = 0.05 (1/20) มันแสดงให้เห็นความน่าจะเป็นห้าเปอร์เซ็นต์ที่ความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่างเป็นเพียงลักษณะสุ่มของกลุ่มตัวอย่าง นั่นคือหากไม่มีการพึ่งพาอาศัยกันนี้ โดยเฉลี่ยแล้วจะมีการทดลองที่คล้ายกันซ้ำๆ ในทุก ๆ การศึกษาที่ยี่สิบ เราสามารถคาดหวังได้ว่าจะมีการพึ่งพาแบบเดียวกันหรือมากกว่าระหว่างตัวแปรต่างๆ ระดับ p มักถูกมองว่าเป็น "ระยะขอบ" สำหรับอัตราข้อผิดพลาด

อย่างไรก็ตาม ค่า p อาจไม่สะท้อนถึงความสัมพันธ์ที่แท้จริงระหว่างตัวแปร แต่แสดงเพียงค่าเฉลี่ยที่แน่นอนภายในสมมติฐานเท่านั้น โดยเฉพาะอย่างยิ่งการวิเคราะห์ข้อมูลขั้นสุดท้ายจะขึ้นอยู่กับค่าที่เลือกของสัมประสิทธิ์นี้ด้วย ที่ระดับ p = 0.05 จะได้ผลลัพธ์บางส่วน และที่ค่าสัมประสิทธิ์เท่ากับ 0.01 จะได้ผลลัพธ์ที่แตกต่างกัน

การทดสอบสมมติฐานทางสถิติ

ระดับนัยสำคัญทางสถิติมีความสำคัญอย่างยิ่งเมื่อทดสอบสมมติฐาน ตัวอย่างเช่น เมื่อคำนวณการทดสอบแบบสองด้าน พื้นที่การปฏิเสธจะถูกแบ่งเท่าๆ กันที่ปลายทั้งสองด้านของการกระจายตัวอย่าง (สัมพันธ์กับพิกัดศูนย์) และความจริงของข้อมูลผลลัพธ์จะถูกคำนวณ

สมมติว่าเมื่อตรวจสอบกระบวนการบางอย่าง (ปรากฏการณ์) ปรากฎว่าข้อมูลทางสถิติใหม่บ่งชี้ การเปลี่ยนแปลงเล็กๆ น้อยๆสัมพันธ์กับค่าก่อนหน้า ในขณะเดียวกันความคลาดเคลื่อนในผลลัพธ์ก็มีน้อย ไม่ชัดเจน แต่มีความสำคัญต่อการศึกษา ผู้เชี่ยวชาญต้องเผชิญกับภาวะที่กลืนไม่เข้าคายไม่ออก: มีการเปลี่ยนแปลงเกิดขึ้นจริงๆ หรือข้อผิดพลาดในการสุ่มตัวอย่างเหล่านี้ (ความไม่ถูกต้องในการวัด)

ในกรณีนี้ พวกเขาใช้หรือปฏิเสธสมมติฐานว่าง (ถือว่าทุกอย่างมีข้อผิดพลาด หรือรับรู้การเปลี่ยนแปลงในระบบว่าเป็นการกระทำที่ล้มเหลว) กระบวนการแก้ไขปัญหาขึ้นอยู่กับอัตราส่วนของนัยสำคัญทางสถิติโดยรวม (ค่า p) และระดับนัยสำคัญ (α) ถ้าเป็นระดับ p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

ค่านิยมที่ใช้

ระดับนัยสำคัญขึ้นอยู่กับเนื้อหาที่กำลังวิเคราะห์ ในทางปฏิบัติจะใช้ค่าคงที่ต่อไปนี้:

  • α = 0.1 (หรือ 10%);
  • α = 0.05 (หรือ 5%);
  • α = 0.01 (หรือ 1%);
  • α = 0.001 (หรือ 0.1%)

ยิ่งต้องการคำนวณที่แม่นยำยิ่งขึ้น ค่าสัมประสิทธิ์ α ก็จะยิ่งต่ำลงเท่านั้น โดยปกติแล้ว การพยากรณ์ทางสถิติในสาขาฟิสิกส์ เคมี เภสัชกรรม และพันธุศาสตร์จำเป็นต้องมีความแม่นยำมากกว่าในสาขารัฐศาสตร์และสังคมวิทยา

เกณฑ์ความสำคัญในพื้นที่เฉพาะ

ในสาขาที่มีความแม่นยำสูง เช่น ฟิสิกส์ของอนุภาคและการผลิต นัยสำคัญทางสถิติมักแสดงเป็นอัตราส่วนของส่วนเบี่ยงเบนมาตรฐาน (แสดงโดยสัมประสิทธิ์ซิกมา - σ) ที่สัมพันธ์กับการแจกแจงความน่าจะเป็นแบบปกติ (การแจกแจงแบบเกาส์เซียน) σเป็นตัวบ่งชี้ทางสถิติที่กำหนดการกระจายตัวของค่าของปริมาณที่แน่นอนที่สัมพันธ์กับ ความคาดหวังทางคณิตศาสตร์- ใช้ในการพล็อตความน่าจะเป็นของเหตุการณ์

ขึ้นอยู่กับสาขาวิชาความรู้ ค่าสัมประสิทธิ์ σ จะแตกต่างกันอย่างมาก ตัวอย่างเช่น เมื่อทำนายการมีอยู่ของฮิกส์โบซอน พารามิเตอร์ σ เท่ากับ 5 (σ = 5) ซึ่งสอดคล้องกับค่า p = 1/3.5 ล้าน ในการศึกษาจีโนม ระดับนัยสำคัญสามารถเป็น 5 × 10 - 8 ซึ่งไม่ใช่เรื่องแปลกสำหรับพื้นที่นี้

ประสิทธิภาพ

ต้องคำนึงว่าค่าสัมประสิทธิ์ α และ p-value ไม่ใช่ลักษณะที่แน่นอน ไม่ว่าระดับนัยสำคัญในสถิติของปรากฏการณ์ที่กำลังศึกษาอยู่จะไม่ใช่พื้นฐานที่ไม่มีเงื่อนไขในการยอมรับสมมติฐาน ตัวอย่างเช่นกว่า มูลค่าน้อยลงα ยิ่งมีโอกาสที่สมมติฐานที่ตั้งขึ้นจะมีนัยสำคัญมากขึ้นเท่านั้น อย่างไรก็ตาม มีความเสี่ยงที่จะเกิดข้อผิดพลาด ซึ่งจะทำให้อำนาจทางสถิติ (นัยสำคัญ) ของการศึกษาลดลง

นักวิจัยที่มุ่งเน้นผลลัพธ์ที่มีนัยสำคัญทางสถิติเพียงอย่างเดียวอาจได้ข้อสรุปที่ผิดพลาด ในเวลาเดียวกัน เป็นการยากที่จะตรวจสอบงานของพวกเขาอีกครั้ง เนื่องจากพวกเขาใช้สมมติฐาน (ซึ่งจริงๆ แล้วคือค่า α และ p) ดังนั้นจึงขอแนะนำเสมอควบคู่ไปกับการคำนวณนัยสำคัญทางสถิติ เพื่อกำหนดตัวบ่งชี้อื่น - ขนาดของผลกระทบทางสถิติ ขนาดของเอฟเฟกต์คือการวัดเชิงปริมาณของความแรงของเอฟเฟกต์

ลักษณะสำคัญของความสัมพันธ์ระหว่างตัวแปร

คุณสมบัติที่ง่ายที่สุดสองประการของความสัมพันธ์ระหว่างตัวแปรสามารถสังเกตได้: (ก) ขนาดของความสัมพันธ์และ (ข) ความน่าเชื่อถือของความสัมพันธ์

- ขนาด - ขนาดการพึ่งพานั้นง่ายต่อการเข้าใจและวัดผลมากกว่าความน่าเชื่อถือ ตัวอย่างเช่น หากผู้ชายคนใดในกลุ่มตัวอย่างมีค่าจำนวนเม็ดเลือดขาว (WCC) สูงกว่าผู้หญิงคนใด ก็อาจกล่าวได้ว่าความสัมพันธ์ระหว่างตัวแปรทั้งสอง (เพศและ WCC) นั้นสูงมาก กล่าวอีกนัยหนึ่ง คุณสามารถทำนายค่าของตัวแปรหนึ่งจากค่าของอีกตัวแปรหนึ่งได้

- ความน่าเชื่อถือ ("ความจริง"). ความน่าเชื่อถือของการพึ่งพาอาศัยกันเป็นแนวคิดที่เข้าใจง่ายน้อยกว่าขนาดของการพึ่งพาอาศัยกัน แต่มีความสำคัญอย่างยิ่ง ความน่าเชื่อถือของความสัมพันธ์เกี่ยวข้องโดยตรงกับการเป็นตัวแทนของกลุ่มตัวอย่างบางกลุ่มโดยพิจารณาจากการสรุปผล กล่าวอีกนัยหนึ่ง ความน่าเชื่อถือหมายถึงความเป็นไปได้ที่ความสัมพันธ์จะถูกค้นพบอีกครั้ง (หรืออีกนัยหนึ่ง ได้รับการยืนยัน) โดยใช้ข้อมูลจากตัวอย่างอื่นที่ดึงมาจากประชากรกลุ่มเดียวกัน

ควรจำไว้ว่าเป้าหมายสูงสุดคือแทบไม่เคยศึกษาตัวอย่างค่านิยมนี้เลย ตัวอย่างจะน่าสนใจตราบเท่าที่ให้ข้อมูลเกี่ยวกับประชากรทั้งหมดเท่านั้น หากการศึกษาเป็นไปตามเกณฑ์เฉพาะบางประการ ความน่าเชื่อถือของความสัมพันธ์ที่พบระหว่างตัวแปรตัวอย่างก็สามารถหาปริมาณและนำเสนอได้โดยใช้การวัดทางสถิติมาตรฐาน

ขนาดของการพึ่งพาอาศัยกันและความน่าเชื่อถือเป็นตัวแทนสองประการ ลักษณะต่างๆการพึ่งพาระหว่างตัวแปร อย่างไรก็ตามไม่สามารถพูดได้ว่าพวกเขาเป็นอิสระอย่างสมบูรณ์ ยิ่งขนาดของความสัมพันธ์ (การเชื่อมต่อ) ระหว่างตัวแปรในตัวอย่างขนาดปกติมากเท่าใด ก็ยิ่งเชื่อถือได้มากขึ้นเท่านั้น (ดูหัวข้อถัดไป)

นัยสำคัญทางสถิติของผลลัพธ์ (p-level) เป็นการวัดความเชื่อมั่นใน "ความจริง" โดยประมาณ (ในแง่ของ "การเป็นตัวแทนของกลุ่มตัวอย่าง") ในทางเทคนิคแล้ว ระดับ p คือหน่วยวัดที่แตกต่างกันไปตามลำดับความสำคัญที่ลดลงพร้อมกับความน่าเชื่อถือของผลลัพธ์ มากกว่า ระดับ p สูงสอดคล้องกันมากขึ้น ระดับต่ำความมั่นใจในความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่าง กล่าวคือ ระดับ p แสดงถึงความน่าจะเป็นของข้อผิดพลาดที่เกี่ยวข้องกับการกระจายผลลัพธ์ที่สังเกตไปยังประชากรทั้งหมด

ตัวอย่างเช่น, ระดับ p = 0.05(เช่น 1/20) บ่งชี้ว่ามีโอกาส 5% ที่ความสัมพันธ์ระหว่างตัวแปรที่พบในตัวอย่างเป็นเพียงลักษณะสุ่มของตัวอย่าง ในการศึกษาจำนวนมาก ค่า p-level 0.05 ถือเป็น "ส่วนต่างที่ยอมรับได้" สำหรับระดับข้อผิดพลาด

ไม่มีทางที่จะหลีกเลี่ยงความเด็ดขาดในการตัดสินใจว่าระดับนัยสำคัญใดที่ควรพิจารณาว่า "สำคัญ" อย่างแท้จริง การเลือกระดับนัยสำคัญที่สูงกว่าซึ่งผลลัพธ์ถูกปฏิเสธเนื่องจากเป็นเท็จนั้นค่อนข้างจะเป็นไปตามอำเภอใจ



ในทางปฏิบัติ การตัดสินใจขั้นสุดท้ายมักจะขึ้นอยู่กับว่าผลลัพธ์ถูกทำนายล่วงหน้า (เช่น ก่อนดำเนินการทดลอง) หรือค้นพบภายหลังอันเป็นผลมาจากการวิเคราะห์และการเปรียบเทียบหลายครั้งกับข้อมูลที่หลากหลาย รวมถึงประเพณีของสาขาวิชาที่ศึกษาด้วย

โดยทั่วไป ในหลายสาขา ผลลัพธ์ของ p .05 ถือเป็นจุดตัดที่ยอมรับได้สำหรับนัยสำคัญทางสถิติ แต่โปรดจำไว้ว่าระดับนี้ยังคงมีข้อผิดพลาดค่อนข้างมาก (5%)

โดยทั่วไปผลลัพธ์ที่มีนัยสำคัญที่ระดับ p .01 ถือว่ามีนัยสำคัญทางสถิติ ในขณะที่ผลลัพธ์ที่ระดับ p .005 หรือ p .00 โดยทั่วไปถือว่ามีนัยสำคัญทางสถิติ 001 มีนัยสำคัญมาก อย่างไรก็ตาม ควรเข้าใจว่าการจำแนกระดับนัยสำคัญนี้ค่อนข้างจะเป็นไปตามอำเภอใจและเป็นเพียงข้อตกลงที่ไม่เป็นทางการที่นำมาใช้บนพื้นฐานของประสบการณ์เชิงปฏิบัติ ในสาขาวิชาเฉพาะ.

ชัดเจนว่าอะไร. จำนวนที่มากขึ้นการวิเคราะห์จะดำเนินการกับจำนวนรวมของข้อมูลที่รวบรวม ยิ่งจำนวนผลลัพธ์ที่มีนัยสำคัญ (ในระดับที่เลือก) จะถูกค้นพบโดยบังเอิญมากขึ้นเท่านั้น

วิธีการทางสถิติบางอย่างที่เกี่ยวข้องกับการเปรียบเทียบจำนวนมาก และมีโอกาสสำคัญที่จะเกิดข้อผิดพลาดประเภทนี้ซ้ำ ทำการปรับเปลี่ยนหรือแก้ไขเป็นพิเศษ จำนวนทั้งหมดการเปรียบเทียบ อย่างไรก็ตาม วิธีการทางสถิติหลายวิธี (โดยเฉพาะ วิธีการง่ายๆการวิเคราะห์ข้อมูลเชิงสำรวจ) ไม่มีวิธีแก้ไขปัญหานี้

ถ้าความสัมพันธ์ระหว่างตัวแปรอ่อนแอ "เป็นกลาง" ก็ไม่มีวิธีอื่นที่จะทดสอบความสัมพันธ์ดังกล่าวได้นอกจากศึกษากลุ่มตัวอย่างขนาดใหญ่ แม้ว่าตัวอย่างจะเป็นตัวแทนได้อย่างสมบูรณ์ แต่ผลกระทบก็ไม่มีนัยสำคัญทางสถิติหากตัวอย่างมีขนาดเล็ก ในทำนองเดียวกัน หากความสัมพันธ์มีความแข็งแกร่ง "เชิงวัตถุ" มาก ก็สามารถตรวจพบได้ด้วยนัยสำคัญในระดับสูงแม้ในกลุ่มตัวอย่างขนาดเล็กมากก็ตาม

ยิ่งความสัมพันธ์ระหว่างตัวแปรอ่อนลง ขนาดตัวอย่างที่ต้องใช้ในการตรวจจับอย่างมีความหมายก็จะยิ่งใหญ่ขึ้นเท่านั้น

ที่แตกต่างกันมากมาย มาตรการความสัมพันธ์ ระหว่างตัวแปร การเลือกหน่วยวัดเฉพาะในการศึกษาเฉพาะนั้นขึ้นอยู่กับจำนวนตัวแปร ระดับการวัดที่ใช้ ลักษณะของความสัมพันธ์ เป็นต้น

อย่างไรก็ตาม มาตรการเหล่านี้ส่วนใหญ่อยู่ภายใต้บังคับ หลักการทั่วไป: พวกเขาพยายามประมาณค่าการพึ่งพาที่สังเกตได้โดยการเปรียบเทียบกับ "การพึ่งพาสูงสุดที่เป็นไปได้" ระหว่างตัวแปรที่อยู่ระหว่างการพิจารณา ในทางเทคนิคแล้ว วิธีปกติในการประมาณค่าดังกล่าวคือการดูว่าค่าของตัวแปรแปรผันอย่างไร จากนั้นคำนวณว่าค่าความแปรผันทั้งหมดที่มีอยู่มากน้อยเพียงใด สามารถอธิบายได้ด้วยการมีอยู่ของความแปรผัน "ทั่วไป" ("ข้อต่อ") ใน ตัวแปรสองตัว (หรือมากกว่า)

ความสำคัญขึ้นอยู่กับขนาดตัวอย่างเป็นหลัก ดังที่ได้อธิบายไปแล้ว ในกลุ่มตัวอย่างที่มีขนาดใหญ่มาก แม้แต่ความสัมพันธ์ที่อ่อนแอมากระหว่างตัวแปรก็ยังมีความสำคัญ ในขณะที่ในกลุ่มตัวอย่างขนาดเล็ก แม้แต่ความสัมพันธ์ที่แข็งแกร่งมากก็ไม่น่าเชื่อถือ

ดังนั้น เพื่อกำหนดระดับนัยสำคัญทางสถิติ จำเป็นต้องมีฟังก์ชันที่จะแสดงความสัมพันธ์ระหว่าง "ขนาด" และ "นัยสำคัญ" ของความสัมพันธ์ระหว่างตัวแปรสำหรับขนาดตัวอย่างแต่ละขนาด

ฟังก์ชันดังกล่าวจะระบุอย่างชัดเจนว่า "มีแนวโน้มเพียงใดที่จะได้รับค่าที่กำหนดให้ (หรือมากกว่า) ในตัวอย่างที่มีขนาดที่กำหนด โดยสมมติว่าไม่มีการพึ่งพาดังกล่าวในประชากร" กล่าวอีกนัยหนึ่ง ฟังก์ชันนี้จะให้ระดับนัยสำคัญ
(ระดับ p) และความน่าจะเป็นที่จะปฏิเสธสมมติฐานที่ว่าไม่มีการพึ่งพาในประชากรอย่างผิดพลาด

สมมติฐาน "ทางเลือก" นี้ (ว่าไม่มีความสัมพันธ์กันในประชากร) มักเรียกว่า สมมติฐานว่าง.

คงจะเหมาะเป็นอย่างยิ่งหากฟังก์ชันที่คำนวณความน่าจะเป็นของข้อผิดพลาดเป็นแบบเส้นตรงและมีเพียงความชันที่แตกต่างกันสำหรับขนาดตัวอย่างที่แตกต่างกัน น่าเสียดายที่ฟังก์ชันนี้ซับซ้อนกว่ามากและไม่เหมือนกันทุกประการ อย่างไรก็ตาม ในกรณีส่วนใหญ่ เราจะทราบรูปแบบของรูปแบบนี้และสามารถใช้เพื่อกำหนดระดับนัยสำคัญในการศึกษาตัวอย่างในขนาดที่กำหนดได้ ฟังก์ชันเหล่านี้ส่วนใหญ่เกี่ยวข้องกับคลาสของการแจกแจงที่เรียกว่า ปกติ .

ภารกิจที่ 3เด็กก่อนวัยเรียนห้าคนจะได้รับการทดสอบ เวลาที่ใช้ในการแก้ปัญหาแต่ละงานจะถูกบันทึกไว้ จะพบความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างเวลาในการแก้ไขรายการทดสอบสามรายการแรกหรือไม่

จำนวนวิชา

วัสดุอ้างอิง

งานนี้มีพื้นฐานมาจากทฤษฎีการวิเคราะห์ความแปรปรวน โดยทั่วไป งานวิเคราะห์ความแปรปรวนคือการระบุปัจจัยที่มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ของการทดลอง การวิเคราะห์ความแปรปรวนสามารถใช้เพื่อเปรียบเทียบค่าเฉลี่ยของกลุ่มตัวอย่างหลายตัวอย่าง หากมีตัวอย่างมากกว่าสองตัวอย่าง การวิเคราะห์ความแปรปรวนแบบทางเดียวใช้เพื่อจุดประสงค์นี้

เพื่อแก้ไขปัญหาที่ได้รับมอบหมาย จะต้องยอมรับสิ่งต่อไปนี้ หากความแปรปรวนของค่าที่ได้รับของพารามิเตอร์การปรับให้เหมาะสมในกรณีของอิทธิพลของปัจจัยแตกต่างจากความแปรปรวนของผลลัพธ์ในกรณีที่ไม่มีอิทธิพลของปัจจัยปัจจัยดังกล่าวจะถือว่ามีนัยสำคัญ

ดังที่เห็นได้จากการกำหนดปัญหา วิธีทดสอบสมมติฐานทางสถิติถูกนำมาใช้ในที่นี้ กล่าวคือ งานทดสอบความแปรปรวนเชิงประจักษ์สองรายการ ดังนั้น การวิเคราะห์ความแปรปรวนจึงขึ้นอยู่กับการทดสอบความแปรปรวนโดยใช้การทดสอบของฟิชเชอร์ ในงานนี้ มีความจำเป็นต้องตรวจสอบว่าความแตกต่างระหว่างเวลาในการแก้ไขปัญหาการทดสอบสามครั้งแรกของเด็กก่อนวัยเรียนทั้งหกคนมีนัยสำคัญทางสถิติหรือไม่

สมมติฐานที่เป็นโมฆะ (หลัก) เรียกว่าสมมติฐานที่ยกมา H o สาระสำคัญของ e มาจากสมมติฐานที่ว่าความแตกต่างระหว่างพารามิเตอร์ที่เปรียบเทียบคือศูนย์ (ดังนั้นชื่อของสมมติฐานคือศูนย์) และความแตกต่างที่สังเกตได้นั้นเป็นแบบสุ่ม

สมมติฐานที่แข่งขันกัน (ทางเลือก) เรียกว่า H1 ซึ่งขัดแย้งกับสมมติฐานว่าง

สารละลาย:

เมื่อใช้วิธีวิเคราะห์ความแปรปรวนที่ระดับนัยสำคัญ α = 0.05 เราจะทดสอบสมมติฐานว่าง (H o) เกี่ยวกับการมีอยู่ของความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างเวลาของการแก้ปัญหาการทดสอบสามรายการแรกสำหรับเด็กก่อนวัยเรียนหกคน

ลองดูที่ตารางเงื่อนไขของงาน ซึ่งเราจะค้นหาเวลาเฉลี่ยในการแก้ปัญหาแต่ละงานจากการทดสอบทั้งสามรายการ

จำนวนวิชา

ระดับปัจจัย

เวลาในการแก้ไขงานทดสอบแรก (เป็นวินาที)

เวลาในการแก้ไขงานทดสอบที่สอง (เป็นวินาที)

เวลาในการแก้งานทดสอบครั้งที่สาม (เป็นวินาที)

ค่าเฉลี่ยกลุ่ม

การหาค่าเฉลี่ยโดยรวม:

เพื่อคำนึงถึงความสำคัญของความแตกต่างของเวลาในการทดสอบแต่ละครั้ง ความแปรปรวนตัวอย่างทั้งหมดจะแบ่งออกเป็นสองส่วน ส่วนแรกเรียกว่าปัจจัย และส่วนที่สอง - ส่วนตกค้าง

ลองคำนวณผลรวมของการเบี่ยงเบนกำลังสองจากค่าเฉลี่ยโดยรวมโดยใช้สูตร

หรือ โดยที่ p คือจำนวนการวัดเวลาสำหรับการแก้โจทย์ข้อสอบ q คือจำนวนผู้สอบ

จำนวนวิชา

ระดับปัจจัย

เวลาในการแก้ไขงานทดสอบแรก (เป็นวินาที)

เวลาในการแก้ไขงานทดสอบที่สอง (เป็นวินาที)

เวลาในการแก้งานทดสอบครั้งที่สาม (เป็นวินาที)

เมื่อต้องการทำเช่นนี้ เรามาสร้างตารางสี่เหลี่ยมกัน คุณคิดว่าอะไรทำให้ “อีกครึ่งหนึ่ง” ของคุณพิเศษและมีความหมาย? มันเกี่ยวข้องกับบุคลิกของเธอหรือของเขาหรือความรู้สึกของคุณที่คุณมีต่อบุคคลนี้หรือไม่? หรืออาจจะด้วยข้อเท็จจริงง่ายๆ

สมมติฐานเกี่ยวกับการสุ่มเห็นอกเห็นใจของคุณดังที่การศึกษาแสดงให้เห็นมีความน่าจะเป็นน้อยกว่า 5% หรือไม่? หากเราพิจารณาว่าข้อความสุดท้ายมีความน่าเชื่อถือ หลักการแล้วจะไม่มีเว็บไซต์หาคู่ที่ประสบความสำเร็จ:

เมื่อคุณทำการทดสอบแยกหรือการวิเคราะห์อื่นใดในเว็บไซต์ของคุณ ความเข้าใจผิด "นัยสำคัญทางสถิติ" อาจนำไปสู่การตีความผลลัพธ์ที่ไม่ถูกต้อง และทำให้เกิดการกระทำที่ไม่ถูกต้องในกระบวนการเพิ่มประสิทธิภาพการแปลง นี่เป็นเรื่องจริงสำหรับการทดสอบทางสถิติอื่นๆ หลายพันรายการที่ดำเนินการทุกวันในทุกอุตสาหกรรมที่มีอยู่

เพื่อทำความเข้าใจว่า "นัยสำคัญทางสถิติ" คืออะไร คุณต้องเจาะลึกประวัติความเป็นมาของคำนี้ เรียนรู้ความหมายที่แท้จริงของคำนั้น และทำความเข้าใจว่าความเข้าใจเก่า "ใหม่" นี้จะช่วยให้คุณตีความผลการวิจัยของคุณได้อย่างถูกต้องอย่างไร

ประวัติเล็กน้อย

แม้ว่ามนุษยชาติจะใช้สถิติในการแก้ปัญหาต่างๆ มาเป็นเวลาหลายศตวรรษแล้ว แต่ความเข้าใจสมัยใหม่เกี่ยวกับนัยสำคัญทางสถิติ การทดสอบสมมติฐาน การสุ่ม และแม้กระทั่งการออกแบบการทดลอง (DOE) เริ่มเป็นรูปเป็นร่างในช่วงต้นศตวรรษที่ 20 เท่านั้น และมีความเชื่อมโยงอย่างแยกไม่ออกกับ ชื่อของเซอร์โรนัลด์ ฟิชเชอร์ (เซอร์โรนัลด์ ฟิชเชอร์, พ.ศ. 2433-2505):

ฟิชเชอร์ใช้เทคนิคที่เขาพัฒนาขึ้นเพื่ออธิบายกระบวนการทางชีววิทยา เช่น การครอบงำ การกลายพันธุ์ และการเบี่ยงเบนทางพันธุกรรม ปัจจุบันเราสามารถใช้เครื่องมือเดียวกันนี้เพื่อเพิ่มประสิทธิภาพและปรับปรุงเนื้อหาของทรัพยากรบนเว็บ ความจริงที่ว่าเครื่องมือวิเคราะห์เหล่านี้สามารถใช้ทำงานกับวัตถุที่ไม่มีอยู่จริงในขณะที่สร้างมันขึ้นมาก็ดูน่าประหลาดใจทีเดียว ก็ยังแปลกใจเหมือนเดิม การคำนวณที่ซับซ้อนผู้คนแสดงโดยไม่มีเครื่องคิดเลขหรือคอมพิวเตอร์

เพื่ออธิบายผลลัพธ์ของการทดลองทางสถิติว่ามีความเป็นไปได้สูงที่จะเป็นจริง ฟิชเชอร์ใช้คำว่า "ความสำคัญ"

นอกจากนี้ พัฒนาการที่น่าสนใจที่สุดประการหนึ่งของฟิชเชอร์ยังเรียกได้ว่าเป็นสมมติฐาน "ลูกชายสุดเซ็กซี่" อีกด้วย ตามทฤษฎีนี้ ผู้หญิงชอบผู้ชายสำส่อนทางเพศ (สำส่อน) เพราะจะทำให้ลูกชายที่เกิดจากผู้ชายเหล่านี้มีความโน้มเอียงแบบเดียวกันและให้กำเนิดลูกหลานมากขึ้น (โปรดทราบว่านี่เป็นเพียงทฤษฎี)

แต่ไม่มีใครแม้แต่นักวิทยาศาสตร์ที่เก่งกาจก็สามารถรอดพ้นจากการทำผิดพลาดได้ ข้อบกพร่องของฟิชเชอร์ยังคงเป็นปัญหาต่อผู้เชี่ยวชาญมาจนถึงทุกวันนี้ แต่จงจำคำพูดของอัลเบิร์ต ไอน์สไตน์ที่ว่า “ใครก็ตามที่ไม่เคยทำผิด ไม่เคยสร้างสิ่งใหม่”

ก่อนที่จะไปยังจุดถัดไป โปรดจำไว้ว่า: นัยสำคัญทางสถิติคือเมื่อความแตกต่างในผลการทดสอบมีมากจนไม่สามารถอธิบายความแตกต่างด้วยปัจจัยสุ่มได้

สมมติฐานของคุณคืออะไร?

หากต้องการทำความเข้าใจว่า "นัยสำคัญทางสถิติ" หมายถึงอะไร ก่อนอื่นคุณต้องเข้าใจว่า "การทดสอบสมมติฐาน" คืออะไร เนื่องจากคำทั้งสองมีความเกี่ยวพันกันอย่างใกล้ชิด
สมมติฐานเป็นเพียงทฤษฎี เมื่อคุณพัฒนาทฤษฎีแล้ว คุณจะต้องสร้างกระบวนการในการรวบรวมหลักฐานที่เพียงพอและรวบรวมหลักฐานนั้นจริงๆ สมมติฐานมีสองประเภท

แอปเปิ้ลหรือส้ม - ไหนดีกว่ากัน?

สมมติฐานว่าง

ตามกฎแล้ว นี่คือจุดที่หลายคนประสบปัญหา สิ่งหนึ่งที่ควรจำไว้ก็คือ สมมติฐานว่างไม่ใช่สิ่งที่จำเป็นต้องได้รับการพิสูจน์ เช่น คุณพิสูจน์ว่าการเปลี่ยนแปลงบางอย่างบนเว็บไซต์จะนำไปสู่ ​​Conversion เพิ่มขึ้น แต่ในทางกลับกัน สมมติฐานว่างคือทฤษฎีที่ระบุว่าหากคุณทำการเปลี่ยนแปลงใดๆ กับไซต์ จะไม่มีอะไรเกิดขึ้น และเป้าหมายของผู้วิจัยคือการหักล้างทฤษฎีนี้ ไม่ใช่การพิสูจน์

หากเราพิจารณาประสบการณ์ในการแก้ปัญหาอาชญากรรม โดยที่ผู้สืบสวนยังตั้งสมมติฐานว่าใครคืออาชญากร สมมติฐานว่างจะอยู่ในรูปแบบที่เรียกว่าข้อสันนิษฐานว่าเป็นผู้บริสุทธิ์ ซึ่งเป็นแนวคิดที่ผู้ต้องหาสันนิษฐานว่าเป็นผู้บริสุทธิ์จนกว่าจะพิสูจน์ว่ามีความผิด ในศาล

หากสมมติฐานว่างคือวัตถุสองชิ้นมีคุณสมบัติเท่ากัน และคุณกำลังพยายามพิสูจน์ว่าวัตถุหนึ่งดีกว่า (เช่น A ดีกว่า B) คุณจะต้องปฏิเสธสมมติฐานว่างและหันไปใช้สมมติฐานทางเลือกแทน ตัวอย่างเช่น คุณกำลังเปรียบเทียบเครื่องมือเพิ่มประสิทธิภาพการแปลงอย่างใดอย่างหนึ่ง ในสมมติฐานว่าง ทั้งสองมีผลเหมือนกัน (หรือไม่มีผล) กับเป้าหมาย ในทางกลับกันผลของหนึ่งในนั้นจะดีกว่า

สมมติฐานทางเลือกของคุณอาจมีค่าตัวเลข เช่น B - A > 20% ในกรณีนี้ สมมติฐานว่างและทางเลือกอื่นอาจอยู่ในรูปแบบต่อไปนี้:

อีกชื่อหนึ่งของสมมติฐานทางเลือกคือ สมมติฐานการวิจัย เนื่องจากผู้วิจัยสนใจที่จะพิสูจน์สมมติฐานนี้อยู่เสมอ

นัยสำคัญทางสถิติและค่า p

กลับมาที่โรนัลด์ ฟิชเชอร์และแนวคิดของเขาเกี่ยวกับนัยสำคัญทางสถิติอีกครั้ง

ตอนนี้คุณมีสมมติฐานว่างและทางเลือกอื่นแล้ว คุณจะพิสูจน์ข้อหนึ่งและหักล้างอีกข้อได้อย่างไร?

เนื่องจากโดยธรรมชาติแล้วสถิติเกี่ยวข้องกับการศึกษาประชากรกลุ่มใดกลุ่มหนึ่ง (ตัวอย่าง) คุณจึงไม่สามารถมั่นใจได้ 100% เกี่ยวกับผลลัพธ์ที่ได้รับ ตัวอย่างที่ดี: ผลการเลือกตั้งมักจะแตกต่างไปจากผลการเลือกตั้งเบื้องต้นและแม้กระทั่งผลการเลือกตั้งนอกระบบ

ดร. ฟิชเชอร์ต้องการสร้างเส้นแบ่งที่จะแจ้งให้คุณทราบว่าการทดลองของคุณประสบความสำเร็จหรือไม่ นี่คือลักษณะที่ดัชนีความน่าเชื่อถือปรากฏขึ้น ความน่าเชื่อถือคือระดับที่เราใช้เพื่อพูดในสิ่งที่เราพิจารณาว่า "สำคัญ" และสิ่งที่เราไม่ทำ หาก "p" ซึ่งเป็นดัชนีนัยสำคัญเท่ากับ 0.05 หรือน้อยกว่า แสดงว่าผลลัพธ์มีความน่าเชื่อถือ

ไม่ต้องกังวล จริงๆ แล้วมันไม่ได้น่าสับสนอย่างที่คิด

การแจกแจงความน่าจะเป็นแบบเกาส์เซียน ตามขอบคือค่าที่เป็นไปได้น้อยกว่าของตัวแปร โดยตรงกลางคือค่าที่เป็นไปได้มากที่สุด คะแนน P (พื้นที่สีเทาสีเขียว) คือความน่าจะเป็นของผลลัพธ์ที่สังเกตได้ซึ่งเกิดขึ้นโดยบังเอิญ

การแจกแจงความน่าจะเป็นแบบปกติ (การแจกแจงแบบเกาส์เซียน) เป็นตัวแทนของทั้งหมด ค่าที่เป็นไปได้ตัวแปรบางตัวบนกราฟ (ในรูปด้านบน) และความถี่ของมัน หากคุณค้นคว้าอย่างถูกต้องแล้วพล็อตคำตอบทั้งหมดลงบนกราฟ คุณจะได้การกระจายตัวนี้อย่างแน่นอน จากการแจกแจงแบบปกติ คุณจะได้รับคำตอบที่คล้ายกันเป็นเปอร์เซ็นต์จำนวนมาก และตัวเลือกที่เหลือจะอยู่ที่ขอบของกราฟ (ที่เรียกว่า "ก้อย") การกระจายคุณค่านี้มักพบในธรรมชาติจึงเรียกว่า "ปกติ"

การใช้สมการจากตัวอย่างและผลการทดสอบของคุณ ทำให้คุณสามารถคำนวณสิ่งที่เรียกว่า "สถิติการทดสอบ" ซึ่งจะระบุว่าผลลัพธ์ของคุณเบี่ยงเบนไปมากเพียงใด นอกจากนี้ยังจะบอกคุณด้วยว่าคุณอยู่ใกล้สมมติฐานว่างที่เป็นความจริงแค่ไหน

เพื่อช่วยให้คุณเข้าใจได้ ให้ใช้เครื่องคิดเลขออนไลน์เพื่อคำนวณนัยสำคัญทางสถิติ:

ตัวอย่างหนึ่งของเครื่องคิดเลขดังกล่าว

ตัวอักษร "p" แสดงถึงความน่าจะเป็นที่สมมติฐานว่างเป็นจริง หากตัวเลขน้อย ก็จะบ่งบอกถึงความแตกต่างระหว่างกลุ่มทดสอบ ในขณะที่สมมติฐานว่างจะแสดงว่ากลุ่มทดสอบเหมือนกัน ตามกราฟิก ดูเหมือนว่าสถิติการทดสอบของคุณจะเข้าใกล้ส่วนท้ายด้านใดด้านหนึ่งของการกระจายตัวรูประฆังของคุณมากขึ้น

ดร. ฟิชเชอร์ตัดสินใจกำหนดเกณฑ์นัยสำคัญที่ p ≤ 0.05 อย่างไรก็ตาม ข้อความนี้ยังเป็นที่ถกเถียงกันอยู่ เนื่องจากทำให้เกิดปัญหา 2 ประการ:

1. ประการแรก ความจริงที่ว่าคุณได้พิสูจน์สมมติฐานว่างแล้วไม่ได้หมายความว่าคุณได้พิสูจน์สมมติฐานทางเลือกแล้ว นัยสำคัญทั้งหมดนี้หมายความว่าคุณไม่สามารถพิสูจน์ A หรือ B ได้

2. ประการที่สอง ถ้าคะแนน p เท่ากับ 0.049 หมายความว่าความน่าจะเป็นของสมมติฐานว่างจะเป็น 4.9% นี่อาจหมายความว่าผลการทดสอบของคุณอาจเป็นทั้งจริงและเท็จในเวลาเดียวกัน

คุณสามารถใช้คะแนน p หรือจะเว้นไว้ก็ได้ แต่คุณจะต้องใช้ทุกคะแนน กรณีพิเศษคำนวณความน่าจะเป็นของสมมติฐานว่างที่จะเป็นจริง และตัดสินใจว่าสมมติฐานว่างนั้นมากพอที่จะป้องกันไม่ให้คุณทำการเปลี่ยนแปลงที่คุณวางแผนและทดสอบหรือไม่

สถานการณ์ทั่วไปที่สุดสำหรับการดำเนินการทดสอบทางสถิติในวันนี้คือการกำหนดเกณฑ์ที่มีนัยสำคัญที่ p ≤ 0.05 ก่อนที่จะดำเนินการทดสอบ เพียงอย่าลืมดูค่า p อย่างใกล้ชิดเมื่อตรวจสอบผลลัพธ์ของคุณ

ข้อผิดพลาด 1 และ 2

เวลาผ่านไปนานมากจนมีการตั้งชื่อข้อผิดพลาดที่อาจเกิดขึ้นเมื่อใช้เมตริกนัยสำคัญทางสถิติด้วยซ้ำ

ข้อผิดพลาดประเภท 1

ตามที่กล่าวไว้ข้างต้น ค่า p เท่ากับ 0.05 หมายความว่ามีโอกาส 5% ที่สมมติฐานว่างจะเป็นจริง ถ้าคุณไม่ทำ คุณจะทำผิดพลาดหมายเลข 1 ผลลัพธ์บอกว่าเว็บไซต์ใหม่ของคุณเพิ่มอัตราการแปลงของคุณ แต่มีโอกาส 5% ที่จะไม่ได้เพิ่ม

ข้อผิดพลาดประเภท 2

ข้อผิดพลาดนี้ตรงกันข้ามกับข้อผิดพลาด 1: คุณยอมรับสมมติฐานว่างเมื่อเป็นเท็จ ตัวอย่างเช่น ผลการทดสอบจะบอกคุณว่าการเปลี่ยนแปลงที่ทำกับไซต์ไม่ได้นำมาซึ่งการปรับปรุงใดๆ ในขณะที่มีการเปลี่ยนแปลง เป็นผลให้คุณพลาดโอกาสในการปรับปรุงประสิทธิภาพของคุณ

ข้อผิดพลาดนี้เป็นเรื่องปกติในการทดสอบที่มีขนาดตัวอย่างไม่เพียงพอ ดังนั้นโปรดจำไว้ว่า ยิ่งตัวอย่างมีขนาดใหญ่เท่าใด ผลลัพธ์ก็จะยิ่งน่าเชื่อถือมากขึ้นเท่านั้น

บทสรุป

บางทีไม่มีคำใดที่ได้รับความนิยมในหมู่นักวิจัยมากเท่ากับนัยสำคัญทางสถิติ เมื่อผลการทดสอบไม่พบว่ามีนัยสำคัญทางสถิติ ผลที่ตามมามีตั้งแต่อัตราคอนเวอร์ชั่นที่เพิ่มขึ้นไปจนถึงการล่มสลายของบริษัท

และเนื่องจากนักการตลาดใช้คำนี้เมื่อเพิ่มประสิทธิภาพทรัพยากรของตน คุณจึงต้องรู้ว่าจริงๆ แล้วคำนี้หมายถึงอะไร เงื่อนไขการทดสอบอาจแตกต่างกันไป แต่ขนาดตัวอย่างและเกณฑ์ความสำเร็จมีความสำคัญเสมอ จำสิ่งนี้ไว้

นัยสำคัญทางสถิติหรือระดับนัยสำคัญคือผลลัพธ์หลักของการทดสอบ

สมมติฐานทางสถิติ การพูด ภาษาทางเทคนิคคือความน่าจะเป็นที่จะได้รับค่าที่กำหนด

ผลการศึกษาตัวอย่างโดยแท้จริงแล้วสำหรับส่วนรวม

โดยรวมแล้ว สมมติฐานทางสถิติที่เป็นโมฆะเป็นจริง นั่นคือ ไม่มีความเชื่อมโยงกัน กล่าวอีกนัยหนึ่งสิ่งนี้

ความน่าจะเป็นที่ความสัมพันธ์ที่ตรวจพบนั้นเป็นแบบสุ่มและไม่ใช่คุณสมบัติ

จำนวนทั้งสิ้น มันคือนัยสำคัญทางสถิติ หรือระดับ p ของนัยสำคัญ นั่นก็คือ

การประเมินเชิงปริมาณความน่าเชื่อถือในการสื่อสาร: ยิ่งความน่าจะเป็นนี้ต่ำลง การเชื่อมต่อก็จะยิ่งเชื่อถือได้มากขึ้นเท่านั้น

สมมติว่าเมื่อเปรียบเทียบค่าเฉลี่ยสองตัวอย่าง จะได้ค่าระดับหนึ่ง

นัยสำคัญทางสถิติ p=0.05 ซึ่งหมายความว่าการทดสอบสมมติฐานทางสถิติเกี่ยวกับ

ความเท่าเทียมกันของค่าเฉลี่ยของประชากรแสดงว่าถ้าเป็นจริงแสดงว่ามีความน่าจะเป็น

การเกิดขึ้นแบบสุ่มของความแตกต่างที่ตรวจพบคือไม่เกิน 5% กล่าวอีกนัยหนึ่งถ้า

มีการเก็บตัวอย่างสองตัวอย่างซ้ำๆ จากประชากรกลุ่มเดียวกัน จากนั้นจึงสุ่มตัวอย่าง 1 ใน

มี 20 กรณีที่จะเปิดเผยความแตกต่างที่เท่ากันหรือมากกว่าระหว่างค่าเฉลี่ยของกลุ่มตัวอย่างเหล่านี้

นั่นคือมีโอกาส 5% ที่จะพบความแตกต่างเนื่องจากโอกาส

ลักษณะและมิใช่สมบัติของส่วนรวม

เกี่ยวกับ สมมติฐานทางวิทยาศาสตร์ระดับนัยสำคัญทางสถิติเป็นเชิงปริมาณ

ตัวบ่งชี้ระดับความไม่ไว้วางใจในข้อสรุปเกี่ยวกับการมีอยู่ของการเชื่อมต่อโดยคำนวณจากผลลัพธ์

การทดสอบเชิงประจักษ์แบบเลือกสรรของสมมติฐานนี้ ค่าระดับ p ยิ่งต่ำก็ยิ่งสูง

นัยสำคัญทางสถิติของผลการวิจัยที่ยืนยันสมมติฐานทางวิทยาศาสตร์

การรู้ว่าสิ่งใดมีอิทธิพลต่อระดับนัยสำคัญจะเป็นประโยชน์ ระดับความสำคัญ สิ่งอื่นๆ ทั้งหมดเท่าเทียมกัน

เงื่อนไขจะสูงกว่า (ค่าระดับ p ต่ำกว่า) หาก:

ขนาดของการเชื่อมต่อ (ความแตกต่าง) นั้นยิ่งใหญ่กว่า

ความแปรปรวนของลักษณะมีน้อย

ขนาดตัวอย่างมีขนาดใหญ่ขึ้น

ฝ่ายเดียวการทดสอบนัยสำคัญสองด้าน

หากจุดประสงค์ของการศึกษาคือการระบุความแตกต่างในพารามิเตอร์ของทั้งสองทั่วไป

มวลรวมที่สอดคล้องกับสภาพธรรมชาติต่างๆ ( สภาพความเป็นอยู่,

อายุของวิชา ฯลฯ ) ดังนั้นจึงมักไม่ทราบว่าพารามิเตอร์ใดเหล่านี้จะมากกว่าและ

อันไหนเล็กกว่ากัน?

ตัวอย่างเช่น หากคุณสนใจในความแปรปรวนของผลลัพธ์ในการทดสอบและ

ตามกฎแล้วกลุ่มทดลองจะไม่มั่นใจในสัญญาณของความแตกต่างในความแปรปรวนหรือ

ส่วนเบี่ยงเบนมาตรฐานผลลัพธ์จากการประเมินความแปรปรวน ในกรณีนี้

สมมติฐานว่างคือความแปรปรวนเท่ากัน และจุดประสงค์ของการศึกษาคือ

พิสูจน์สิ่งที่ตรงกันข้ามคือ การมีความแตกต่างระหว่างความแปรปรวน อนุญาตให้เป็นเช่นนั้น

ความแตกต่างอาจเป็นสัญญาณใดก็ได้ สมมติฐานดังกล่าวเรียกว่าสองด้าน

แต่บางครั้งความท้าทายคือการพิสูจน์การเพิ่มขึ้นหรือลดลงของพารามิเตอร์

เช่น ผลลัพธ์โดยเฉลี่ยในกลุ่มทดลองสูงกว่ากลุ่มควบคุม ในเวลาเดียวกัน

ไม่อนุญาตให้ความแตกต่างอาจเป็นเครื่องหมายอื่นอีกต่อไป สมมติฐานดังกล่าวเรียกว่า

ด้านเดียว

การทดสอบนัยสำคัญที่ใช้ในการทดสอบสมมติฐานสองด้านเรียกว่า

สองด้านและสำหรับด้านเดียว - ฝ่ายเดียว

คำถามเกิดขึ้นว่าควรเลือกเกณฑ์ใดในกรณีที่กำหนด คำตอบ

คำถามนี้อยู่นอกเหนือความเป็นทางการ วิธีการทางสถิติและสมบูรณ์

ขึ้นอยู่กับเป้าหมายของการศึกษา คุณไม่ควรเลือกเกณฑ์หนึ่งหรือเกณฑ์อื่นหลังจากนั้นไม่ว่าในกรณีใด

การทำการทดลองโดยอาศัยการวิเคราะห์ข้อมูลการทดลองตามนี้

นำไปสู่ข้อสรุปที่ไม่ถูกต้อง หากก่อนทำการทดลองจะถือว่ามีความแตกต่างกัน

พารามิเตอร์ที่เปรียบเทียบอาจเป็นค่าบวกหรือลบก็ได้ คุณก็ควรทำ