Significancia estadística de las diferencias entre muestras. Población general y estudio de muestra. Significancia estadística

El nivel de significancia en estadística es indicador importante, reflejando el grado de confianza en la exactitud y veracidad de los datos recibidos (predichos). El concepto es ampliamente utilizado en diversos campos: desde la realización investigación sociológica, antes de las pruebas estadísticas de hipótesis científicas.

Definición

Nivel significancia estadística(o resultado estadísticamente significativo) muestra cuál es la probabilidad de que ocurran aleatoriamente los indicadores estudiados. La importancia estadística general de un fenómeno se expresa mediante el coeficiente de valor p (nivel p). En cualquier experimento u observación, existe la posibilidad de que los datos obtenidos se deban a errores de muestreo. Esto es especialmente cierto en el caso de la sociología.

Es decir, un valor estadísticamente significativo es un valor cuya probabilidad de ocurrencia aleatoria es extremadamente pequeña o tiende al extremo. El extremo en este contexto es el grado en que las estadísticas se desvían de la hipótesis nula (una hipótesis cuya coherencia se prueba con los datos de muestra obtenidos). En la práctica científica, el nivel de significancia se selecciona antes de la recopilación de datos y, por regla general, su coeficiente es 0,05 (5%). Para sistemas donde los valores precisos son extremadamente importantes, esta cifra puede ser 0,01 (1%) o menos.

Fondo

El concepto de nivel de significancia fue introducido por el estadístico y genetista británico Ronald Fisher en 1925, cuando estaba desarrollando una técnica para probar hipótesis estadísticas. Al analizar cualquier proceso, existe una cierta probabilidad de que se produzcan determinados fenómenos. Las dificultades surgen cuando se trabaja con porcentajes pequeños (o no obvios) de probabilidades que caen bajo el concepto de "error de medición".

Cuando se trabaja con datos estadísticos que no son lo suficientemente específicos para probarlos, los científicos se enfrentan al problema de la hipótesis nula, que "impide" operar con cantidades pequeñas. Fisher propuso que tales sistemas determinen la probabilidad de eventos al 5% (0,05) como un corte de muestreo conveniente, lo que permite rechazar la hipótesis nula en los cálculos.

Introducción de probabilidades fijas

En 1933 científicos Jerzy Neyman y Egon Pearson en sus trabajos recomendaron establecer un cierto nivel de importancia de antemano (antes de la recopilación de datos). Los ejemplos del uso de estas reglas son claramente visibles durante las elecciones. Digamos que hay dos candidatos, uno de los cuales es muy popular y el otro es poco conocido. Es obvio que el primer candidato ganará las elecciones y las posibilidades del segundo tienden a cero. Se esfuerzan, pero no son iguales: siempre existe la posibilidad de fuerza mayor, información sensacionalista, decisiones inesperadas que pueden cambiar los resultados electorales previstos.

Neyman y Pearson coincidieron en que el nivel de significancia de Fisher de 0,05 (indicado por α) era el más apropiado. Sin embargo, el propio Fischer se opuso en 1956 a fijar este valor. Creía que el nivel de α debería fijarse según circunstancias específicas. Por ejemplo, en física de partículas es 0,01.

valor de nivel p

El término valor p fue utilizado por primera vez por Brownlee en 1960. El P-level (p-value) es un indicador que está inversamente relacionado con la veracidad de los resultados. El coeficiente de valor p más alto corresponde al nivel más bajo de confianza en la relación muestreada entre variables.

Este valor refleja la probabilidad de errores asociados con la interpretación de los resultados. Supongamos nivel p = 0,05 (1/20). Muestra una probabilidad del cinco por ciento de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de la muestra. Es decir, si esta dependencia está ausente, entonces con experimentos similares repetidos, en promedio, en cada vigésimo estudio se puede esperar la misma o mayor dependencia entre las variables. El nivel p suele verse como un "margen" para la tasa de error.

Por cierto, es posible que el valor p no refleje la relación real entre variables, sino que solo muestra un cierto valor promedio dentro de los supuestos. En particular, el análisis final de los datos también dependerá de los valores seleccionados de este coeficiente. En el nivel p = 0,05 habrá algunos resultados y con un coeficiente igual a 0,01 habrá resultados diferentes.

Prueba de hipótesis estadísticas

El nivel de significación estadística es especialmente importante al probar hipótesis. Por ejemplo, al calcular una prueba bilateral, la región de rechazo se divide igualmente en ambos extremos de la distribución de muestreo (en relación con la coordenada cero) y se calcula la verdad de los datos resultantes.

Supongamos que, al monitorear un determinado proceso (fenómeno), resultó que nueva información estadística indica pequeños cambios en relación con los valores anteriores. Al mismo tiempo, las discrepancias en los resultados son pequeñas, no obvias, pero importantes para el estudio. El especialista se enfrenta a un dilema: ¿realmente se están produciendo cambios o se trata de errores de muestreo (inexactitud en las mediciones)?

En este caso, utilizan o rechazan la hipótesis nula (atribuyen todo a un error, o reconocen el cambio en el sistema como un hecho consumado). El proceso de resolución de problemas se basa en la relación entre la significancia estadística general (valor p) y el nivel de significancia (α). Si nivel p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valores utilizados

El nivel de significancia depende del material que se esté analizando. En la práctica, se utilizan los siguientes valores fijos:

  • α = 0,1 (o 10%);
  • α = 0,05 (o 5%);
  • α = 0,01 (o 1%);
  • α = 0,001 (o 0,1%).

Cuanto más precisos sean los cálculos necesarios, menor será el coeficiente α que se utilice. Naturalmente, los pronósticos estadísticos en física, química, productos farmacéuticos y genética requieren mayor precisión que en ciencias políticas y sociología.

Umbrales de importancia en áreas específicas

En campos de alta precisión como la física de partículas y la fabricación, la significancia estadística a menudo se expresa como la relación entre la desviación estándar (indicada por el coeficiente sigma - σ) en relación con una distribución de probabilidad normal (distribución gaussiana). σ es un indicador estadístico que determina la dispersión de los valores de una determinada cantidad con respecto a expectativas matemáticas. Se utiliza para trazar la probabilidad de eventos.

Dependiendo del campo de conocimiento, el coeficiente σ varía mucho. Por ejemplo, al predecir la existencia del bosón de Higgs, el parámetro σ es igual a cinco (σ = 5), lo que corresponde al valor p = 1/3,5 millones. En los estudios del genoma, el nivel de significancia puede ser 5 × 10 - 8, lo cual no es raro en estas áreas.

Eficiencia

Hay que tener en cuenta que los coeficientes α y el valor p no son características exactas. Cualquiera que sea el nivel de importancia en las estadísticas del fenómeno en estudio, no es una base incondicional para aceptar la hipótesis. Por ejemplo, que menos valorα, mayor es la probabilidad de que la hipótesis que se establece sea significativa. Sin embargo, existe riesgo de error, lo que reduce el poder estadístico (significancia) del estudio.

Los investigadores que se centran únicamente en resultados estadísticamente significativos pueden llegar a conclusiones erróneas. Al mismo tiempo, es difícil verificar su trabajo, ya que aplican supuestos (que en realidad son los valores α y p). Por lo tanto, siempre se recomienda, además de calcular la significación estadística, determinar otro indicador: la magnitud del efecto estadístico. El tamaño del efecto es una medida cuantitativa de la fuerza de un efecto.

Las principales características de cualquier relación entre variables.

Podemos observar las dos propiedades más simples de la relación entre variables: (a) la magnitud de la relación y (b) la confiabilidad de la relación.

- Magnitud . La magnitud de la dependencia es más fácil de entender y medir que la confiabilidad. Por ejemplo, si algún hombre de la muestra tenía un valor de recuento de glóbulos blancos (WCC) superior al de cualquier mujer, entonces se puede decir que la relación entre las dos variables (Género y WCC) es muy alta. En otras palabras, podrías predecir los valores de una variable a partir de los valores de otra.

- Fiabilidad ("verdad"). La confiabilidad de la interdependencia es un concepto menos intuitivo que la magnitud de la dependencia, pero es extremadamente importante. La confiabilidad de la relación está directamente relacionada con la representatividad de una determinada muestra a partir de la cual se extraen conclusiones. En otras palabras, la confiabilidad se refiere a la probabilidad de que una relación sea redescubierta (en otras palabras, confirmada) utilizando datos de otra muestra extraída de la misma población.

Cabe recordar que el objetivo final casi nunca es estudiar esta muestra particular de valores; una muestra sólo es de interés en la medida en que proporciona información sobre toda la población. Si el estudio satisface ciertos criterios específicos, entonces la confiabilidad de las relaciones encontradas entre las variables de la muestra se puede cuantificar y presentar utilizando una medida estadística estándar.

La magnitud de la dependencia y la confiabilidad representan dos varias características dependencias entre variables. Sin embargo, no se puede decir que sean completamente independientes. Cuanto mayor sea la magnitud de la relación (conexión) entre variables en una muestra de tamaño normal, más confiable será (ver la siguiente sección).

La significancia estadística de un resultado (nivel p) es una medida estimada de confianza en su “verdad” (en el sentido de “representatividad de la muestra”). Más técnicamente hablando, el nivel p es una medida que varía en orden de magnitud decreciente con la confiabilidad del resultado. Más alto nivel p corresponde más nivel bajo confianza en la relación entre las variables encontradas en la muestra. Es decir, el nivel p representa la probabilidad de error asociada con la distribución del resultado observado a toda la población.

Por ejemplo, nivel p = 0,05(es decir, 1/20) indica que existe un 5% de posibilidades de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de la muestra. En muchos estudios, un nivel p de 0,05 se considera un "margen aceptable" para el nivel de error.

No hay forma de evitar la arbitrariedad a la hora de decidir qué nivel de significancia debería considerarse realmente "significativo". La elección de un cierto nivel de significancia por encima del cual los resultados se rechazan como falsos es bastante arbitraria.



En la practica decisión definitiva Por lo general, depende de si el resultado fue predicho a priori (es decir, antes de realizar el experimento) o descubierto a posteriori como resultado de muchos análisis y comparaciones realizadas sobre una variedad de datos, así como de la tradición del campo de estudio.

Generalmente, en muchos campos, un resultado de p .05 es un límite aceptable para la significación estadística, pero tenga en cuenta que este nivel aún incluye un margen de error bastante grande (5%).

Los resultados significativos al nivel de p 0,01 generalmente se consideran estadísticamente significativos, mientras que los resultados al nivel de p 0,005 o p 0,00 generalmente se consideran estadísticamente significativos. 001 como muy significativo. Sin embargo, debe entenderse que esta clasificación de niveles de significancia es bastante arbitraria y es sólo un acuerdo informal adoptado sobre la base de la experiencia práctica. en un campo de estudio particular.

Está claro que lo que numero mayor Cuanto más se realicen análisis sobre la totalidad de los datos recopilados, mayor será el número de resultados significativos (en el nivel seleccionado) que se descubrirán puramente por casualidad.

Algunos métodos estadísticos que implican muchas comparaciones y, por lo tanto, tienen una probabilidad significativa de repetir este tipo de errores, hacen un ajuste o corrección especial para numero total comparaciones. Sin embargo, muchos métodos estadísticos (especialmente métodos simples análisis exploratorio de datos) no ofrecen ninguna forma de resolver este problema.

Si la relación entre variables es “objetivamente” débil, entonces no hay otra manera de probar dicha relación que estudiar una muestra grande. Incluso si la muestra es perfectamente representativa, el efecto no será estadísticamente significativo si la muestra es pequeña. Del mismo modo, si una relación es “objetivamente” muy fuerte, entonces puede detectarse con un alto grado de significancia incluso en una muestra muy pequeña.

Cuanto más débil sea la relación entre las variables, mayor será el tamaño de muestra necesario para detectarla de manera significativa.

Muchas diferentes medidas de relación entre variables. La elección de una medida particular en un estudio particular depende del número de variables, las escalas de medición utilizadas, la naturaleza de las relaciones, etc.

Sin embargo, la mayoría de estas medidas están sujetas a principio general: Intentan estimar la dependencia observada comparándola con la "dependencia máxima concebible" entre las variables consideradas. Técnicamente hablando, la forma habitual de hacer este tipo de estimaciones es observar cómo varían los valores de las variables y luego calcular qué parte de la variación total presente puede explicarse por la presencia de una variación "común" ("conjunta") en dos (o más) variables.

La importancia depende principalmente del tamaño de la muestra. Como ya se explicó, en muestras muy grandes incluso las relaciones muy débiles entre variables serán significativas, mientras que en muestras pequeñas incluso las relaciones muy fuertes no son confiables.

Así, para determinar el nivel de significancia estadística, se necesita una función que represente la relación entre la “magnitud” y la “significancia” de la relación entre variables para cada tamaño de muestra.

Tal función indicaría exactamente “qué probabilidad hay de obtener una dependencia de un valor dado (o más) en una muestra de un tamaño dado, suponiendo que no existe tal dependencia en la población”. En otras palabras, esta función daría un nivel de significancia
(nivel p), y, por tanto, la probabilidad de rechazar erróneamente el supuesto de ausencia de esta dependencia en la población.

Esta hipótesis "alternativa" (que no existe relación en la población) suele denominarse hipótesis nula.

Sería ideal si la función que calcula la probabilidad de error fuera lineal y solo tuviera pendientes diferentes para diferentes tamaños de muestra. Lamentablemente, esta función es mucho más compleja y no siempre es exactamente igual. Sin embargo, en la mayoría de los casos su forma es conocida y puede usarse para determinar niveles de significancia en estudios de muestras de un tamaño determinado. La mayoría de estas funciones están asociadas con una clase de distribuciones llamadas normal .

Tarea 3. Se hace una prueba a cinco niños en edad preescolar. Se registra el tiempo necesario para resolver cada tarea. ¿Se encontrarán diferencias estadísticamente significativas entre el tiempo necesario para resolver los tres primeros ítems del examen?

No. de sujetos

Material de referencia

Esta tarea se basa en la teoría del análisis de la varianza. En general, la tarea del análisis de varianza es identificar aquellos factores que tienen un impacto significativo en el resultado del experimento. El análisis de varianza se puede utilizar para comparar las medias de varias muestras si hay más de dos muestras. Para este propósito se utiliza el análisis de varianza unidireccional.

Para la resolución de las tareas asignadas se acepta lo siguiente. Si las varianzas de los valores obtenidos del parámetro de optimización en el caso de la influencia de factores difieren de las varianzas de los resultados en ausencia de la influencia de factores, entonces dicho factor se considera significativo.

Como puede verse en la formulación del problema, aquí se utilizan métodos para probar hipótesis estadísticas, es decir, la tarea de probar dos varianzas empíricas. Por lo tanto, el análisis de varianza se basa en probar las varianzas mediante la prueba de Fisher. En esta tarea, es necesario comprobar si las diferencias entre el tiempo de resolución de las tres primeras tareas del test por parte de cada uno de los seis niños en edad preescolar son estadísticamente significativas.

La hipótesis nula (principal) se denomina hipótesis propuesta H o. La esencia de e se reduce a la suposición de que la diferencia entre los parámetros comparados es cero (de ahí el nombre de la hipótesis: cero) y que las diferencias observadas son aleatorias.

Una hipótesis competitiva (alternativa) se llama H1 y contradice la hipótesis nula.

Solución:

Utilizando el método de análisis de varianza con un nivel de significancia de α = 0,05, probaremos la hipótesis nula (H o) sobre la existencia de diferencias estadísticamente significativas entre el tiempo de resolución de las tres primeras tareas de la prueba para seis niños en edad preescolar.

Veamos la tabla de condiciones de las tareas, en la que encontraremos el tiempo medio para resolver cada una de las tres tareas de la prueba.

No. de sujetos

Niveles de factores

Tiempo para resolver la primera tarea de prueba (en segundos).

Tiempo para resolver la segunda tarea de prueba (en segundos).

Tiempo para resolver la tercera tarea de prueba (en segundos).

Promedio del grupo

Encontrar el promedio general:

Para tener en cuenta la importancia de las diferencias temporales en cada prueba, la varianza total de la muestra se divide en dos partes, la primera de las cuales se llama factorial y la segunda, residual.

Calculemos la suma total de las desviaciones al cuadrado del promedio general usando la fórmula

o , donde p es el número de mediciones de tiempo para resolver las tareas del examen, q es el número de examinados. Para hacer esto, creemos una tabla de cuadrados.

No. de sujetos

Niveles de factores

Tiempo para resolver la primera tarea de prueba (en segundos).

Tiempo para resolver la segunda tarea de prueba (en segundos).

Tiempo para resolver la tercera tarea de prueba (en segundos).

¿Qué crees que hace que tu “otra mitad” sea especial y significativa? ¿Está relacionado con su personalidad o con los sentimientos que tienes por esta persona? O tal vez con simple hecho¿Que la hipótesis sobre la aleatoriedad de su simpatía, como muestran los estudios, tiene una probabilidad de menos del 5%? Si consideramos fiable la última afirmación, entonces, en principio, no existirían sitios de citas exitosos:

Cuando realiza pruebas divididas o cualquier otro análisis de su sitio web, malinterpretar la "significancia estadística" puede llevar a una mala interpretación de los resultados y, por lo tanto, a acciones incorrectas en el proceso de optimización de la conversión. Esto es cierto para las miles de otras pruebas estadísticas que se realizan todos los días en todas las industrias existentes.

Para comprender qué es la “importancia estadística”, es necesario profundizar en la historia del término, conocer su verdadero significado y comprender cómo esta “nueva” y antigua comprensión le ayudará a interpretar correctamente los resultados de su investigación.

Una pequeña historia

Aunque la humanidad ha estado utilizando las estadísticas para resolver diversos problemas durante muchos siglos, la comprensión moderna de la significación estadística, la prueba de hipótesis, la aleatorización e incluso el Diseño de Experimentos (DOE) comenzó a tomar forma recién a principios del siglo XX y está indisolublemente ligada a el nombre de Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher fue un biólogo y estadístico evolutivo que tenía una pasión especial por el estudio de la evolución y la selección natural en los reinos animal y vegetal. Durante su ilustre carrera, desarrolló y popularizó muchas herramientas estadísticas útiles que todavía utilizamos hoy.

Fisher utilizó las técnicas que desarrolló para explicar procesos biológicos como la dominancia, las mutaciones y las desviaciones genéticas. Podemos utilizar las mismas herramientas hoy para optimizar y mejorar el contenido de los recursos web. El hecho de que estas herramientas de análisis puedan usarse para trabajar con objetos que ni siquiera existían en el momento de su creación parece bastante sorprendente. Tan sorprendente como antes cálculos complejos la gente actuó sin calculadoras ni computadoras.

Para describir los resultados de un experimento estadístico como si tuvieran una alta probabilidad de ser ciertos, Fisher utilizó la palabra "significancia".

Además, uno de los desarrollos más interesantes de Fisher puede denominarse la hipótesis del "hijo sexy". Según esta teoría, las mujeres prefieren a los hombres sexualmente promiscuos (promiscuos) porque esto permitirá que los hijos nacidos de estos hombres tengan la misma predisposición y produzcan más descendencia (tenga en cuenta que esto es solo una teoría).

Pero nadie, ni siquiera los científicos brillantes, está inmune a cometer errores. Los defectos de Fisher todavía atormentan a los especialistas hasta el día de hoy. Pero recuerde las palabras de Albert Einstein: "Quien nunca ha cometido un error nunca ha creado nada nuevo".

Antes de pasar al siguiente punto, recuerde: la significación estadística se produce cuando la diferencia en los resultados de las pruebas es tan grande que no puede explicarse mediante factores aleatorios.

¿Cuál es tu hipótesis?

Para comprender lo que significa "significancia estadística", primero es necesario comprender qué es la "prueba de hipótesis", ya que los dos términos están estrechamente entrelazados.
Una hipótesis es sólo una teoría. Una vez que haya desarrollado una teoría, necesitará establecer un proceso para recolectar suficiente evidencia y recolectar realmente esa evidencia. Hay dos tipos de hipótesis.

Manzanas o naranjas, ¿cuál es mejor?

Hipótesis nula

Por regla general, aquí es donde muchas personas experimentan dificultades. Una cosa a tener en cuenta es que una hipótesis nula no es algo que deba probarse, como demostrar que un determinado cambio en un sitio web conducirá a un aumento en las conversiones, sino viceversa. La hipótesis nula es una teoría que afirma que si realiza algún cambio en el sitio, no sucederá nada. Y el objetivo del investigador es refutar esta teoría, no probarla.

Si nos fijamos en la experiencia de la resolución de crímenes, donde los investigadores también formulan hipótesis sobre quién es el criminal, la hipótesis nula toma la forma de la llamada presunción de inocencia, el concepto según el cual se presume inocente al acusado hasta que se demuestre su culpabilidad. en un tribunal de justicia.

Si la hipótesis nula es que dos objetos son iguales en sus propiedades y estás tratando de demostrar que uno es mejor (por ejemplo, A es mejor que B), debes rechazar la hipótesis nula en favor de la alternativa. Por ejemplo, está comparando una u otra herramienta de optimización de conversiones. En la hipótesis nula, ambos tienen el mismo efecto (o ningún efecto) sobre el objetivo. Como alternativa, el efecto de uno de ellos es mejor.

Su hipótesis alternativa puede contener un valor numérico, como B - A > 20%. En este caso, la hipótesis nula y la alternativa pueden tomar la siguiente forma:

Otro nombre para una hipótesis alternativa es hipótesis de investigación porque el investigador siempre está interesado en probar esta hipótesis en particular.

Significancia estadística y valor p.

Volvamos nuevamente a Ronald Fisher y su concepto de significación estadística.

Ahora que tienes una hipótesis nula y una alternativa, ¿cómo puedes probar una y refutar la otra?

Dado que la estadística, por su propia naturaleza, implica el estudio de una población específica (muestra), nunca se puede estar 100% seguro de los resultados obtenidos. Un buen ejemplo: los resultados electorales a menudo difieren de los resultados de las encuestas preliminares e incluso de los resultados de las encuestas a boca de urna.

El Dr. Fisher quería crear una línea divisoria que le permitiera saber si su experimento fue un éxito o no. Así apareció el índice de confiabilidad. La credibilidad es el nivel que tomamos para decir lo que consideramos “significativo” y lo que no. Si "p", el índice de significancia, es 0,05 o menos, entonces los resultados son fiables.

No te preocupes, en realidad no es tan confuso como parece.

Distribución de probabilidad gaussiana. A lo largo de los bordes están los valores menos probables de la variable, en el centro están los más probables. La puntuación P (área sombreada en verde) es la probabilidad de que el resultado observado ocurra por casualidad.

La distribución de probabilidad normal (distribución gaussiana) es una representación de todos valores posibles una determinada variable en el gráfico (en la figura anterior) y sus frecuencias. Si investiga correctamente y luego traza todas sus respuestas en un gráfico, obtendrá exactamente esta distribución. Según la distribución normal, recibirá un gran porcentaje de respuestas similares y el resto de opciones se ubicarán en los bordes del gráfico (las llamadas "colas"). Esta distribución de valores se encuentra a menudo en la naturaleza, por eso se la denomina “normal”.

Usando una ecuación basada en su muestra y los resultados de la prueba, puede calcular lo que se llama una "estadística de prueba", que indicará cuánto se desvían sus resultados. También le dirá qué tan cerca está de que la hipótesis nula sea cierta.

Para ayudarle a entenderlo, utilice calculadoras en línea para calcular la significación estadística:

Un ejemplo de este tipo de calculadoras.

La letra "p" representa la probabilidad de que la hipótesis nula sea cierta. Si el número es pequeño, indicará una diferencia entre los grupos de prueba, mientras que la hipótesis nula sería que son iguales. Gráficamente, parecerá que la estadística de su prueba estará más cerca de una de las colas de su distribución en forma de campana.

El Dr. Fisher decidió establecer el umbral de significancia en p ≤ 0,05. Sin embargo, esta afirmación es controvertida, ya que conduce a dos dificultades:

1. Primero, el hecho de que haya demostrado que la hipótesis nula es falsa no significa que haya demostrado la hipótesis alternativa. Todo este significado simplemente significa que no se puede probar ni A ni B.

2. En segundo lugar, si la puntuación p es 0,049, significará que la probabilidad de la hipótesis nula será del 4,9%. Esto puede significar que los resultados de su prueba pueden ser verdaderos y falsos al mismo tiempo.

Puedes usar el p-score o puedes abandonarlo, pero entonces necesitarás todo caso especial Calcule la probabilidad de que la hipótesis nula sea cierta y decida si es lo suficientemente grande como para impedirle realizar los cambios que planeó y probó.

El escenario más común para realizar una prueba estadística hoy en día es establecer un umbral de significancia de p ≤ 0,05 antes de ejecutar la prueba en sí. Solo asegúrese de observar de cerca el valor p cuando verifique sus resultados.

Errores 1 y 2

Ha pasado tanto tiempo que los errores que pueden ocurrir al utilizar la métrica de significancia estadística incluso han recibido nombres propios.

Errores tipo 1

Como se mencionó anteriormente, un valor p de 0,05 significa que hay un 5% de posibilidades de que la hipótesis nula sea cierta. Si no lo hace, cometerá el error número 1. Los resultados dicen que su nuevo sitio web aumentó sus tasas de conversión, pero hay un 5% de posibilidades de que no sea así.

Errores tipo 2

Este error es el opuesto al error 1: se acepta la hipótesis nula cuando es falsa. Por ejemplo, los resultados de las pruebas le indican que los cambios realizados en el sitio no aportaron ninguna mejora, aunque sí hubo cambios. Como resultado, pierde la oportunidad de mejorar su desempeño.

Este error es común en pruebas con un tamaño de muestra insuficiente, así que recuerde: cuanto mayor sea la muestra, más confiable será el resultado.

Conclusión

Quizás ningún término sea tan popular entre los investigadores como significación estadística. Cuando los resultados de las pruebas no son estadísticamente significativos, las consecuencias van desde un aumento en las tasas de conversión hasta el colapso de una empresa.

Y dado que los especialistas en marketing utilizan este término cuando optimizan sus recursos, es necesario saber qué significa realmente. Las condiciones de la prueba pueden variar, pero el tamaño de la muestra y los criterios de éxito siempre son importantes. Recuerda esto.

La significancia estadística o nivel p de significancia es el resultado principal de la prueba.

hipótesis estadística. Discurso Lenguaje técnico, es la probabilidad de recibir un determinado

el resultado de un estudio de muestra, siempre que de hecho para el general

En conjunto, la hipótesis estadística nula es cierta, es decir, no hay conexión. En otras palabras, este

la probabilidad de que la relación detectada sea aleatoria y no una propiedad

totalidad. Es la significancia estadística, el nivel p de significancia, es decir

evaluación cuantitativa Fiabilidad de la comunicación: cuanto menor sea esta probabilidad, más fiable será la conexión.

Supongamos que, al comparar dos medias muestrales, se obtuvo un valor de nivel

significación estadística p=0,05. Esto significa que probar la hipótesis estadística sobre

La igualdad de medias en la población mostró que si es cierto, entonces la probabilidad

La aparición aleatoria de diferencias detectadas no supera el 5%. En otras palabras, si

Se extrajeron repetidamente dos muestras de la misma población, luego en 1 de

20 casos revelarían la misma o mayor diferencia entre las medias de estas muestras.

Es decir, existe un 5% de posibilidades de que las diferencias encontradas se deban al azar.

carácter, y no son una propiedad del agregado.

En una relación hipótesis científica El nivel de significación estadística es cuantitativo.

un indicador del grado de desconfianza en la conclusión sobre la existencia de una conexión, calculado a partir de los resultados

prueba empírica y selectiva de esta hipótesis. Cuanto menor sea el valor del nivel p, mayor

la importancia estadística de un resultado de investigación que confirma una hipótesis científica.

Es útil saber qué influye en el nivel de significancia. Nivel de significancia, en igualdad de condiciones

Las condiciones son mayores (el valor del nivel p es menor) si:

La magnitud de la conexión (diferencia) es mayor;

La variabilidad de los rasgos es menor;

El tamaño de la muestra es mayor.

Unilateral Pruebas de significancia bilateral

Si el propósito del estudio es identificar diferencias en los parámetros de dos parámetros generales

agregados que corresponden a sus diversas condiciones naturales ( condiciones de vida,

edad de los sujetos, etc.), entonces a menudo se desconoce cuál de estos parámetros será mayor, y

¿Cuál es más pequeño?

Por ejemplo, si está interesado en la variabilidad de los resultados de una prueba y

grupos experimentales, entonces, como regla general, no hay confianza en el signo de la diferencia en las varianzas o

desviaciones estandar resultados a partir de los cuales se evalúa la variabilidad. En este caso

la hipótesis nula es que las varianzas son iguales y el propósito del estudio es

demostrar lo contrario, es decir presencia de diferencias entre varianzas. Está permitido que

la diferencia puede ser de cualquier signo. Estas hipótesis se denominan bilaterales.

Pero a veces el desafío consiste en demostrar un aumento o una disminución de un parámetro;

por ejemplo, el resultado promedio en el grupo experimental es mayor que el del grupo de control. Donde

Ya no se permite que la diferencia pueda ser de distinto signo. A este tipo de hipótesis se les llama

Unilateral.

Las pruebas de significancia utilizadas para probar hipótesis bilaterales se denominan

De doble cara y unilateral: unilateral.

Surge la pregunta de qué criterio debe elegirse en un caso determinado. Respuesta

Esta pregunta va más allá de lo formal. métodos de estadística y completamente

Depende de los objetivos del estudio. En ningún caso se debe elegir uno u otro criterio después de

Realizar un experimento basado en el análisis de datos experimentales, ya que esto puede

Llevar a conclusiones incorrectas. Si antes de realizar un experimento se supone que la diferencia

Los parámetros comparados pueden ser positivos o negativos, entonces debes