Símbolo x desviación estándar. Dispersión, desviación cuadrática media (estándar), coeficiente de variación

Vale la pena señalar que este cálculo de la varianza tiene un inconveniente: resulta sesgado, es decir, su expectativa matemática no es igual al valor real de la varianza. Lea más sobre esto. Al mismo tiempo, no todo es tan malo. A medida que aumenta el tamaño de la muestra, todavía se acerca a su análogo teórico, es decir. es asintóticamente insesgado. Por lo tanto, cuando se trabaja con tallas grandes muestras, puede utilizar la fórmula anterior.

Es útil traducir el lenguaje de signos al lenguaje de palabras. Resulta que la varianza es el cuadrado promedio de las desviaciones. Es decir, primero se calcula el valor promedio, luego se toma la diferencia entre cada valor original y promedio, se eleva al cuadrado, se suma y luego se divide por el número de valores de la población. La diferencia entre un valor individual y el promedio refleja la medida de la desviación. Se eleva al cuadrado para que todas las desviaciones se conviertan en números exclusivamente positivos y para evitar la destrucción mutua de las desviaciones positivas y negativas al sumarlas. Luego, dadas las desviaciones al cuadrado, simplemente calculamos la media aritmética. Promedio - cuadrado - desviaciones. Las desviaciones se elevan al cuadrado y se calcula el promedio. La solución está en sólo tres palabras.

Sin embargo, en forma pura, como la media aritmética o índice, no se utiliza la varianza. Es más bien un indicador auxiliar e intermedio necesario para otros tipos de análisis estadístico. Ni siquiera tiene una unidad de medida normal. A juzgar por la fórmula, este es el cuadrado de la unidad de medida de los datos originales. Sin botella, como dicen, no puedes entenderlo.

(módulo 111)

Para devolver la dispersión a la realidad, es decir, utilizarla para fines más mundanos, extraemos de ella Raíz cuadrada. Resulta el llamado promedio Desviación Estándar(RMS). Hay nombres " Desviación Estándar"o "sigma" (del nombre de la letra griega). La fórmula de la desviación estándar es:

Para obtener este indicador para la muestra, utilice la fórmula:

Al igual que con la varianza, existe una opción de cálculo ligeramente diferente. Pero a medida que la muestra crece, la diferencia desaparece.

La desviación estándar, obviamente, también caracteriza la medida de dispersión de datos, pero ahora (a diferencia de la dispersión) se puede comparar con los datos originales, ya que tienen las mismas unidades de medida (esto se desprende de la fórmula de cálculo). Pero este indicador en su forma pura no es muy informativo, ya que contiene demasiados cálculos intermedios que resultan confusos (desviación, cuadrado, suma, promedio, raíz). Sin embargo, ya es posible trabajar directamente con la desviación estándar, porque las propiedades de este indicador están bien estudiadas y conocidas. Por ejemplo, existe este regla tres sigma, que establece que los datos tienen 997 valores de 1000 dentro de ±3 sigma de la media aritmética. La desviación estándar, como medida de incertidumbre, también interviene en muchos cálculos estadísticos. Con su ayuda, se determina el grado de precisión de diversas estimaciones y pronósticos. Si la variación es muy grande, entonces la desviación estándar también será grande y, por tanto, el pronóstico será inexacto, lo que se expresará, por ejemplo, en intervalos de confianza muy amplios.

El coeficiente de variación.

Promedio Desviación Estándar da una estimación absoluta de la medida de dispersión. Por lo tanto, para comprender qué tan grande es el diferencial en relación con los valores mismos (es decir, independientemente de su escala), se requiere un indicador relativo. Este indicador se llama coeficiente de variación y se calcula mediante la siguiente fórmula:

El coeficiente de variación se mide como porcentaje (si se multiplica por 100%). Con este indicador, puede comparar una variedad de fenómenos, independientemente de su escala y unidades de medida. Este hecho y hace que el coeficiente de variación sea tan popular.

En estadística se acepta que si el valor del coeficiente de variación es menor al 33%, entonces la población se considera homogénea; si es mayor al 33%, entonces es heterogénea. Es difícil para mí comentar algo aquí. No sé quién definió esto y por qué, pero se considera un axioma.

Siento que me dejo llevar por la teoría seca y necesito aportar algo visual y figurativo. Por otro lado, todos los indicadores de variación describen aproximadamente lo mismo, sólo que se calculan de forma diferente. Por lo tanto, es difícil mostrar una variedad de ejemplos: sólo pueden diferir los valores de los indicadores, pero no su esencia. Entonces, comparemos cómo difieren los valores de varios indicadores de variación para el mismo conjunto de datos. Tomemos el ejemplo del cálculo de la desviación lineal promedio (de ). Aquí están los datos de origen:

Y un horario para recordártelo.

Con estos datos calculamos varios indicadores variaciones.

El valor medio es la media aritmética habitual.

El rango de variación es la diferencia entre el máximo y el mínimo:

Promedio desviación lineal calculado por la fórmula:

Desviación Estándar:

Resumamos el cálculo en una tabla.

Como puede verse, la media lineal y la desviación estándar dan valores similares para el grado de variación de los datos. La varianza es sigma al cuadrado, por lo que siempre será relativa un número grande, lo cual, de hecho, no significa nada. El rango de variación es la diferencia entre valores extremos y puede decir mucho.

Resumamos algunos resultados.

La variación de un indicador refleja la variabilidad de un proceso o fenómeno. Su grado se puede medir utilizando varios indicadores.

1. Rango de variación: la diferencia entre el máximo y el mínimo. Refleja el rango valores posibles.
2. Desviación lineal promedio: refleja el promedio de las desviaciones absolutas (módulo) de todos los valores de la población analizada de su valor promedio.
3. Dispersión: el cuadrado medio de las desviaciones.
4. La desviación estándar es la raíz de la dispersión (el cuadrado medio de las desviaciones).
5. El coeficiente de variación es el indicador más universal y refleja el grado de dispersión de los valores, independientemente de su escala y unidades de medida. El coeficiente de variación se mide como porcentaje y se puede utilizar para comparar la variación de diferentes procesos y fenómenos.

Así, en análisis estadístico existe un sistema de indicadores que reflejan la homogeneidad de los fenómenos y la estabilidad de los procesos. A menudo, los indicadores de variación no tienen un significado independiente y se utilizan para análisis de datos adicionales (cálculo de intervalos de confianza).

En pruebas estadísticas de hipótesis, al medir una relación lineal entre variables aleatorias.

Desviación Estándar:

Desviación Estándar(estimación de la desviación estándar variable aleatoria El suelo, las paredes que nos rodean y el techo, X con respecto a ella expectativa matemática basado en una estimación insesgada de su varianza):

¿Dónde está la dispersión? - El suelo, las paredes que nos rodean y el techo, iº elemento de la selección; - tamaño de la muestra; - media aritmética de la muestra:

Cabe señalar que ambas estimaciones están sesgadas. En el caso general, es imposible elaborar una estimación insesgada. Sin embargo, la estimación basada en la estimación de la varianza insesgada es consistente.

regla tres sigma

regla tres sigma(): casi todos los valores de una variable aleatoria distribuida normalmente se encuentran en el intervalo. Más estrictamente, con al menos un 99,7% de confianza, el valor de una variable aleatoria distribuida normalmente se encuentra en el intervalo especificado (siempre que el valor sea verdadero y no se obtenga como resultado del procesamiento de la muestra).

Si se desconoce el valor real, entonces no deberíamos utilizarlo, sino el suelo, las paredes que nos rodean y el techo. s. Así, la regla de tres sigma se transforma en regla de tres Piso, paredes que nos rodean y techo, s .

Interpretación del valor de la desviación estándar.

Un valor grande de la desviación estándar muestra una gran variedad de valores en el conjunto presentado con tamaño promedio multitudes; pequeño valor, en consecuencia, muestra que los valores del conjunto están agrupados alrededor del valor medio.

Por ejemplo, tenemos tres conjuntos numéricos: (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8). Los tres conjuntos tienen valores medios iguales a 7 y desviaciones estándar, respectivamente, iguales a 7, 5 y 1. El último conjunto tiene una desviación estándar pequeña, ya que los valores del conjunto se agrupan alrededor del valor medio; el primer conjunto tiene más gran importancia desviación estándar: los valores dentro del conjunto difieren mucho del valor promedio.

En sentido general, la desviación estándar puede considerarse una medida de incertidumbre. Por ejemplo, en física, la desviación estándar se utiliza para determinar el error de una serie de mediciones sucesivas de alguna cantidad. Este valor es muy importante para determinar la plausibilidad del fenómeno en estudio en comparación con el valor predicho por la teoría: si el valor promedio de las mediciones difiere mucho de los valores predichos por la teoría (gran desviación estándar), luego se deben volver a verificar los valores obtenidos o el método para obtenerlos.

Uso práctico

En la práctica, la desviación estándar le permite determinar cuánto pueden diferir los valores de un conjunto del valor promedio.

Clima

Supongamos que hay dos ciudades con la misma temperatura máxima diaria promedio, pero una está ubicada en la costa y la otra en el interior. Se sabe que las ciudades ubicadas en la costa tienen muchas temperaturas máximas diurnas diferentes que son más bajas que las ciudades ubicadas en el interior. Por lo tanto, la desviación estándar de las temperaturas máximas diarias para una ciudad costera será menor que para la segunda ciudad, a pesar de que el valor promedio de este valor es el mismo, lo que en la práctica significa que la probabilidad de que la temperatura máxima del aire en cualquier día del año será mayor que el valor medio, mayor para una ciudad situada en el interior.

Deporte

Supongamos que hay varios equipos de fútbol que se clasifican según algún conjunto de parámetros, por ejemplo, el número de goles marcados y concedidos, oportunidades de gol, etc. Lo más probable es que el mejor equipo de este grupo tenga mejores valores. en más parámetros. Cuanto menor sea la desviación estándar del equipo para cada uno de los parámetros presentados, más predecible será el resultado del equipo; dichos equipos están equilibrados. Por otro lado, el equipo con gran valor La desviación estándar dificulta predecir el resultado, lo que a su vez se explica por un desequilibrio, por ejemplo, una defensa fuerte pero un ataque débil.

El uso de la desviación estándar de los parámetros del equipo permite, en un grado u otro, predecir el resultado de un partido entre dos equipos, evaluando las fortalezas y lados débilesórdenes y, por tanto, los métodos de lucha elegidos.

Análisis técnico

ver también

Literatura

* Borovikov, V. ESTADÍSTICAS. El arte del análisis de datos en una computadora: para profesionales / V. Borovikov. - San Petersburgo. : Pedro, 2003. - 688 p. -ISBN 5-272-00078-1.

El programa Excel es muy valorado tanto por profesionales como por aficionados, porque usuarios de cualquier nivel pueden trabajar con él. Por ejemplo, cualquier persona con habilidades mínimas de “comunicación” en Excel puede dibujar un gráfico simple, hacer un plato decente, etc.

Al mismo tiempo, este programa incluso le permite realizar varios tipos de cálculos, por ejemplo, cálculos, pero esto requiere un nivel de formación ligeramente diferente. Sin embargo, si acaba de empezar a familiarizarse con este programa y está interesado en todo lo que le ayudará a convertirse en un usuario más avanzado, este artículo es para usted. Hoy te diré qué es la fórmula de la desviación estándar en Excel, por qué es necesaria y, estrictamente hablando, cuándo se usa. ¡Ir!

Lo que es

Empecemos con la teoría. La desviación estándar suele denominarse raíz cuadrada que se obtiene de la media aritmética de todas las diferencias al cuadrado entre las cantidades disponibles, así como de su media aritmética. Por cierto, este valor se suele llamar la letra griega "sigma". La desviación estándar se calcula utilizando la fórmula STANDARDEVAL; en consecuencia, el programa lo hace por sí mismo.

La esencia de este concepto es identificar el grado de variabilidad de un instrumento, es decir, es, a su manera, un indicador derivado de la estadística descriptiva. Identifica cambios en la volatilidad de un instrumento durante un período de tiempo determinado. Las fórmulas STDEV se pueden utilizar para estimar la desviación estándar de una muestra, ignorando los valores booleanos y de texto.

Fórmula

Ayuda a calcular la desviación estándar en fórmula de excel, que se proporciona automáticamente en programa excel. Para encontrarlo, debes buscar la sección de fórmulas en Excel y luego seleccionar la que se llama ESTANDARDEVAL, por lo que es muy simple.

Después de eso, aparecerá una ventana frente a usted en la que deberá ingresar datos para el cálculo. En particular, se deben ingresar dos números en campos especiales, después de lo cual el programa calculará la desviación estándar de la muestra.

Sin duda, las fórmulas y los cálculos matemáticos son una cuestión bastante compleja y no todos los usuarios pueden afrontarla de inmediato. Sin embargo, si profundizas un poco más y miras el tema con un poco más de detalle, resulta que no todo es tan triste. Espero que esté convencido de esto con el ejemplo del cálculo de la desviación estándar.

Vídeo para ayudar

En pruebas estadísticas de hipótesis, al medir una relación lineal entre variables aleatorias.

Desviación Estándar:

Desviación Estándar(estimación de la desviación estándar de la variable aleatoria Piso, las paredes que nos rodean y el techo, X en relación con su expectativa matemática basada en una estimación insesgada de su varianza):

¿Dónde está la dispersión? - El suelo, las paredes que nos rodean y el techo, iº elemento de la selección; - tamaño de la muestra; - media aritmética de la muestra:

Cabe señalar que ambas estimaciones están sesgadas. En el caso general, es imposible elaborar una estimación insesgada. Sin embargo, la estimación basada en la estimación de la varianza insesgada es consistente.

regla tres sigma

regla tres sigma(): casi todos los valores de una variable aleatoria distribuida normalmente se encuentran en el intervalo. Más estrictamente, con al menos un 99,7% de confianza, el valor de una variable aleatoria distribuida normalmente se encuentra en el intervalo especificado (siempre que el valor sea verdadero y no se obtenga como resultado del procesamiento de la muestra).

Si se desconoce el valor real, entonces no deberíamos utilizarlo, sino el suelo, las paredes que nos rodean y el techo. s. Así, la regla de tres sigma se transforma en regla de tres Piso, paredes que nos rodean y techo, s .

Interpretación del valor de la desviación estándar.

Un valor grande de la desviación estándar muestra una gran dispersión de valores en el conjunto presentado con el valor promedio del conjunto; En consecuencia, un valor pequeño muestra que los valores del conjunto están agrupados alrededor del valor medio.

Por ejemplo, tenemos tres conjuntos de números: (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8). Los tres conjuntos tienen valores medios iguales a 7 y desviaciones estándar, respectivamente, iguales a 7, 5 y 1. El último conjunto tiene una desviación estándar pequeña, ya que los valores del conjunto se agrupan alrededor del valor medio; el primer conjunto tiene el valor de desviación estándar más grande: los valores dentro del conjunto difieren mucho del valor promedio.

En sentido general, la desviación estándar puede considerarse una medida de incertidumbre. Por ejemplo, en física, la desviación estándar se utiliza para determinar el error de una serie de mediciones sucesivas de alguna cantidad. Este valor es muy importante para determinar la plausibilidad del fenómeno en estudio en comparación con el valor predicho por la teoría: si el valor promedio de las mediciones difiere mucho de los valores predichos por la teoría (gran desviación estándar), luego se deben volver a verificar los valores obtenidos o el método para obtenerlos.

Uso práctico

En la práctica, la desviación estándar le permite determinar cuánto pueden diferir los valores de un conjunto del valor promedio.

Clima

Supongamos que hay dos ciudades con la misma temperatura máxima diaria promedio, pero una está ubicada en la costa y la otra en el interior. Se sabe que las ciudades ubicadas en la costa tienen muchas temperaturas máximas diurnas diferentes que son más bajas que las ciudades ubicadas en el interior. Por lo tanto, la desviación estándar de las temperaturas máximas diarias para una ciudad costera será menor que para la segunda ciudad, a pesar de que el valor promedio de este valor es el mismo, lo que en la práctica significa que la probabilidad de que la temperatura máxima del aire en cualquier día del año será mayor que el valor medio, mayor para una ciudad situada en el interior.

Deporte

Supongamos que hay varios equipos de fútbol que se clasifican según algún conjunto de parámetros, por ejemplo, el número de goles marcados y concedidos, oportunidades de gol, etc. Lo más probable es que el mejor equipo de este grupo tenga mejores valores. en más parámetros. Cuanto menor sea la desviación estándar del equipo para cada uno de los parámetros presentados, más predecible será el resultado del equipo; dichos equipos están equilibrados. Por otro lado, un equipo con una desviación estándar grande es difícil de predecir el resultado, lo que a su vez se explica por un desequilibrio, por ejemplo, una defensa fuerte pero un ataque débil.

El uso de la desviación estándar de los parámetros del equipo permite, en un grado u otro, predecir el resultado de un partido entre dos equipos, evaluando las fortalezas y debilidades de los equipos y, por lo tanto, los métodos de lucha elegidos.

Análisis técnico

ver también

Literatura

* Borovikov, V. ESTADÍSTICAS. El arte del análisis de datos en una computadora: para profesionales / V. Borovikov. - San Petersburgo. : Pedro, 2003. - 688 p. -ISBN 5-272-00078-1.

X yo - variables aleatorias (actuales);

X el valor promedio de las variables aleatorias para la muestra se calcula mediante la fórmula:

Entonces, la varianza es el cuadrado promedio de las desviaciones . Es decir, primero se calcula el valor promedio y luego se toma la diferencia entre cada valor original y promedio se eleva al cuadrado , se suma y luego se divide por el número de valores de la población.

La diferencia entre un valor individual y el promedio refleja la medida de la desviación. Se eleva al cuadrado para que todas las desviaciones se conviertan en números exclusivamente positivos y para evitar la destrucción mutua de las desviaciones positivas y negativas al sumarlas. Luego, dadas las desviaciones al cuadrado, simplemente calculamos la media aritmética.

Solución Palabra mágica“dispersión” consta sólo de estas tres palabras: media – cuadrática – desviaciones.

Desviación estándar (MSD)

Tomando la raíz cuadrada de la varianza obtenemos el llamado “ Desviación Estándar". hay nombres "desviación estándar" o "sigma" (del nombre de la letra griega σ .). La fórmula para la desviación estándar es:

Entonces, la dispersión es sigma al cuadrado o es la desviación estándar al cuadrado.

La desviación estándar, obviamente, también caracteriza la medida de dispersión de datos, pero ahora (a diferencia de la dispersión) se puede comparar con los datos originales, ya que tienen las mismas unidades de medida (esto se desprende de la fórmula de cálculo). El rango de variación es la diferencia entre valores extremos. La desviación estándar, como medida de incertidumbre, también interviene en muchos cálculos estadísticos. Con su ayuda, se determina el grado de precisión de diversas estimaciones y pronósticos. Si la variación es muy grande, entonces la desviación estándar también será grande y, por tanto, el pronóstico será inexacto, lo que se expresará, por ejemplo, en intervalos de confianza muy amplios.

Por lo tanto, en los métodos de procesamiento de datos estadísticos en valoraciones inmobiliarias, dependiendo de la precisión requerida de la tarea, se utiliza la regla de dos o tres sigma.

Para comparar la regla de dos sigma y la regla de tres sigma, utilizamos la fórmula de Laplace:

F-F,

donde Ф(x) es la función de Laplace;



Valor mínimo

β = valor máximo

s = valor sigma (desviación estándar)

a = promedio

En este caso, se utiliza una forma particular de la fórmula de Laplace cuando los límites α y β de los valores de la variable aleatoria X están equidistantes del centro de la distribución a = M(X) por un cierto valor d: a = a-d, b = a+d. O (1) La fórmula (1) determina la probabilidad de una desviación dada d de una variable aleatoria X con una ley de distribución normal a partir de su expectativa matemática M(X) = a. Si en la fórmula (1) tomamos secuencialmente d = 2s y d = 3s, obtenemos: (2), (3).

regla de dos sigma

Puede ser casi confiable (con una probabilidad de confianza de 0,954) que todos los valores de una variable aleatoria X con una ley de distribución normal se desvíen de su expectativa matemática M(X) = a en una cantidad no mayor a 2 s (dos desviaciones estándar ). La probabilidad de confianza (Pd) es la probabilidad de eventos que se aceptan convencionalmente como confiables (su probabilidad es cercana a 1).

Ilustremos geométricamente la regla de dos sigma. En la Fig. La figura 6 muestra una curva gaussiana con el centro de distribución a. El área limitada por toda la curva y el eje Ox es igual a 1 (100%), y el área del trapezoide curvilíneo entre las abscisas a–2s y a+2s, según la regla de dos sigma, es igual a 0,954 (95,4% del área total). El área de las áreas sombreadas es 1-0,954 = 0,046 (»5% del área total). Estas áreas se denominan región crítica de la variable aleatoria. Los valores de una variable aleatoria que caen en la región crítica son poco probables y, en la práctica, se aceptan convencionalmente como imposibles.

La probabilidad de valores condicionalmente imposibles se denomina nivel de significancia de una variable aleatoria. El nivel de significancia está relacionado con la probabilidad de confianza mediante la fórmula:

donde q es el nivel de significancia expresado como porcentaje.

regla tres sigma

Al resolver problemas que requieren mayor confiabilidad, cuando la probabilidad de confianza (Pd) se toma igual a 0.997 (más precisamente, 0.9973), en lugar de la regla de dos sigma, de acuerdo con la fórmula (3), se usa la regla tres sigma



De acuerdo a regla tres sigma con una probabilidad de confianza de 0,9973, el área crítica será el área de valores de atributos fuera del intervalo (a-3s, a+3s). El nivel de significancia es del 0,27%.

En otras palabras, la probabilidad de que el valor absoluto de la desviación exceda el triple de la desviación estándar es muy pequeña, concretamente 0,0027 = 1-0,9973. Esto significa que sólo en el 0,27% de los casos esto sucederá. Tales eventos, basados ​​​​en el principio de imposibilidad de eventos improbables, pueden considerarse prácticamente imposibles. Aquellos. El muestreo es muy preciso.

Esta es la esencia de la regla tres sigma:

Si una variable aleatoria se distribuye normalmente, entonces el valor absoluto de su desviación de la expectativa matemática no excede tres veces la desviación estándar (MSD).

En la práctica, la regla de tres sigma se aplica de la siguiente manera: si se desconoce la distribución de la variable aleatoria en estudio, pero se cumple la condición especificada en la regla anterior, entonces hay razones para suponer que la variable en estudio tiene una distribución normal. ; de lo contrario, no se distribuye normalmente.

El nivel de importancia se toma dependiendo del grado de riesgo permitido y de la tarea en cuestión. Para la valoración de inmuebles se suele adoptar una muestra menos precisa, siguiendo la regla de los dos sigma.