Ejemplos del método de mínimos cuadrados de metrología. Método de mínimos cuadrados. Areas de aplicación

Método mínimos cuadrados(LSM) le permite estimar varias cantidades utilizando los resultados de muchas mediciones que contienen errores aleatorios.

Características de las empresas multinacionales

Idea principal este método Consiste en que como criterio para la precisión en la resolución de un problema se considera la suma de errores al cuadrado, que se esfuerzan por minimizar. Cuando se utiliza este método, se pueden utilizar enfoques tanto numéricos como analíticos.

En particular, como implementación numérica, el método de mínimos cuadrados implica tomar tantas medidas como sea posible de la incógnita. variable aleatoria. Además, cuantos más cálculos, más precisa será la solución. A partir de este conjunto de cálculos (datos iniciales), se obtiene otro conjunto de soluciones estimadas, de las que luego se selecciona la mejor. Si el conjunto de soluciones está parametrizado, entonces el método de mínimos cuadrados se reducirá a encontrar valor optimo parámetros.

Como enfoque analítico para la implementación de LSM sobre un conjunto de datos iniciales (mediciones) y un conjunto esperado de soluciones, se determina uno determinado (funcional), que puede expresarse mediante una fórmula obtenida como una determinada hipótesis que requiere confirmación. En este caso, el método de mínimos cuadrados se reduce a encontrar el mínimo de este funcional en el conjunto de errores al cuadrado de los datos originales.

Tenga en cuenta que no se trata de los errores en sí, sino de los cuadrados de los errores. ¿Por qué? El hecho es que a menudo las desviaciones de las mediciones del valor exacto son tanto positivas como negativas. Al determinar el promedio, una simple suma puede llevar a una conclusión incorrecta sobre la calidad de la estimación, ya que la cancelación de valores positivos y negativos reducirá la capacidad de muestrear múltiples mediciones. Y, en consecuencia, la exactitud de la valoración.

Para evitar que esto suceda, se suman las desviaciones al cuadrado. Además, para igualar la dimensión del valor medido y la estimación final, se extrae la suma de los errores al cuadrado.

Algunas aplicaciones de MNC

OLS se utiliza ampliamente en diversos campos. Por ejemplo, en teoría de la probabilidad y estadística matemática, el método se utiliza para determinar una característica de una variable aleatoria como la desviación estándar, que determina el ancho del rango de valores de la variable aleatoria.

El método de mínimos cuadrados es un procedimiento matemático para construir una ecuación lineal que se ajuste mejor a un conjunto de pares ordenados encontrando los valores de a y b, los coeficientes en la ecuación de la recta. El objetivo de los mínimos cuadrados es minimizar el error cuadrático total entre los valores de y y ŷ. Si para cada punto determinamos el error ŷ, el método de mínimos cuadrados minimiza:

donde n = número de pares ordenados alrededor de la recta. lo más cerca posible de los datos.

Este concepto se ilustra en la figura.

Según la figura, la línea que mejor se ajusta a los datos, la línea de regresión, minimiza el error cuadrático total de los cuatro puntos del gráfico. Te mostraré cómo determinar esto usando mínimos cuadrados con el siguiente ejemplo.

Imagine una pareja joven que se ha mudado recientemente y comparte un tocador en el baño. El joven empezó a notar que la mitad de su mesa se iba reduciendo inexorablemente, perdiendo terreno frente a las espumas para el cabello y los complejos de soja. Durante los últimos meses, el chico había estado monitoreando de cerca el ritmo al que aumentaba la cantidad de objetos en su lado de la mesa. La siguiente tabla muestra la cantidad de artículos que la niña ha acumulado en el tocador de su baño durante los últimos meses.

Dado que nuestro objetivo es averiguar si la cantidad de artículos aumenta con el tiempo, "Mes" será la variable independiente y "Número de artículos" será la variable dependiente.

Usando el método de mínimos cuadrados, determinamos la ecuación que mejor se ajusta a los datos calculando los valores de a, la intersección con el eje y, y b, la pendiente de la recta:

a = y promedio - bx promedio

donde x avg es el valor promedio de x, la variable independiente, y avg es el valor promedio de y, la variable independiente.

La siguiente tabla resume los cálculos necesarios para estas ecuaciones.

La curva de efecto para nuestro ejemplo de bañera estaría dada por la siguiente ecuación:

Dado que nuestra ecuación tiene una pendiente positiva de 0,976, el hombre tiene evidencia de que la cantidad de elementos sobre la mesa aumenta con el tiempo a una tasa promedio de 1 elemento por mes. El gráfico muestra la curva del efecto con pares ordenados.

La expectativa de número de artículos durante los próximos seis meses (mes 16) se calculará de la siguiente manera:

ŷ = 5,13 + 0,976x = 5,13 + 0,976(16) ~ 20,7 = 21 ítems

Entonces, es hora de que nuestro héroe actúe.

Función TENDENCIA en Excel

Como probablemente ya habrás adivinado, Excel tiene una función para calcular valores por método de mínimos cuadrados. Esta función se llama TENDENCIA. Su sintaxis es la siguiente:

TENDENCIA ( valores conocidos Y; valores conocidos de X; nuevos valores de X; constante)

valores Y conocidos: una matriz de variables dependientes, en nuestro caso, la cantidad de objetos en la mesa

valores conocidos X: una matriz de variables independientes, en nuestro caso este es el mes

nuevos valores X – nuevos valores X (meses) para los cuales Función TENDENCIA devuelve el valor esperado de las variables dependientes (número de elementos)

constante - opcional. Un valor booleano que especifica si se requiere que la constante b sea 0.

Por ejemplo, la figura muestra la función TENDENCIA utilizada para determinar la cantidad esperada de artículos en un tocador de baño durante el decimosexto mes.

Ejemplo.

Datos experimentales sobre los valores de las variables. X Y en se dan en la tabla.

Como resultado de su alineación, se obtiene la función.

Usando método de mínimos cuadrados, aproxima estos datos mediante una dependencia lineal y=ax+b(buscar parámetros A Y b). Descubra cuál de las dos líneas alinea mejor (en el sentido del método de mínimos cuadrados) los datos experimentales. Haz un dibujo.

La esencia del método de mínimos cuadrados (LSM).

La tarea es encontrar los coeficientes. dependencia lineal, para lo cual la función de dos variables A Y b toma el valor más pequeño. Es decir, dado A Y b la suma de las desviaciones al cuadrado de los datos experimentales de la línea recta encontrada será la más pequeña. Este es el objetivo del método de mínimos cuadrados.

Por tanto, resolver el ejemplo se reduce a encontrar el extremo de una función de dos variables.

Derivar fórmulas para encontrar coeficientes.

Se compila y resuelve un sistema de dos ecuaciones con dos incógnitas. Encontrar las derivadas parciales de una función. por variables A Y b, equiparamos estas derivadas a cero.

Resolvemos el sistema de ecuaciones resultante usando cualquier método (por ejemplo por método de sustitución o método de cramer) y obtener fórmulas para encontrar coeficientes utilizando el método de mínimos cuadrados (LSM).

Dado A Y b función toma el valor más pequeño. La prueba de este hecho se da abajo en el texto al final de la página.

Ese es todo el método de mínimos cuadrados. Fórmula para encontrar el parámetro. a contiene las sumas,, y el parámetro norte- cantidad de datos experimentales. Recomendamos calcular los valores de estos importes por separado. Coeficiente b encontrado después del cálculo a.

Es hora de recordar el ejemplo original.

Solución.

En nuestro ejemplo n=5. Completamos la tabla para facilitar el cálculo de los montos que se incluyen en las fórmulas de los coeficientes requeridos.

Los valores de la cuarta fila de la tabla se obtienen multiplicando los valores de la 2ª fila por los valores de la 3ª fila para cada número i.

Los valores de la quinta fila de la tabla se obtienen elevando al cuadrado los valores de la 2ª fila para cada número i.

Los valores de la última columna de la tabla son las sumas de los valores de las filas.

Usamos las fórmulas del método de mínimos cuadrados para encontrar los coeficientes. A Y b. Sustituimos en ellos los valores correspondientes de la última columna de la tabla:

Por eso, y = 0,165x+2,184- la recta de aproximación deseada.

Queda por descubrir cuál de las líneas y = 0,165x+2,184 o se aproxima mejor a los datos originales, es decir, hace una estimación utilizando el método de mínimos cuadrados.

Estimación del error del método de mínimos cuadrados.

Para hacer esto, necesita calcular la suma de las desviaciones al cuadrado de los datos originales de estas líneas. Y , un valor menor corresponde a una línea que se aproxima mejor a los datos originales en el sentido del método de mínimos cuadrados.

Desde entonces directo y = 0,165x+2,184 se aproxima mejor a los datos originales.

Ilustración gráfica del método de mínimos cuadrados (LS).

Todo es claramente visible en los gráficos. La línea roja es la línea recta encontrada. y = 0,165x+2,184, la línea azul es , los puntos rosas son los datos originales.

En la práctica, al modelar varios procesos, en particular económicos, físicos, técnicos y sociales, se utiliza ampliamente uno u otro método para calcular valores aproximados de funciones a partir de sus valores conocidos en ciertos puntos fijos.

Este tipo de problema de aproximación de funciones surge a menudo:

    al construir fórmulas aproximadas para calcular los valores de cantidades características del proceso en estudio utilizando datos tabulares obtenidos como resultado del experimento;

    en integración numérica, diferenciación, solución. ecuaciones diferenciales etc.;

    si es necesario, calcule los valores de funciones en puntos intermedios del intervalo considerado;

    al determinar los valores de las cantidades características de un proceso fuera del intervalo considerado, en particular al realizar predicciones.

Si, para modelar un determinado proceso especificado por una tabla, construimos una función que describa aproximadamente este proceso según el método de mínimos cuadrados, se llamará función de aproximación (regresión) y la tarea de construir funciones de aproximación en sí se llamará un problema de aproximación.

Este artículo analiza las capacidades del paquete MS Excel para resolver este tipo de problemas; además, proporciona métodos y técnicas para construir (crear) regresiones para funciones tabuladas (que es la base del análisis de regresión).

Excel tiene dos opciones para construir regresiones.

    Agregar regresiones seleccionadas (líneas de tendencia) a un diagrama construido sobre la base de una tabla de datos para la característica del proceso en estudio (disponible solo si se ha construido un diagrama);

    Utilizando las funciones estadísticas integradas de la hoja de cálculo de Excel, lo que le permite obtener regresiones (líneas de tendencia) directamente desde la tabla de datos de origen.

Agregar líneas de tendencia a un gráfico

Para una tabla de datos que describe un proceso y está representada por un diagrama, Excel tiene una herramienta eficaz de análisis de regresión que le permite:

    construir sobre la base del método de mínimos cuadrados y agregar cinco tipos de regresiones al diagrama, que modelan el proceso en estudio con diversos grados de precisión;

    agregue la ecuación de regresión construida al diagrama;

    determine el grado de correspondencia de la regresión seleccionada con los datos mostrados en el gráfico.

Basado en los datos del gráfico, Excel le permite obtener tipos de regresiones lineales, polinomiales, logarítmicas, de potencia y exponenciales, que se especifican mediante la ecuación:

y = y(x)

donde x es una variable independiente que muchas veces toma los valores de una secuencia de números naturales (1; 2; 3;...) y produce, por ejemplo, una cuenta regresiva del tiempo del proceso en estudio (características).

1 . La regresión lineal es buena para modelar características cuyos valores aumentan o disminuyen a un ritmo constante. Este es el modelo más simple de construir para el proceso en estudio. Se construye de acuerdo con la ecuación:

y = mx + b

donde m es la tangente de la pendiente de regresión lineal a la abscisa; b - coordenada del punto de intersección de la regresión lineal con el eje de ordenadas.

2 . Una línea de tendencia polinomial es útil para describir características que tienen varios extremos distintos (máximos y mínimos). La elección del grado del polinomio está determinada por el número de extremos de la característica en estudio. Por tanto, un polinomio de segundo grado bien puede describir un proceso que tiene sólo un máximo o un mínimo; polinomio de tercer grado: no más de dos extremos; polinomio de cuarto grado: no más de tres extremos, etc.

En este caso, la línea de tendencia se construye de acuerdo con la ecuación:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

donde los coeficientes c0, c1, c2,... c6 son constantes cuyos valores se determinan durante la construcción.

3 . La línea de tendencia logarítmica se utiliza con éxito al modelar características cuyos valores inicialmente cambian rápidamente y luego se estabilizan gradualmente.

y = c ln(x) + b

4 . Una línea de tendencia de ley de potencia da buenos resultados si los valores de la relación en estudio se caracterizan por un cambio constante en la tasa de crecimiento. Un ejemplo de tal dependencia es la gráfica del movimiento uniformemente acelerado de un automóvil. Si los datos contienen cero o valores negativos, no se puede utilizar una línea de tendencia eléctrica.

Construido de acuerdo con la ecuación:

y = cxb

donde los coeficientes b, c son constantes.

5 . Se debe utilizar una línea de tendencia exponencial cuando la tasa de cambio en los datos aumenta continuamente. Para datos que contienen valores cero o negativos, este tipo de aproximación tampoco es aplicable.

Construido de acuerdo con la ecuación:

y = c ebx

donde los coeficientes b, c son constantes.

Al seleccionar una línea de tendencia, Excel calcula automáticamente el valor de R2, que caracteriza la confiabilidad de la aproximación: que valor más cercano R2 a la unidad, más confiablemente se aproxima la línea de tendencia al proceso en estudio. Si es necesario, el valor R2 siempre se puede mostrar en el gráfico.

Determinado por la fórmula:

Para agregar una línea de tendencia a una serie de datos:

    activar un gráfico basado en una serie de datos, es decir, hacer clic dentro del área del gráfico. El elemento Diagrama aparecerá en el menú principal;

    Después de hacer clic en este elemento, aparecerá un menú en la pantalla en el que deberá seleccionar el comando Agregar línea de tendencia.

Las mismas acciones se pueden implementar fácilmente moviendo el puntero del mouse sobre el gráfico correspondiente a una de las series de datos y haciendo clic derecho; En el menú contextual que aparece, seleccione el comando Agregar línea de tendencia. El cuadro de diálogo Línea de tendencia aparecerá en la pantalla con la pestaña Tipo abierta (Fig. 1).

Después de esto necesitas:

Seleccione el tipo de línea de tendencia requerido en la pestaña Tipo (el tipo Lineal está seleccionado de forma predeterminada). Para el tipo de polinomio, en el campo Grado, especifique el grado del polinomio seleccionado.

1 . El campo Serie integrada enumera todas las series de datos del gráfico en cuestión. Para agregar una línea de tendencia a una serie de datos específica, seleccione su nombre en el campo Serie integrada.

Si es necesario, yendo a la pestaña Parámetros (Fig. 2), puede configurar los siguientes parámetros para la línea de tendencia:

    cambie el nombre de la línea de tendencia en el campo Nombre de la curva de aproximación (suavizada).

    establezca el número de períodos (hacia adelante o hacia atrás) para el pronóstico en el campo Pronóstico;

    mostrar la ecuación de la línea de tendencia en el área del diagrama, para lo cual debe habilitar la casilla de verificación mostrar ecuación en el diagrama;

    muestre el valor de confiabilidad de aproximación R2 en el área del diagrama, para lo cual debe habilitar la casilla de verificación Colocar el valor de confiabilidad de aproximación en el diagrama (R^2);

    establezca el punto de intersección de la línea de tendencia con el eje Y, para lo cual debe habilitar la casilla de verificación para la intersección de la curva con el eje Y en un punto;

    Haga clic en el botón Aceptar para cerrar el cuadro de diálogo.

Para empezar a editar una línea de tendencia ya dibujada, existen tres formas:

    utilice el comando Línea de tendencia seleccionada del menú Formato, habiendo seleccionado previamente la línea de tendencia;

    seleccione el comando Formatear línea de tendencia del menú contextual, que se abre haciendo clic derecho en la línea de tendencia;

    Haga doble clic en la línea de tendencia.

Aparecerá en la pantalla el cuadro de diálogo Formato de línea de tendencia (Fig. 3), que contiene tres pestañas: Ver, Tipo, Parámetros, y el contenido de las dos últimas coincide completamente con pestañas similares del cuadro de diálogo Línea de tendencia (Fig. 1). -2). En la pestaña Ver, puede configurar el tipo de línea, su color y grosor.

Para eliminar una línea de tendencia que ya se ha dibujado, seleccione la línea de tendencia que desea eliminar y presione la tecla Eliminar.

Las ventajas de la herramienta de análisis de regresión considerada son:

    la relativa facilidad de construir una línea de tendencia en los gráficos sin crear una tabla de datos para ella;

    una lista bastante amplia de tipos de líneas de tendencia propuestas, y esta lista incluye los tipos de regresión más utilizados;

    la capacidad de predecir el comportamiento del proceso en estudio en cualquier nivel arbitrario (dentro de sentido común) número de pasos hacia adelante y hacia atrás;

    la capacidad de obtener la ecuación de la línea de tendencia en forma analítica;

    la posibilidad, en caso necesario, de obtener una evaluación de la fiabilidad de la aproximación.

Las desventajas incluyen las siguientes:

    la construcción de una línea de tendencia se lleva a cabo solo si hay un diagrama construido sobre una serie de datos;

    El proceso de generación de series de datos para la característica en estudio basándose en las ecuaciones de la línea de tendencia obtenidas para ella es algo confuso: las ecuaciones de regresión requeridas se actualizan con cada cambio en los valores de la serie de datos original, pero solo dentro del área del gráfico. , mientras que la serie de datos formada sobre la base de la antigua tendencia de la ecuación lineal permanece sin cambios;

    En los informes de gráfico dinámico, cambiar la vista de un gráfico o informe de tabla dinámica asociado no conserva las líneas de tendencia existentes, lo que significa que antes de dibujar líneas de tendencia o dar formato a un informe de gráfico dinámico, debe asegurarse de que el diseño del informe cumpla con los requisitos requeridos.

Las líneas de tendencia se pueden utilizar para complementar las series de datos presentadas en gráficos, como gráficos, histogramas, gráficos de áreas planas no estandarizadas, gráficos de barras, gráficos de dispersión, gráficos de burbujas y gráficos de acciones.

No se pueden agregar líneas de tendencia a series de datos en gráficos 3D, normalizados, de radar, circulares y de anillos.

Usando las funciones integradas de Excel

Excel también tiene una herramienta de análisis de regresión para trazar líneas de tendencia fuera del área del gráfico. Hay varias funciones de hojas de cálculo estadísticas que puede utilizar para este propósito, pero todas ellas sólo le permiten crear regresiones lineales o exponenciales.

Excel tiene varias funciones para construir regresión lineal, en particular:

    TENDENCIA;

  • PENDIENTE y CORTE.

Además de varias funciones para construir una línea de tendencia exponencial, en particular:

    LGRFPRIBL.

Cabe señalar que las técnicas para construir regresiones utilizando las funciones TENDENCIA y CRECIMIENTO son casi las mismas. Lo mismo puede decirse del par de funciones LINEST y LGRFPRIBL. Para estas cuatro funciones, la creación de una tabla de valores utiliza funciones de Excel, como fórmulas matriciales, que saturan un poco el proceso de creación de regresiones. Observemos también que la construcción de una regresión lineal, en nuestra opinión, se logra más fácilmente utilizando las funciones PENDIENTE e INTERCEPCIÓN, donde la primera determina la pendiente de la regresión lineal y la segunda determina el segmento interceptado por la regresión en el eje y.

Las ventajas de la herramienta de funciones integrada para el análisis de regresión son:

    un proceso bastante simple y uniforme para generar series de datos de la característica en estudio para todas las funciones estadísticas integradas que definen las líneas de tendencia;

    metodología estándar para construir líneas de tendencia basadas en series de datos generadas;

    la capacidad de predecir el comportamiento del proceso en estudio mediante el número requerido de pasos hacia adelante o hacia atrás.

Las desventajas incluyen el hecho de que Excel no tiene funciones integradas para crear otros tipos de líneas de tendencia (excepto lineales y exponenciales). Esta circunstancia muchas veces no permite elegir un modelo suficientemente preciso del proceso en estudio, así como obtener previsiones cercanas a la realidad. Además, cuando se utilizan las funciones TENDENCIA y CRECIMIENTO, se desconocen las ecuaciones de las líneas de tendencia.

Cabe señalar que los autores no se propusieron presentar el curso del análisis de regresión con ningún grado de exhaustividad. Su tarea principal es mostrar, mediante ejemplos específicos, las capacidades del paquete Excel a la hora de resolver problemas de aproximación; demostrar qué herramientas efectivas tiene Excel para crear regresiones y pronósticos; ilustran cómo estos problemas pueden ser resueltos con relativa facilidad incluso por un usuario que no tiene amplios conocimientos de análisis de regresión.

Ejemplos de soluciones Tareas específicas

Veamos cómo resolver problemas específicos utilizando las herramientas de Excel enumeradas.

Problema 1

Con un cuadro de datos sobre los beneficios de una empresa de transporte por carretera para 1995-2002. necesitas hacer lo siguiente:

    Construye un diagrama.

    Agregue líneas de tendencia lineales y polinómicas (cuadráticas y cúbicas) al gráfico.

    Utilizando las ecuaciones de las líneas de tendencia, obtenga datos tabulares sobre las ganancias empresariales para cada línea de tendencia para 1995-2004.

    Haga una previsión de las ganancias de la empresa para 2003 y 2004.

La solución del problema

    En el rango de celdas A4:C11 de la hoja de cálculo de Excel, ingrese la hoja de cálculo que se muestra en la Fig. 4.

    Habiendo seleccionado el rango de celdas B4:C11, construimos un diagrama.

    Activamos el diagrama construido y, de acuerdo con el método descrito anteriormente, después de seleccionar el tipo de línea de tendencia en el cuadro de diálogo Línea de tendencia (ver Fig. 1), agregamos alternativamente líneas de tendencia lineales, cuadráticas y cúbicas al diagrama. En el mismo cuadro de diálogo, abra la pestaña Parámetros (ver Fig. 2), en el campo Nombre de la curva de aproximación (suavizada), ingrese el nombre de la tendencia que se agrega y en el campo Pronóstico hacia adelante para: períodos, configure el valor 2, ya que se prevé realizar una previsión de beneficios para los próximos dos años. Para mostrar la ecuación de regresión y el valor de confiabilidad de la aproximación R2 en el área del diagrama, active las casillas de verificación Mostrar ecuación en la pantalla y coloque el valor de confiabilidad de la aproximación (R^2) en el diagrama. Para una mejor percepción visual, cambiamos el tipo, color y grosor de las líneas de tendencia construidas, para lo cual usamos la pestaña Ver del cuadro de diálogo Formato de línea de tendencia (ver Fig. 3). El diagrama resultante con líneas de tendencia agregadas se muestra en la Fig. 5.

    Obtener datos tabulares sobre las ganancias empresariales para cada línea de tendencia para 1995-2004. Usemos las ecuaciones de la línea de tendencia presentadas en la Fig. 5. Para hacer esto, en las celdas del rango D3:F3, ingrese información de texto sobre el tipo de línea de tendencia seleccionada: Tendencia lineal, Tendencia cuadrática, Tendencia cúbica. Luego, ingrese la fórmula de regresión lineal en la celda D4 y, usando el marcador de relleno, copie esta fórmula con referencias relativas al rango de celdas D5:D13. Cabe señalar que cada celda con una fórmula de regresión lineal del rango de celdas D4:D13 tiene como argumento una celda correspondiente del rango A4:A13. De manera similar, para la regresión cuadrática, complete el rango de celdas E4:E13, y para la regresión cúbica, complete el rango de celdas F4:F13. Así se ha elaborado una previsión de beneficios de la empresa para los años 2003 y 2004. utilizando tres tendencias. La tabla de valores resultante se muestra en la Fig. 6.

Problema 2

    Construye un diagrama.

    Agregue líneas de tendencia logarítmicas, de potencia y exponenciales al gráfico.

    Deducir las ecuaciones de las líneas de tendencia obtenidas, así como los valores de confiabilidad de la aproximación R2 para cada una de ellas.

    Utilizando las ecuaciones de las líneas de tendencia, obtenga datos tabulares sobre las ganancias de la empresa para cada línea de tendencia para 1995-2002.

    Haga un pronóstico de las ganancias de la empresa para 2003 y 2004 utilizando estas líneas de tendencia.

La solución del problema

Siguiendo la metodología dada al resolver el problema 1, obtenemos un diagrama al que se le agregan líneas de tendencia logarítmica, de potencia y exponencial (Fig. 7). A continuación, utilizando las ecuaciones de la línea de tendencia obtenidas, completamos una tabla de valores para las ganancias de la empresa, incluidos los valores previstos para 2003 y 2004. (Figura 8).

En la Fig. 5 y fig. Se puede observar que el modelo con tendencia logarítmica corresponde al valor más bajo de confiabilidad de aproximación.

R2 = 0,8659

Los valores más altos de R2 corresponden a modelos de tendencia polinómica: cuadrático (R2 = 0,9263) y cúbico (R2 = 0,933).

Problema 3

Con la tabla de datos sobre las ganancias de una empresa de transporte por carretera para 1995-2002, que figura en la tarea 1, se deben realizar los siguientes pasos.

    Obtenga series de datos para líneas de tendencia lineales y exponenciales utilizando las funciones TENDENCIA y CRECIMIENTO.

    Utilizando las funciones TENDENCIA y CRECIMIENTO, haga un pronóstico de las ganancias de la empresa para 2003 y 2004.

    Construya un diagrama para los datos originales y la serie de datos resultante.

La solución del problema

Usemos la hoja de trabajo para el Problema 1 (ver Fig. 4). Comencemos con la función TENDENCIA:

    seleccione el rango de celdas D4:D11, que deben completarse con los valores de la función TENDENCIA correspondientes a los datos conocidos sobre las ganancias de la empresa;

    Llame al comando Función desde el menú Insertar. En el cuadro de diálogo Asistente de funciones que aparece, seleccione la función TENDENCIA de la categoría Estadística y luego haga clic en el botón Aceptar. La misma operación se puede realizar haciendo clic en el botón (Insertar función) en la barra de herramientas estándar.

    En el cuadro de diálogo Argumentos de función que aparece, ingrese el rango de celdas C4:C11 en el campo Valores_conocidos_y; en el campo Known_values_x - el rango de celdas B4:B11;

    Para que la fórmula ingresada se convierta en una fórmula matricial, use la combinación de teclas + +.

La fórmula que ingresamos en la barra de fórmulas se verá así: =(TENDENCIA(C4:C11,B4:B11)).

Como resultado, el rango de celdas D4:D11 se llena con los valores correspondientes de la función TENDENCIA (Fig. 9).

Realizar una previsión de los beneficios de la empresa para los años 2003 y 2004. necesario:

    seleccione el rango de celdas D12:D13 donde se ingresarán los valores predichos por la función TENDENCIA.

    llame a la función TENDENCIA y en el cuadro de diálogo Argumentos de función que aparece, ingrese el rango de celdas C4:C11 en el campo Valores_conocidos_y; en el campo Known_values_x - el rango de celdas B4:B11; y en el campo New_values_x - el rango de celdas B12:B13.

    convierta esta fórmula en una fórmula matricial usando la combinación de teclas Ctrl + Shift + Enter.

    La fórmula ingresada se verá así: =(TENDENCIA(C4:C11;B4:B11;B12:B13)), y el rango de celdas D12:D13 se completará con los valores predichos de la función TENDENCIA (ver Fig. 9).

La serie de datos se completa de manera similar usando la función CRECIMIENTO, que se usa en el análisis de dependencias no lineales y funciona exactamente de la misma manera que su contraparte lineal TENDENCIA.

La Figura 10 muestra la tabla en modo de visualización de fórmulas.

Para los datos iniciales y la serie de datos obtenidos, el diagrama que se muestra en la Fig. once.

Problema 4

Con la tabla de datos sobre la recepción de solicitudes de servicios por parte del servicio de despacho de una empresa de autotransporte para el período del 1 al 11 del mes en curso, se deben realizar las siguientes acciones.

    Obtenga series de datos para regresión lineal: utilizando las funciones PENDIENTE e INTERCEPCIÓN; utilizando la función ESTIMACIÓN LINEAL.

    Obtenga una serie de datos para regresión exponencial usando la función LGRFPRIBL.

    Utilizando las funciones anteriores, haga una previsión de la recepción de solicitudes al servicio de despacho para el período del 12 al 14 del mes en curso.

    Cree un diagrama para la serie de datos original y recibida.

La solución del problema

Tenga en cuenta que, a diferencia de las funciones TENDENCIA y CRECIMIENTO, ninguna de las funciones enumeradas anteriormente (PENDIENTE, INTERCEPCIÓN, ESTIMACIÓN LINEAL, LGRFPRIB) es regresión. Estas funciones desempeñan sólo un papel de apoyo, determinando los parámetros de regresión necesarios.

Para las regresiones lineales y exponenciales construidas utilizando las funciones PENDIENTE, INTERCEPCIÓN, ESTILO LINEAL, LGRFPRIB, la apariencia de sus ecuaciones siempre se conoce, a diferencia de las regresiones lineales y exponenciales correspondientes a las funciones TENDENCIA y CRECIMIENTO.

1 . Construyamos una regresión lineal con la ecuación:

y = mx+b

utilizando las funciones PENDIENTE e INTERCEPCIÓN, con la pendiente de regresión m determinada por la función PENDIENTE y el término libre b por la función INTERCEPCIÓN.

Para ello llevamos a cabo las siguientes acciones:

    ingrese la tabla original en el rango de celdas A4:B14;

    el valor del parámetro m se determinará en la celda C19. Seleccione la función Pendiente de la categoría Estadística; ingrese el rango de celdas B4:B14 en el campo valores_conocidos_y y el rango de celdas A4:A14 en el campo valores_conocidos_x. La fórmula se ingresará en la celda C19: =PENDIENTE(B4:B14,A4:A14);

    Utilizando una técnica similar, se determina el valor del parámetro b en la celda D19. Y su contenido se verá así: =SEGMENTO(B4:B14,A4:A14). Así, los valores de los parámetros myb necesarios para construir una regresión lineal se almacenarán en las celdas C19, D19, respectivamente;

    Luego, ingrese la fórmula de regresión lineal en la celda C4 en la forma: =$C*A4+$D. En esta fórmula, las celdas C19 y D19 están escritas con referencias absolutas (la dirección de la celda no debe cambiar durante una posible copia). El signo de referencia absoluto $ se puede escribir desde el teclado o usando la tecla F4, después de colocar el cursor en la dirección de la celda. Usando el controlador de relleno, copie esta fórmula en el rango de celdas C4:C17. Obtenemos la serie de datos requerida (Fig. 12). Debido a que el número de solicitudes es un número entero, debe establecer el formato numérico con el número de decimales en 0 en la pestaña Número de la ventana Formato de celda.

2 . Ahora construyamos una regresión lineal dada por la ecuación:

y = mx+b

utilizando la función ESTIMACIÓN LINEAL.

Para esto:

    Ingrese la función ESTIMACIÓN LINEAL como una fórmula matricial en el rango de celdas C20:D20: =(ESTIMACIÓN LINEAL(B4:B14,A4:A14)). Como resultado, obtenemos el valor del parámetro m en la celda C20 y el valor del parámetro b en la celda D20;

    ingrese la fórmula en la celda D4: =$C*A4+$D;

    copie esta fórmula usando el marcador de relleno en el rango de celdas D4:D17 y obtenga la serie de datos deseada.

3 . Construimos una regresión exponencial con la ecuación:

utilizando la función LGRFPRIBL se realiza de manera similar:

    En el rango de celdas C21:D21 ingresamos la función LGRFPRIBL como fórmula matricial: =( LGRFPRIBL (B4:B14,A4:A14)). En este caso, el valor del parámetro m se determinará en la celda C21 y el valor del parámetro b se determinará en la celda D21;

    la fórmula se ingresa en la celda E4: =$D*$C^A4;

    usando el marcador de relleno, esta fórmula se copia al rango de celdas E4:E17, donde se ubicará la serie de datos para la regresión exponencial (ver Fig. 12).

En la Fig. La Figura 13 muestra una tabla donde se pueden ver las funciones que utilizamos con los rangos de celdas requeridos, así como fórmulas.

Magnitud R 2 llamado coeficiente de determinación.

La tarea de construir una dependencia de regresión es encontrar el vector de coeficientes m del modelo (1) en el que el coeficiente R adquiere el valor máximo.

Para evaluar la importancia de R se utiliza la prueba F de Fisher, calculada mediante la fórmula

Dónde norte- tamaño de la muestra (número de experimentos);

k es el número de coeficientes del modelo.

Si F excede algún valor crítico para los datos norte Y k y la probabilidad de confianza aceptada, entonces el valor de R se considera significativo. Las tablas de valores críticos de F se proporcionan en libros de referencia sobre estadística matemática.

Por tanto, la importancia de R está determinada no sólo por su valor, sino también por la relación entre el número de experimentos y el número de coeficientes (parámetros) del modelo. De hecho, la relación de correlación para n=2 para un modelo lineal simple es igual a 1 (siempre se puede dibujar una sola línea recta a través de 2 puntos en un plano). Sin embargo, si los datos experimentales son variables aleatorias, se debe confiar en ese valor de R con gran cautela. Por lo general, para obtener R significativo y una regresión confiable, se esfuerzan por garantizar que el número de experimentos exceda significativamente el número de coeficientes del modelo (n>k).

Para construir un modelo de regresión lineal necesita:

1) preparar una lista de n filas ym columnas que contienen datos experimentales (columna que contiene el valor de salida Y debe ser el primero o el último en la lista); Por ejemplo, tomemos los datos de la tarea anterior, agreguemos una columna llamada “Nº de período”, numeremos los números del período del 1 al 12. (estos serán los valores X)

2) vaya al menú Datos/Análisis de datos/Regresión

Si falta el elemento "Análisis de datos" en el menú "Herramientas", debe ir al elemento "Complementos" en el mismo menú y marcar la casilla de verificación "Paquete de análisis".

3) en el cuadro de diálogo "Regresión", establezca:

· intervalo de entrada Y;

· intervalo de entrada X;

· intervalo de salida: la celda superior izquierda del intervalo en la que se colocarán los resultados del cálculo (se recomienda colocarlos en una nueva hoja de trabajo);

4) haga clic en "Aceptar" y analice los resultados.

método de mínimos cuadrados

Método de mínimos cuadrados ( MCO, MCO, mínimos cuadrados ordinarios) - uno de los métodos básicos de análisis de regresión para estimar parámetros desconocidos de modelos de regresión utilizando datos de muestra. El método se basa en minimizar la suma de cuadrados de los residuos de regresión.

Cabe señalar que el método de mínimos cuadrados en sí mismo puede considerarse un método para resolver un problema en cualquier área si la solución se encuentra o satisface algún criterio para minimizar la suma de cuadrados de algunas funciones de las variables requeridas. Por lo tanto, el método de mínimos cuadrados también se puede utilizar para una representación aproximada (aproximación) de una función dada mediante otras funciones (más simples), al encontrar un conjunto de cantidades que satisfacen ecuaciones o restricciones, cuyo número excede el número de estas cantidades. , etc.

La esencia de las multinacionales

Sea algún modelo (paramétrico) de una relación probabilística (de regresión) entre la variable (explicada) y y muchos factores (variables explicativas) X

¿Dónde está el vector de parámetros desconocidos del modelo?

- error aleatorio del modelo.

Que también haya observaciones muestrales de los valores de estas variables. Sea el número de observación (). Luego están los valores de las variables en la enésima observación. Luego, para valores dados de los parámetros b, es posible calcular los valores teóricos (modelo) de la variable explicada y:

El tamaño de los residuos depende de los valores de los parámetros b.

La esencia del método de mínimos cuadrados (ordinario, clásico) es encontrar parámetros b para los cuales la suma de los cuadrados de los residuos (ing. Suma residual de cuadrados) será mínimo:

En el caso general, este problema se puede resolver mediante métodos de optimización numérica (minimización). En este caso hablan de mínimos cuadrados no lineales(NLS o NLLS - Inglés) Mínimos cuadrados no lineales). En muchos casos es posible obtener una solución analítica. Para resolver el problema de minimización es necesario encontrar puntos estacionarios de la función diferenciándola con respecto a los parámetros desconocidos b, igualando las derivadas a cero y resolviendo el sistema de ecuaciones resultante:

Si los errores aleatorios del modelo se distribuyen normalmente, tienen la misma varianza y no están correlacionados, las estimaciones de los parámetros MCO son las mismas que las estimaciones de máxima verosimilitud (MLM).

OLS en el caso de un modelo lineal

Sea la dependencia de la regresión lineal:

Dejar y es un vector columna de observaciones de la variable explicada, y es una matriz de observaciones factoriales (las filas de la matriz son los vectores de valores de los factores en una observación dada, las columnas son el vector de valores de un factor dado en todas las observaciones). La representación matricial del modelo lineal es:

Entonces el vector de estimaciones de la variable explicada y el vector de residuos de regresión serán iguales

En consecuencia, la suma de los cuadrados de los residuos de regresión será igual a

Derivando esta función con respecto al vector de parámetros e igualando las derivadas a cero, obtenemos un sistema de ecuaciones (en forma matricial):

.

La solución de este sistema de ecuaciones da formula general Estimaciones MCO para el modelo lineal:

Para fines analíticos, la última representación de esta fórmula es útil. Si en un modelo de regresión los datos centrado, entonces en esta representación la primera matriz tiene el significado de una matriz de covarianza de factores de muestra, y la segunda es un vector de covarianzas de factores con la variable dependiente. Si además los datos también son normalizado a MSE (es decir, en última instancia estandarizado), entonces la primera matriz tiene el significado de una matriz de correlación muestral de factores, el segundo vector, un vector de correlaciones muestrales de factores con la variable dependiente.

Una propiedad importante de las estimaciones MCO para modelos. con constante- la línea de regresión construida pasa por el centro de gravedad de los datos muestrales, es decir, se cumple la igualdad:

En particular, en el caso extremo, cuando el único regresor es una constante, encontramos que la estimación MCO del único parámetro (la constante misma) es igual al valor promedio de la variable explicada. Es decir, la media aritmética, conocida por su buenas propiedades de las leyes de los grandes números, también es una estimación de mínimos cuadrados: satisface el criterio de la suma mínima de desviaciones al cuadrado de la misma.

Ejemplo: regresión más simple (por pares)

En el caso de la regresión lineal pareada, las fórmulas de cálculo se simplifican (puede prescindir del álgebra matricial):

Propiedades de los estimadores MCO

En primer lugar, observamos que para los modelos lineales, las estimaciones de MCO son estimaciones lineales, como se desprende de la fórmula anterior. Para estimaciones insesgadas de MCO, es necesario y suficiente cumplir la condición más importante del análisis de regresión: la expectativa matemática de un error aleatorio, condicionada a los factores, debe ser igual a cero. Esta condición, en particular, está satisfecho si

  1. valor esperado los errores aleatorios son cero, y
  2. Los factores y los errores aleatorios son variables aleatorias independientes.

La segunda condición, la condición de exogeneidad de los factores, es fundamental. Si esta propiedad no se cumple, entonces podemos suponer que casi todas las estimaciones serán extremadamente insatisfactorias: ni siquiera serán consistentes (es decir, ni siquiera muy consistentes). gran volumen los datos no permiten obtener evaluaciones cualitativas en este caso). En el caso clásico, se hace una suposición más fuerte sobre el determinismo de los factores, en contraposición a un error aleatorio, lo que automáticamente significa que se cumple la condición de exogeneidad. En el caso general, para la consistencia de las estimaciones, es suficiente satisfacer la condición de exogeneidad junto con la convergencia de la matriz a alguna matriz no singular a medida que el tamaño de la muestra aumenta hasta el infinito.

Para que, además de la coherencia y la imparcialidad, las estimaciones de mínimos cuadrados (ordinarios) también sean efectivas (las mejores en la clase de estimaciones lineales insesgadas), se deben cumplir propiedades adicionales del error aleatorio:

Estos supuestos se pueden formular para la matriz de covarianza del vector de error aleatorio.

Un modelo lineal que satisface estas condiciones se llama clásico. Las estimaciones de MCO para la regresión lineal clásica son insesgadas, consistentes y las estimaciones más efectivas en la clase de todas las estimaciones lineales insesgadas (en la literatura inglesa a veces se usa la abreviatura AZUL (Mejor estimador lineal no fundamentado) - la mejor estimación lineal insesgada; en la literatura rusa se cita con mayor frecuencia el teorema de Gauss-Markov). Como es fácil de demostrar, la matriz de covarianza del vector de estimaciones de coeficientes será igual a:

MCO generalizado

El método de mínimos cuadrados permite una amplia generalización. En lugar de minimizar la suma de los cuadrados de los residuos, se puede minimizar alguna forma cuadrática definida positiva del vector de residuos, donde hay alguna matriz de peso definida positiva simétrica. Los mínimos cuadrados convencionales son un caso especial de este enfoque, donde la matriz de peso es proporcional a la matriz identidad. Como se sabe por la teoría de matrices (u operadores) simétricas, para tales matrices existe una descomposición. En consecuencia, el funcional especificado se puede representar de la siguiente manera, es decir, este funcional se puede representar como la suma de los cuadrados de algunos "restos" transformados. Por tanto, podemos distinguir una clase de métodos de mínimos cuadrados: los métodos LS (Mínimos Cuadrados).

Se ha demostrado (teorema de Aitken) que para un modelo de regresión lineal generalizado (en el que no se imponen restricciones a la matriz de covarianza de errores aleatorios), las más efectivas (en la clase de estimaciones lineales insesgadas) son las llamadas estimaciones. Mínimos cuadrados generalizados (GLS - Mínimos cuadrados generalizados)- Método LS con una matriz de ponderaciones igual a la matriz de covarianza inversa de errores aleatorios: .

Se puede demostrar que la fórmula para las estimaciones GLS de los parámetros de un modelo lineal tiene la forma

En consecuencia, la matriz de covarianza de estas estimaciones será igual a

De hecho, la esencia de OLS radica en una determinada transformación (lineal) (P) de los datos originales y la aplicación de OLS ordinario a los datos transformados. El propósito de esta transformación es que para los datos transformados, los errores aleatorios ya satisfagan los supuestos clásicos.

MCO ponderado

En el caso de una matriz de ponderación diagonal (y por tanto de una matriz de covarianza de errores aleatorios), tenemos los llamados mínimos cuadrados ponderados (WLS). EN en este caso la suma ponderada de cuadrados de los residuos del modelo se minimiza, es decir, cada observación recibe un “peso” inversamente proporcional a la varianza del error aleatorio en esta observación: . De hecho, los datos se transforman ponderando las observaciones (dividiendo por una cantidad proporcional a la desviación estándar estimada de los errores aleatorios) y se aplica MCO ordinario a los datos ponderados.

Algunos casos especiales de uso de MNC en la práctica.

Aproximación de la dependencia lineal.

Consideremos el caso cuando, como resultado de estudiar la dependencia de una determinada cantidad escalar de una determinada cantidad escalar (esto podría ser, por ejemplo, la dependencia del voltaje de la intensidad de la corriente: , donde es un valor constante, la resistencia de el conductor), se realizaron mediciones de estas cantidades, como resultado de lo cual se obtuvieron los valores y sus valores correspondientes. Los datos de medición deben registrarse en una tabla.

Mesa. Resultados de la medición.

Medida no.
1
2
3
4
5
6

La pregunta es: ¿qué valor del coeficiente se puede elegir de modo que la mejor manera describir la adicción? Según el método de mínimos cuadrados, este valor debe ser tal que la suma de las desviaciones al cuadrado de los valores de los valores

fue minimo

La suma de las desviaciones al cuadrado tiene un extremo: el mínimo, lo que nos permite utilizar esta fórmula. Encontremos a partir de esta fórmula el valor del coeficiente. Para ello, transformamos su lado izquierdo de la siguiente manera:

La última fórmula nos permite encontrar el valor del coeficiente, que es el que se requería en el problema.

Historia

Hasta principios del siglo XIX. Los científicos no tenían algunas reglas resolver un sistema de ecuaciones en el que el número de incógnitas es menor que el número de ecuaciones; Hasta ese momento se utilizaban técnicas privadas que dependían del tipo de ecuaciones y del ingenio de los calculadores, por lo que diferentes calculadores, basándose en los mismos datos de observación, llegaban a conclusiones diferentes. Gauss (1795) fue el primero en utilizar el método, y Legendre (1805) lo descubrió y publicó de forma independiente con su nombre moderno (francés. Méthode des moindres quarrés ). Laplace relacionó el método con la teoría de la probabilidad, y el matemático estadounidense Adrian (1808) consideró sus aplicaciones a la teoría de la probabilidad. El método se generalizó y mejoró gracias a nuevas investigaciones de Encke, Bessel, Hansen y otros.

Usos alternativos de OLS

La idea del método de mínimos cuadrados también se puede utilizar en otros casos que no están directamente relacionados con el análisis de regresión. El caso es que la suma de cuadrados es una de las medidas de proximidad más comunes para vectores (métrica euclidiana en espacios de dimensión finita).

Una aplicación es “resolver” sistemas ecuaciones lineales, en el que el número de ecuaciones mas numero variables

donde la matriz no es cuadrada, sino rectangular de tamaño.

Un sistema de ecuaciones de este tipo, en el caso general, no tiene solución (si el rango es realmente mayor que el número de variables). Por lo tanto, este sistema puede "resolverse" sólo en el sentido de elegir dicho vector para minimizar la "distancia" entre los vectores y. Para hacer esto, puede aplicar el criterio de minimizar la suma de cuadrados de las diferencias entre los lados izquierdo y derecho de las ecuaciones del sistema, es decir. Es fácil demostrar que resolver este problema de minimización conduce a resolver el siguiente sistema de ecuaciones

Aproximaremos la función por un polinomio de grado 2. Para ello calculamos los coeficientes del sistema normal de ecuaciones:

, ,

Creemos un sistema de mínimos cuadrados normal, que tenga la forma:

La solución al sistema es fácil de encontrar:, , .

Así, se encuentra un polinomio de 2º grado: .

Información teórica

Volver a la página<Введение в вычислительную математику. Примеры>

Ejemplo 2. Encontrar el grado óptimo de un polinomio.

Volver a la página<Введение в вычислительную математику. Примеры>

Ejemplo 3. Derivación de un sistema normal de ecuaciones para encontrar los parámetros de la dependencia empírica.

Derivemos un sistema de ecuaciones para determinar los coeficientes y funciones. , que realiza la aproximación cuadrática media de una función dada por puntos. Compongamos una función y escríbelo para ella condición necesaria extremo:

Entonces sistema normal tomará la forma:

Consiguió sistema lineal ecuaciones para parámetros desconocidos y, que se resuelve fácilmente.

Información teórica

Volver a la página<Введение в вычислительную математику. Примеры>

Ejemplo.

Datos experimentales sobre los valores de las variables. X Y en se dan en la tabla.

Como resultado de su alineación, se obtiene la función.

Usando método de mínimos cuadrados, aproxima estos datos mediante una dependencia lineal y=ax+b(buscar parámetros A Y b). Descubra cuál de las dos líneas alinea mejor (en el sentido del método de mínimos cuadrados) los datos experimentales. Haz un dibujo.

La esencia del método de mínimos cuadrados (LSM).

La tarea es encontrar los coeficientes de dependencia lineal en los que la función de dos variables. A Y btoma el valor más pequeño. Es decir, dado A Y b la suma de las desviaciones al cuadrado de los datos experimentales de la línea recta encontrada será la más pequeña. Este es el objetivo del método de mínimos cuadrados.

Por tanto, resolver el ejemplo se reduce a encontrar el extremo de una función de dos variables.

Derivar fórmulas para encontrar coeficientes.

Se compila y resuelve un sistema de dos ecuaciones con dos incógnitas. Encontrar las derivadas parciales de una función. por variables A Y b, equiparamos estas derivadas a cero.

Resolvemos el sistema de ecuaciones resultante usando cualquier método (por ejemplo por método de sustitución o el método de Cramer) y obtener fórmulas para encontrar coeficientes usando el método de mínimos cuadrados (LSM).

Dado A Y b función toma el valor más pequeño. La prueba de este hecho se da a continuación en el texto al final de la página.

Ese es todo el método de mínimos cuadrados. Fórmula para encontrar el parámetro. a contiene las sumas , , y parámetro norte— cantidad de datos experimentales. Recomendamos calcular los valores de estos importes por separado.

Coeficiente b encontrado después del cálculo a.

Es hora de recordar el ejemplo original.

Solución.

En nuestro ejemplo n=5. Completamos la tabla para facilitar el cálculo de los montos que se incluyen en las fórmulas de los coeficientes requeridos.

Los valores de la cuarta fila de la tabla se obtienen multiplicando los valores de la 2ª fila por los valores de la 3ª fila para cada número i.

Los valores de la quinta fila de la tabla se obtienen elevando al cuadrado los valores de la 2ª fila para cada número i.

Los valores de la última columna de la tabla son las sumas de los valores de las filas.

Usamos las fórmulas del método de mínimos cuadrados para encontrar los coeficientes. A Y b. Sustituimos en ellos los valores correspondientes de la última columna de la tabla:

Por eso, y = 0,165x+2,184— la línea recta aproximada deseada.

Queda por descubrir cuál de las líneas y = 0,165x+2,184 o se aproxima mejor a los datos originales, es decir, hace una estimación utilizando el método de mínimos cuadrados.

Estimación del error del método de mínimos cuadrados.

Para hacer esto, necesita calcular la suma de las desviaciones al cuadrado de los datos originales de estas líneas. Y , un valor menor corresponde a una línea que se aproxima mejor a los datos originales en el sentido del método de mínimos cuadrados.

Desde entonces directo y = 0,165x+2,184 se aproxima mejor a los datos originales.

Ilustración gráfica del método de mínimos cuadrados (LS).

Todo es claramente visible en los gráficos. La línea roja es la línea recta encontrada. y = 0,165x+2,184, la línea azul es , los puntos rosas son los datos originales.

¿Por qué es necesario esto, por qué todas estas aproximaciones?

Yo personalmente lo uso para resolver problemas de suavizado de datos, interpolación y extrapolación (en el ejemplo original se les podría pedir que encontraran el valor de un valor observado). y en x=3 o cuando x=6 usando el método de mínimos cuadrados). Pero hablaremos más sobre esto más adelante en otra sección del sitio.

Parte superior de la página

Prueba.

Para que cuando lo encuentre A Y b la función toma el valor más pequeño, es necesario que en este punto la matriz de la forma cuadrática del diferencial de segundo orden para la función fue positivo definitivo. Mostrémoslo.

El diferencial de segundo orden tiene la forma:

Eso es

Por tanto, la matriz de forma cuadrática tiene la forma

y los valores de los elementos no dependen de A Y b.

Demostremos que la matriz es definida positiva. Para ello, los menores angulares deben ser positivos.

Angular menor de primer orden . La desigualdad es estricta porque los puntos no coinciden. En lo que sigue daremos a entender esto.

Angular menor de segundo orden

Probemos que por el método de inducción matemática.

Conclusión: valores encontrados A Y b corresponder valor más bajo funciones , por lo tanto, son los parámetros requeridos para el método de mínimos cuadrados.

¿No hay tiempo para resolverlo?
Solicite una solución

Parte superior de la página

Desarrollar un pronóstico utilizando el método de mínimos cuadrados. Ejemplo de solución de problema

Extrapolación es un método investigación científica, que se basa en la difusión de tendencias, patrones y conexiones pasadas y presentes con el desarrollo futuro del objeto de pronóstico. Los métodos de extrapolación incluyen método de media móvil, método de suavizado exponencial, método de mínimos cuadrados.

Esencia método de mínimos cuadrados consiste en minimizar la cantidad desviaciones cuadradas entre los valores observados y calculados. Los valores calculados se encuentran utilizando la ecuación seleccionada: la ecuación de regresión. Cuanto menor sea la distancia entre los valores reales y los valores calculados, más preciso será el pronóstico basado en la ecuación de regresión.

Un análisis teórico de la esencia del fenómeno en estudio, cuyo cambio se refleja en una serie de tiempo, sirve como base para elegir una curva. En ocasiones se tienen en cuenta consideraciones sobre la naturaleza del aumento de los niveles de la serie. Por lo tanto, si se espera un crecimiento de la producción de progresión aritmética, luego el suavizado se realiza en línea recta. Si resulta que el crecimiento está en progresión geométrica, entonces el suavizado debe realizarse utilizando una función exponencial.

Fórmula de trabajo para el método de mínimos cuadrados. : Y t+1 = a*X + b, donde t + 1 – período de pronóstico; Уt+1 – indicador previsto; a y b son coeficientes; X - símbolo tiempo.

El cálculo de los coeficientes ayb se realiza mediante las siguientes fórmulas:

donde, Uf – valores reales de la serie dinámica; n – número de niveles de series temporales;

El suavizado de series de tiempo mediante el método de mínimos cuadrados sirve para reflejar el patrón de desarrollo del fenómeno en estudio. En la expresión analítica de una tendencia, el tiempo se considera como una variable independiente, y los niveles de la serie actúan en función de esta variable independiente.

El desarrollo de un fenómeno no depende de cuántos años han pasado desde su inicio, sino de qué factores influyeron en su desarrollo, en qué dirección y con qué intensidad. De aquí queda claro que el desarrollo de un fenómeno a lo largo del tiempo es el resultado de la acción de estos factores.

Establecer correctamente el tipo de curva, el tipo de dependencia analítica del tiempo es uno de los más tareas complejas análisis previo al pronóstico .

La selección del tipo de función que describe la tendencia, cuyos parámetros están determinados por el método de mínimos cuadrados, se realiza en la mayoría de los casos de forma empírica, construyendo una serie de funciones y comparándolas entre sí según el valor de la error cuadrático medio, calculado mediante la fórmula:

donde UV son los valores reales de la serie dinámica; Ur – valores calculados (suavizados) de la serie dinámica; n – número de niveles de series temporales; p – el número de parámetros definidos en las fórmulas que describen la tendencia (tendencia de desarrollo).

Desventajas del método de mínimos cuadrados :

  • al intentar describir el fenómeno económico que se está estudiando utilizando ecuación matemática, el pronóstico será preciso durante un corto período de tiempo y la ecuación de regresión deberá recalcularse a medida que se disponga de nueva información;
  • la complejidad de seleccionar una ecuación de regresión que se pueda resolver usando programas de computadora estándar.

Un ejemplo del uso del método de mínimos cuadrados para desarrollar un pronóstico

Tarea . Existen datos que caracterizan la tasa de desempleo en la región, %

  • Construya un pronóstico de la tasa de desempleo en la región para noviembre, diciembre y enero utilizando los siguientes métodos: promedio móvil, suavizamiento exponencial, mínimos cuadrados.
  • Calcule los errores en los pronósticos resultantes utilizando cada método.
  • Compara los resultados y saca conclusiones.

Solución de mínimos cuadrados

Para resolver esto, creemos una tabla en la que produciremos cálculos necesarios:

ε = 28,63/10 = 2,86% Precisión de pronóstico alto.

Conclusión : Comparación de los resultados obtenidos de los cálculos método de media móvil , método de suavizado exponencial y el método de mínimos cuadrados, podemos decir que el error relativo promedio al calcular utilizando el método de suavizado exponencial cae dentro del rango del 20-50%. Esto significa que la precisión del pronóstico en este caso es sólo satisfactoria.

En el primer y tercer caso, la precisión del pronóstico es alta, ya que el error relativo promedio es inferior al 10%. Pero el método de la media móvil permitió obtener más resultados confiables(previsión para noviembre – 1,52%, previsión para diciembre – 1,53%, previsión para enero – 1,49%), ya que el error relativo medio al utilizar este método es el más pequeño – 1,13%.

método de mínimos cuadrados

Otros artículos sobre este tema:

Lista de fuentes utilizadas

  1. Recomendaciones científicas y metodológicas para diagnosticar riesgos sociales y pronosticar desafíos, amenazas y consecuencias sociales. Universidad Social Estatal de Rusia. Moscú. 2010;
  2. Vladímirova L.P. Previsión y planificación en condiciones de mercado: libro de texto. prestación. M.: Editorial "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Previsión de la economía nacional: Manual educativo y metodológico.. Ekaterimburgo: Editorial Ural. estado economía. Universidad, 2007;
  4. Piel de puta L.N. Curso MBA sobre previsión empresarial. M.: Libros de negocios Alpina, 2006.

programa multinacional

Introducir datos

Datos y aproximación y = a + b x

i- número de punto experimental;
xyo- valor de un parámetro fijo en un punto i;
y yo- valor del parámetro medido en un punto i;
ωi- peso de medición en un punto i;
y yo, calc.- diferencia entre el valor medido y el calculado por regresión y en el punto i;
S x yo (x yo)- estimación de error xyo al medir y en el punto i.

Datos y aproximación y = k x

i xyo y yo ωi y yo, calc. Δy yo S x yo (x yo)

Haga clic en el gráfico

Manual de usuario del programa en línea MNC.

En el campo de datos, ingrese en cada línea separada los valores de "x" e "y" en un punto experimental. Los valores deben estar separados por un carácter de espacio en blanco (espacio o tabulación).

El tercer valor podría ser el peso del punto "w". Si no se especifica el peso de un punto, es igual a uno. En la gran mayoría de los casos, los pesos de los puntos experimentales se desconocen o no se calculan, es decir todos los datos experimentales se consideran equivalentes. A veces, los pesos en el rango de valores estudiado no son en absoluto equivalentes e incluso pueden calcularse teóricamente. Por ejemplo, en espectrofotometría, los pesos se pueden calcular utilizando fórmulas simples, aunque esto se descuida en gran medida para reducir los costos de mano de obra.

Los datos se pueden pegar a través del portapapeles desde una hoja de cálculo en una suite ofimática como Excel de Microsoft Office o Calc de Open Office. Para hacer esto, en la hoja de cálculo, seleccione el rango de datos que se copiarán, cópielo en el portapapeles y pegue los datos en el campo de datos de esta página.

Para calcular utilizando el método de mínimos cuadrados, se necesitan al menos dos puntos para determinar dos coeficientes "b", la tangente del ángulo de inclinación de la línea y "a", el valor interceptado por la línea en el eje "y".

Para estimar el error de los coeficientes de regresión calculados, es necesario establecer el número de puntos experimentales en más de dos.

Método de mínimos cuadrados (LSM).

Cuanto mayor sea el número de puntos experimentales, más precisa será la evaluación estadística de los coeficientes (debido a una disminución en el coeficiente de Student) y más cercana será la estimación a la estimación de la muestra general.

La obtención de valores en cada punto experimental a menudo se asocia con costos laborales significativos, por lo que a menudo se lleva a cabo un número de experimentos de compromiso que proporcione una estimación manejable y no genere costos laborales excesivos. Como regla general, el número de puntos experimentales para una dependencia lineal de mínimos cuadrados con dos coeficientes se selecciona en la región de 5 a 7 puntos.

Una breve teoría de mínimos cuadrados para relaciones lineales

Digamos que tenemos un conjunto de datos experimentales en forma de pares de valores [`y_i`, `x_i`], donde `i` es el número de una medición experimental de 1 a `n`; `y_i` - el valor de la cantidad medida en el punto `i`; `x_i`: el valor del parámetro que configuramos en el punto `i`.

Como ejemplo, consideremos el funcionamiento de la ley de Ohm. Variando el voltaje (diferencia de potencial) entre secciones circuito eléctrico, medimos la cantidad de corriente que pasa por esta área. La física nos da una dependencia encontrada experimentalmente:

`I = U/R`,
donde "I" es la fuerza actual; `R` - resistencia; `U` - voltaje.

En este caso, `y_i` es el valor actual que se está midiendo y `x_i` es el valor de voltaje.

Como otro ejemplo, consideremos la absorción de luz por una solución de una sustancia en solución. La química nos da la fórmula:

`A = ε l C`,
donde "A" es la densidad óptica de la solución; `ε` - transmitancia del soluto; `l` - longitud del camino cuando la luz pasa a través de una cubeta con una solución; `C` es la concentración de la sustancia disuelta.

En este caso, "y_i" es el valor medido de la densidad óptica "A" y "x_i" es el valor de concentración de la sustancia que especificamos.

Consideraremos el caso en el que el error relativo en la tarea `x_i` es significativamente menor, error relativo dimensiones `y_i`. También asumiremos que todos los valores medidos `y_i` son aleatorios y están distribuidos normalmente, es decir obedecer la ley de distribución normal.

En el caso de una dependencia lineal de `y` sobre `x`, podemos escribir la dependencia teórica:
`y = a + bx`.

CON punto geométrico En términos de visión, el coeficiente "b" denota la tangente del ángulo de inclinación de la línea al eje "x", y el coeficiente "a" es el valor de "y" en el punto de intersección de la línea con el " Eje y` (en `x = 0`).

Encontrar los parámetros de la línea de regresión.

En un experimento, los valores medidos de `y_i` no pueden estar exactamente en la línea recta teórica debido a errores de medición, que siempre son inherentes vida real. Por tanto, una ecuación lineal debe representarse mediante un sistema de ecuaciones:
`y_i = a + b x_i + ε_i` (1),
donde `ε_i` es el error de medición desconocido de `y` en el `i`-ésimo experimento.

La dependencia (1) también se llama regresión, es decir. la dependencia de dos cantidades entre sí con significancia estadística.

La tarea de restaurar la dependencia es encontrar los coeficientes `a` y `b` a partir de los puntos experimentales [`y_i`, `x_i`].

Para encontrar los coeficientes `a` y `b` se suele utilizar método de mínimos cuadrados(EMN). Es un caso especial del principio de máxima verosimilitud.

Reescribamos (1) en la forma `ε_i = y_i - a - b x_i`.

Entonces la suma de los errores al cuadrado será
`Φ = suma_(i=1)^(n) ε_i^2 = suma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

El principio de mínimos cuadrados (mínimos cuadrados) es minimizar la suma (2) con respecto a los parámetros `a` y `b`.

El mínimo se consigue cuando las derivadas parciales de la suma (2) respecto de los coeficientes `a` y `b` son iguales a cero:
`frac(Φ parcial)(a parcial) = frac(suma parcial_(i=1)^(n) (y_i - a - b x_i)^2)(a parcial) = 0`
`frac(Φ parcial)(b parcial) = frac(suma parcial_(i=1)^(n) (y_i - a - b x_i)^2)(b parcial) = 0`

Ampliando las derivadas, obtenemos un sistema de dos ecuaciones con dos incógnitas:
`suma_(i=1)^(n) (2a + 2bx_i - 2y_i) = suma_(i=1)^(n) (a + bx_i - y_i) = 0`
`suma_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = suma_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Abrimos los paréntesis y transferimos las sumas independientes de los coeficientes requeridos a la otra mitad, obtenemos un sistema de ecuaciones lineales:
`suma_(i=1)^(n) y_i = a n + b suma_(i=1)^(n) bx_i`
`suma_(i=1)^(n) x_iy_i = a suma_(i=1)^(n) x_i + b suma_(i=1)^(n) x_i^2`

Resolviendo el sistema resultante, encontramos fórmulas para los coeficientes `a` y `b`:

`a = frac(suma_(i=1)^(n) y_i suma_(i=1)^(n) x_i^2 — suma_(i=1)^(n) x_i suma_(i=1)^(n ) x_iy_i) (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n suma_(i=1)^(n) x_iy_i — suma_(i=1)^(n) x_i suma_(i=1)^(n) y_i) (n suma_(i=1)^ (n) x_i^2 — (suma_(i=1)^(n) x_i)^2)` (3.2)

Estas fórmulas tienen soluciones cuando `n > 1` (la recta se puede construir usando al menos 2 puntos) y cuando el determinante `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1 )^(n) x_i)^2 != 0`, es decir cuando los puntos `x_i` en el experimento son diferentes (es decir, cuando la línea no es vertical).

Estimación de errores de coeficientes de líneas de regresión.

Para una evaluación más precisa del error al calcular los coeficientes "a" y "b", es deseable un gran número de puntos experimentales. Cuando `n = 2`, es imposible estimar el error de los coeficientes, porque la línea de aproximación pasará únicamente por dos puntos.

Se determina el error de la variable aleatoria `V` ley de acumulación de errores
`S_V^2 = suma_(i=1)^p (frac(f parcial)(z_i parcial))^2 S_(z_i)^2`,
donde `p` es el número de parámetros `z_i` con error `S_(z_i)`, que afectan el error `S_V`;
`f` es una función de la dependencia de `V` de `z_i`.

Escribamos la ley de acumulación de errores para el error de los coeficientes "a" y "b".
`S_a^2 = suma_(i=1)^(n)(frac(a parcial)(y_i parcial))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(a parcial )(x_i parcial))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(a parcial)(y_i parcial))^2 `,
`S_b^2 = suma_(i=1)^(n)(frac(b parcial)(y_i parcial))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(b parcial )(x_i parcial))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(b parcial)(y_i parcial))^2 `,
porque `S_(x_i)^2 = 0` (anteriormente hicimos la reserva de que el error `x` es insignificante).

`S_y^2 = S_(y_i)^2` - error (varianza, cuadrado Desviación Estándar) en la medición de `y`, suponiendo que el error es uniforme para todos los valores de `y`.

Sustituyendo fórmulas para calcular `a` y `b` en las expresiones resultantes obtenemos

`S_a^2 = S_y^2 frac(suma_(i=1)^(n) (suma_(i=1)^(n) x_i^2 — x_i suma_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2) suma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(suma_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(suma_(i=1)^(n) (n x_i - suma_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

En la mayoría de los experimentos reales, no se mide el valor de "Sy". Para ello, es necesario realizar varias mediciones (experimentos) paralelas en uno o varios puntos del plan, lo que aumenta el tiempo (y posiblemente el coste) del experimento. Por lo tanto, generalmente se supone que la desviación de "y" de la línea de regresión puede considerarse aleatoria. La estimación de la varianza "y" en este caso se calcula mediante la fórmula.

`S_y^2 = S_(y, resto)^2 = frac(suma_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

El divisor `n-2` aparece porque nuestro número de grados de libertad ha disminuido debido al cálculo de dos coeficientes utilizando la misma muestra de datos experimentales.

Esta estimación también se denomina varianza residual relativa a la línea de regresión `S_(y, rest)^2`.

La importancia de los coeficientes se evalúa mediante la prueba t de Student.

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Si los criterios calculados `t_a`, `t_b` son menores que los criterios tabulados `t(P, n-2)`, entonces se considera que el coeficiente correspondiente no es significativamente diferente de cero con una probabilidad dada `P`.

Para evaluar la calidad de la descripción de una relación lineal, puede comparar `S_(y, rest)^2` y `S_(bar y)` en relación con la media utilizando el criterio de Fisher.

`S_(barra y) = frac(suma_(i=1)^n (y_i - barra y)^2) (n-1) = frac(suma_(i=1)^n (y_i - (suma_(i= 1)^n y_i) /n)^2) (n-1)` - estimación de muestra de la varianza `y` relativa a la media.

Para evaluar la efectividad de la ecuación de regresión para describir la dependencia, se calcula el coeficiente de Fisher.
`F = S_(barra y) / S_(y, reposo)^2`,
que se compara con el coeficiente tabular de Fisher `F(p, n-1, n-2)`.

Si `F > F(P, n-1, n-2)`, la diferencia entre la descripción de la relación `y = f(x)` usando la ecuación de regresión y la descripción usando la media se considera estadísticamente significativa con probabilidad `P`. Aquellos. la regresión describe la dependencia mejor que la dispersión de "y" alrededor de la media.

Haga clic en el gráfico
para agregar valores a la tabla

Método de mínimos cuadrados. El método de mínimos cuadrados significa la determinación de parámetros desconocidos a, b, c, la dependencia funcional aceptada.

El método de mínimos cuadrados se refiere a la determinación de parámetros desconocidos. a B C,… dependencia funcional aceptada

y = f(x,a,b,c,…),

lo que proporcionaría un mínimo del cuadrado medio (varianza) del error

, (24)

donde x i, y i es un conjunto de pares de números obtenidos del experimento.

Dado que la condición para el extremo de una función de varias variables es la condición de que sus derivadas parciales sean iguales a cero, entonces los parámetros a B C,… se determinan a partir del sistema de ecuaciones:

; ; ; … (25)

Hay que recordar que el método de mínimos cuadrados se utiliza para seleccionar parámetros después del tipo de función. y = f(x) definido

Si a partir de consideraciones teóricas no se pueden sacar conclusiones sobre cuál debería ser la fórmula empírica, entonces hay que guiarse, en primer lugar, por las representaciones visuales. representación gráfica datos observados.

En la práctica, suelen limitarse a los siguientes tipos de funciones:

1) lineal ;

2) cuadrática a.