Mínimos cuadrados: explicación y ejemplos

Los mínimos cuadrados es un método para encontrar la mejor línea para aproximar un conjunto de datos.

En particular, los mínimos cuadrados buscan minimizar el cuadrado de la diferencia entre cada punto de datos y el valor predicho.

Esta sección cubre:

  • ¿Cuál es el método de mínimos cuadrados?
  • Definición del método de mínimos cuadrados
  • Fórmula de mínimos cuadrados

¿Cuál es el método de mínimos cuadrados?

El método de mínimos cuadrados busca encontrar una fila que se asemeje más a un conjunto de datos. En este caso, “mejor” significa una fila en la que se minimiza la suma de los cuadrados de las diferencias entre los valores predichos y reales.

¿Por qué esto usa cuadrados? ¿Por qué no simplemente encontrar la suma de las diferencias entre los valores predichos y reales en estos problemas?

En algunos casos, el valor predicho será mayor que el valor real y, en algunos casos, será menor que el valor real. En cualquier caso, sin embargo, el valor predicho es inexacto.

Sin embargo, solo encontrar la diferencia producirá una mezcla de valores positivos y negativos. Por tanto, el simple hecho de sumarlos no daría un buen reflejo del desplazamiento real entre los dos valores.

Los cuadrados, sin embargo, siempre serán positivos. Por lo tanto, sumarlos le dará una mejor idea de la precisión de la línea de mejor ajuste.

El método de mínimos cuadrados usa una fórmula específica para encontrar la línea, $ y = mx + b $, que minimiza esta suma.

Definición del método de mínimos cuadrados

El método de mínimos cuadrados es un método para encontrar una fila para aproximar un conjunto de datos que minimiza la suma de los cuadrados de las diferencias entre los valores predichos y reales.

Esta fila tiene la forma $ y = mx + b $ donde $ m $ y $ b $ se calculan utilizando los valores $ x $ y $ y $ del conjunto de datos dado.

Fórmula de mínimos cuadrados

El objetivo del método de mínimos cuadrados es encontrar una línea con la ecuación $ y = mx + b $ que mejor se corresponda con los datos. Esto a veces se denomina la línea de mejor ajuste.

Aquí, “mejor” significa que la suma de los cuadrados de las diferencias entre los puntos de datos reales y sus valores predichos en la línea se minimiza. De ahí el nombre de “mínimos cuadrados”.

Esta fila de mínimos cuadrados para un conjunto de datos con puntos $ (x_1, y_1) $,…, $ (x_n, y_n) $ es $ y = mx + b $ donde $ m $ y $ b $ son los siguientes.

$ m = frac {n[(x_1y_1)+ … +(x_ny_n)]-[(x_1 + … + x_n)(y_1 + … + y_n)]} {(x_1 ^ 2 +… + x_n ^ 2) – (x_1 +… + x_n) ^ 2} $.

Esto es equivalente a:

$ m = frac {n sum limits_ {i = 1} ^ n xy – [(sumlimits_{i=1}^n x)(sumlimits_{i=1}^n y)]} {n sum limits_ {i = 1} ^ nx ^ 2 – ( sum limits_ {i = 1} ^ nx) ^ 2} $.

y

$ b = frac { sum limits_ {i = 1} ^ ny – [(m)(sumlimits_{i=1}^n x)]} {n} $.

Ejemplos de

Esta sección cubre ejemplos comunes de problemas de mínimos cuadrados y sus soluciones paso a paso.

Ejemplo 1

Example 1 Graph

¿Cuál es el valor predicho para $ x = $ 5?

Solución

El valor predicho para $ x = $ 5 es el punto en la línea dada donde $ x = $ 5. Tenga en cuenta que esto puede ser diferente del valor real en $ x = $ 5.

En este caso, el valor real cuando $ x = $ 5 es $ y = – $ -1.

Pero la línea de predicción tiene un valor diferente de $ y = $ 3.

Ejemplo 2

Example 1 Graph

Encuentre el total de los cuadrados de la diferencia entre los valores reales y los valores predichos.

Solución

En primer lugar, ayuda a encontrar la ecuación de la recta. Esto ayudará a encontrar los valores predichos.

Tenga en cuenta que la línea pasa por $ (0, 2) $ y $ (5, 3) $. Esto significa que la pendiente de la línea es $ m = frac {3-2} {5-0} = frac {1} {5} $. Su intersección con el eje y es $ 2 $, por lo que la ecuación es $ y = frac {1} {5} x + 2 $.

Los valores dados son $ (- 2, 1), (2, 4), (5, -1), (7, 3), $ y $ (8, 4) $.

Colocando los valores $ x $ en la ecuación da:

$ y = frac {1} {5} (- 2) + 2 = frac {8} {5} $.

$ y = frac {1} {5} (2) + 2- frac {12} {5} $.

Se sabe que el valor de $ 5 es $ 3.

$ y = frac {1} {5} (7) + 2 = frac {17} {5} $.

$ y = frac {1} {5} (8) + 2 = frac {18} {5} $.

La diferencia entre los valores predichos y reales para $ x = -2 $ es $ frac {8} {5} -1 = frac {3} {5} $. Luego, la cuadratura que da $ frac {9} {25} $.

La diferencia entre los valores predichos y reales para $ x = 2 $ es $ frac {12} {5} -4 = – frac {8} {5} $. Luego, la cuadratura que da $ frac {64} {25} $.

La diferencia entre los valores predichos y reales para $ x = $ 5 es 3 + 1 = $ 4. Al elevar este valor al cuadrado, se obtienen $ 16.

La diferencia entre los valores predichos y reales para $ x = $ 7 es $ frac {17} {5} -3 = frac {2} {5} $. Luego, la cuadratura que da $ frac {4} {25} $.

La diferencia entre los valores predichos y reales para $ x = 8 $ es $ frac {18} {5} -4 = – frac {2} {5} $. Luego, la cuadratura que da $ frac {4} {25} $.

Por lo tanto, el total es: $ frac {9} {25} + frac {64} {25} + frac {400} {25} + frac {4} {25} + frac {4} {25} = frac {481} {25} $. Esto es igual a $ 19 frac {6} {25} $.

Ejemplo 3

example 3 graphs 1 and 2

Encuentre la mejor de las dos líneas comparando la suma de los cuadrados de las diferencias entre los valores reales y esperados.

Solución

La línea azul es la mejor de estas líneas porque la suma de las diferencias cuadradas entre los valores reales y pronosticados es menor.

Primero, encuentre los valores reales de los cinco puntos.

$ A = (0, 2) $

$ B = (3, 1) $

$ C = (5, -1) $

$ D = (7, 3) $

$ E = (8, 5) $.

Luego, encuentra la ecuación para las dos líneas.

Tenga en cuenta que el azul pasa por $ (0, -2) $ y $ (4, 1) $. Por lo tanto, su pendiente es $ m = frac {4} {5} $, y su ecuación es $ y = frac {4} {5} x-2 $.

Asimismo, la línea naranja pasa por $ (0, -4) $ y $ (4, 1) $. Por lo tanto, su pendiente es $ m = frac {5} {4} $, y su ecuación es $ y = frac {5} {4} x-4 $.

Ahora es necesario encontrar el valor predicho para cada ecuación. Para hacer esto, ingrese los valores $ x $ de los cinco puntos en cada ecuación y resuelva.

Esto muestra que los valores predichos para la línea azul son $ (0, -2), (3, frac {2} {5}), (5, 2), (7, frac {18} {5 }), $ y $ (8, frac {22} {5}) $.

Usando un proceso similar, los valores predichos para la línea naranja son $ (0, -4), (3, – frac {1} {4}), (5, frac {9} {4}), (7, frac {19} {4}), $ y $ (8, 6) $.

Luego, encuentre la diferencia entre el valor real y el valor predicho para cada fila. Luego cuadre estas diferencias y súmelas para las filas respectivas.

Línea azul:

Las diferencias son $ 4, frac {3} {5}, 3, frac {3} {5}, $ y $ frac {3} {5} $.

Estos valores al cuadrado son $ 16, frac {9} {25}, 9, frac {9} {25}, $ y $ frac {9} {25} $.

Entonces, el total de estos cuadrados da $ frac {652} {25} $ o $ 26 frac {2} {25} $.

Línea naranja:

Las diferencias son $ 6, frac {5} {4}, frac {13} {4}, frac {7} {4}, $ y $ 1 $.

Estos valores al cuadrado son $ 36, frac {25} {16}, frac {169} {16}, frac {49} {26}, $ y $ 1 $.

Entonces, el total de estos cuadrados da $ frac {835} {16} $ o $ 52 frac {3} {16} $.

Dado que la suma de la línea azul, $ 26 frac {2} {25} $, es menor que la suma de la línea naranja, $ 52 frac {3} {16} $, esta es una mejor aproximación de los datos. .

Ejemplo 4

Encuentra la línea de mínimos cuadrados para los datos a continuación.

(1, 5), (9, -2), (5, 2), (3, 4)

Solución

Aquí no es necesario trazar los puntos. Es suficiente encontrar las sumas de las ecuaciones de la pendiente y la intersección.

Recuerde que:

$ m = frac {n sum limits_ {i = 1} ^ n xy – [(sumlimits_{i=1}^n x)(sumlimits_{i=1}^n y)]} {n sum limits_ {i = 1} ^ nx ^ 2 – ( sum limits_ {i = 1} ^ nx) ^ 2} $.

y

$ b = frac { sum limits_ {i = 1} ^ ny – [(m)(sumlimits_{i=1}^n x)]} {n} $.

Esto significa que es necesario encontrar $ sum limits_ {i = 1} ^ n xy $, $ sum limits_ {i = 1} ^ nx $, $ sum limits_ {i = 1} ^ nx ^ 2 $ y $ sum limits_ {i = 1} ^ ny $. Luego, conéctelos a las ecuaciones de $ m $ y $ b $.

$ sum limits_ {i = 1} ^ n xy = (1 times5) + (9 times -2) + (5 times2) + (3 times4) = 5-18 + 10 + 12 = $ 9

$ sum limits_ {i = 1} ^ nx = 1 + 9 + 5 + 3 = $ 18

$ sum limits_ {i = 1} ^ nx ^ 2 = 1 ^ 2 + 9 ^ 2 + 5 ^ 2 + 3 ^ 2 = 1 + 81 + 25 + 9 = 116 $

$ sum limits_ {i = 1} ^ ny = 5-2 + 2 + 4 = $ 9.

Ahora, al conectarlos a las fórmulas, obtenemos:

$ m = frac {4 (9) – (18) (9)} {4 (116) -18 ^ 2} = frac {36-162} {464-324} = frac {-126} {140 } = frac {9} {10} = $ 0.9.

$ b = frac {9-[-0.9times 18]} {4} = frac {9 + 16.2} {4} = frac {25.2} {4} = 6.3 $.

Por lo tanto, la ecuación de la fila es $ y = -0,9x + $ 6,3.

Ejemplo 5

(1, 4), (3, 7), (4, 6), (6, 8)

Encuentre la fila de mínimos cuadrados para los datos dados y úsela para predecir el valor $ y $ cuando $ x = $ 10.

Solución

Como antes, encuentre las sumas relevantes para las ecuaciones de $ m $ y $ b $. Luego, sustituya $ x = $ 10 en la ecuación por la línea de mejor ajuste.

$ sum limits_ {i = 1} ^ n xy = (1 times4) + (3 times7) + (4 times6) + (6 times8) = 4 + 21 + 24 + 48 = $ 97

$ sum limits_ {i = 1} ^ nx = 1 + 3 + 4 + 6 = $ 14

$ suma límites_ {i = 1} ^ nx ^ 2 = 1 + 9 + 16 + 36 = 62 $

$ sum limits_ {i = 1} ^ ny = 4 + 7 + 6 + 8 = $ 25.

Ahora, al conectarlos a las fórmulas, obtenemos:

$ m = frac {4 (97) – (14) (25)} {4 (62) -196} = frac {388-350} {248-196} = frac {38} {52} = frac {19} {26} $.

$ b = frac {25-[frac{19}{26}times 14]} {4} = frac {48} {13} $.

Por lo tanto, la recta de la ecuación de mejor ajuste es $ y = frac {19} {26} x + frac {48} {13} $.

Para encontrar la aproximación de $ x = $ 10, inserte ese valor en esta ecuación. Esto da :

$ y = frac {19} {26} (10) + frac {48} {13} = frac {95} {13} + frac {48} {13} = frac {143} {13} = $ 11.

Entonces, la estimación de $ y $ cuando $ x = 10 $ es $ 11 $.

Problemas de práctica

  1. La línea que mejor se ajusta a un conjunto de datos es $ y = {6} {5} x-7 $. Si el valor real de $ x = $ 10 es 8, ¿cuál es la diferencia entre los valores reales y predichos?
  2. Considere el conjunto de datos $ (- 4, 5), (-1, 10), (6, 15), (7, 16) $ y la fila $ y = x + 9 $.
    ¿Cuál es la suma de los cuadrados de las diferencias entre los valores reales y predichos?
  3. Con base en el problema anterior, ¿qué significa si la suma de los cuadrados de las diferencias entre los valores reales y esperados es $ 0?
  4. Encuentre la ecuación de línea de mínimos cuadrados para el siguiente conjunto de datos:
    $ (0, -3), (1, -2), (4, -1), (5, 4) $.
  5. Encuentre la ecuación de mínimos cuadrados para el siguiente conjunto de datos y úsela para predecir $ x = $ 10.
  6. $ (- 1, -4), (0, 3), (1, 4), (2, 6) $.

Clave de respuesta

  1. $ 3
  2. $ 4 $
  3. Si la suma de los cuadrados de las diferencias es $ 0, significa que la diferencia entre los valores reales y esperados es $ 0 para todos los valores de $ x $. Por lo tanto, todos los puntos de datos están en una línea. Sin embargo, esto no significa que todos los puntos seguirían cayendo exactamente en esa línea si se recopilaran más puntos.
  4. $ y = frac {19} {17} x- frac {56} {17} $
  5. La ecuación es $ y = 3.1x + $ 0.7, que predice $ y = $ 31.7 cuando $ x = $ 10.

Las imágenes / dibujos matemáticos se crean con GeoGebra.