El coeficiente de correlación de un conjunto de datos es un número entre $ 1 y $ 1 que muestra cuán aleatorios son los datos.
Un número más cercano a $ 0 indica un carácter aleatorio. Un número más cercano a $ 1 indica una correlación positiva, mientras que un número más cercano a $ -1 $ indica una correlación negativa.
Los coeficientes de correlación son importantes para cualquier tipo de análisis estadístico. Cuanto mayor sea el valor absoluto del coeficiente de correlación, más fuerte será la asociación entre las variables.
Esta sección cubre:
- ¿Qué es un coeficiente de correlación?
- Definición del coeficiente de correlación
- Cómo encontrar el coeficiente de correlación
¿Qué es un coeficiente de correlación?
Un coeficiente de correlación es un número que muestra qué tan estrechamente están relacionadas dos variables. Cuanto más cercano esté el valor absoluto del coeficiente a 1, más fuerte será la asociación entre las dos variables.
Específicamente, los valores más cercanos a $ 1 indican una fuerte asociación positiva, mientras que los valores más cercanos a $ -1 $ indican una fuerte asociación negativa. Es decir, cuando el valor está más cerca de $ 1 $, el valor de la variable dependiente aumentará a medida que aumenta la variable independiente. Lo contrario es cierto cuando el coeficiente de correlación está más cerca de $ -1 $.
Cuando el coeficiente de correlación está más cerca de $ 0 $, indica una falta de asociación entre las dos variables.
Un coeficiente de correlación superior a $ 0,8 o inferior a – $ 0,8 generalmente se considera significativo.
Definición del coeficiente de correlación
Un coeficiente de correlación es un número entre $ 1 $ y $ -1 $ que muestra qué tan estrechamente están relacionadas dos variables. Por lo general, este número se indica con $ r $.
Los datos aleatorios tendrán valores más cercanos a $ 0 $, los datos proporcionales tendrán valores más cercanos a $ 1 $ y los datos inversamente proporcionales tendrán valores más cercanos a $ -1 $.
Cómo encontrar el coeficiente de correlación
El coeficiente de correlación es significativo para datos cuantitativos bivariados. Es decir, cuando los datos constan de dos valores numéricos. Por ejemplo, el tamaño del zapato y el tamaño del zapato o la temperatura y la humedad son datos cuantitativos bivariados.
El coeficiente de correlación indica si los datos tienen o no una relación lineal.
Ciertamente es posible calcular este número a mano, pero lleva mucho tiempo, especialmente a medida que aumenta el número de puntos de datos.
Para calcular $ r $ para datos bivariados con una variable independiente $ x $ y una variable dependiente $ y $:
- Calcule el promedio de todos los valores $ x $, $ bar {x} $.
Si hay $ n $ puntos de datos, el promedio es $ bar {x} = frac { sum limits_ {k = 1} ^ n x_k} {n} $. Es decir, la suma de todos los términos $ x $ dividida por el número total de términos. - Calcule el promedio de todos los valores $ y $, $ bar {y} $.
Si hay $ n $ puntos de datos, el promedio es $ bar {y} = frac { sum limits_ {k = 1} ^ n y_k} {n} $. Es decir, la suma de todos los términos $ y $ dividida por el número total de términos. - Calcule la desviación estándar de todos los términos $ x $, $ s_x $.
La desviación estándar es $ s_x $ = $ sqrt { frac { sum limits_ {k = 1} ^ n (x_k- bar {x}) ^ 2} {n-1}} $. Es una fórmula de apariencia complicada, pero solo encuentra cuánto se desvía el punto de datos típico de la media. - Calcule la desviación estándar de todos los términos $ y $, $ s_y $.
La desviación estándar es $ s_y $ = $ sqrt { frac { sum limits_ {k = 1} ^ n (y_k- bar {y}) ^ 2} {n-1}} $. Nuevamente, esta es una fórmula de apariencia complicada, pero recuerde que solo encuentra cuánto se desvía el punto de datos típico de la media. - Calcule la puntuación $ z $ para los términos $ x $. La puntuación $ z $ (también llamada valor estándar) es igual a $ frac {x- bar {x}} {s_x} $. Este número facilita la comparación de datos de diferentes muestras.
- Asimismo, calcule la puntuación $ z $ para los términos $ y $. Esto es igual a $ frac {y- bar {y}} {s_y} $.
- Finalmente, calcule el coeficiente de correlación $ r $ como la suma de los productos de las puntuaciones correspondientes de $ z $ divididas por $ n-1 $. En otras palabras, multiplique la puntuación $ z $ de cada valor $ x $ por la puntuación $ z $ del valor $ y $ correspondiente. Luego sume esos productos y divídalos por $ 1 menos que el número total de términos.
En otras palabras, $ r = $ frac { sum limits_ {k = 1} ^ n z_ {x_k} z_ {y_k}} {n-1} $.
Regresiones lineales
Los coeficientes de correlación están relacionados con regresiones lineales. A veces se las denomina “líneas de mejor ajuste”. Es decir, es una fila que mejor se aproxima a los datos.
El coeficiente de correlación muestra qué tan bien se ajusta la línea de regresión a los datos. Un valor absoluto más alto del coeficiente de correlación indica un mejor ajuste.
De hecho, el coeficiente de correlación para los datos que se ajustan perfectamente a la línea de mejor ajuste será $ 1 o $ 1 (dependiendo de si la línea tiene una pendiente positiva o negativa). Una muestra grande de datos verdaderamente aleatorios, por otro lado, tendrá un valor muy cercano a $ 0.
Historia del coeficiente de correlación
Ejemplos de
Esta sección cubre problemas comunes que utilizan propiedades de igualdad y sus soluciones paso a paso.
Ejemplo 1
Utilice el método de 7 pasos anterior para demostrar que el conjunto de datos mostrado (para el cual cada punto cae en la línea de regresión lineal positiva) tiene un coeficiente de correlación de $ 1.
Solución
Todos los puntos que se muestran caen en la línea. Es necesario demostrar que el coeficiente de correlación, $ r $, para este conjunto de datos es $ 1.
Primero, determine los valores $ x $ y $ y $ para cada punto. Tenga en cuenta que dado que los puntos caen en la línea, el valor $ y $ es fácil de calcular dado el valor $ x $.
Entonces, el primer paso real en este caso requiere encontrar la ecuación para la línea. Pasa por el punto $ (0, 1) $, que es la intersección $ y $. También pasa por el punto $ (6, 6) $.
Por lo tanto, la pendiente es $ frac {y_1-y_2} {x_1-x_2} $. En este caso, $ m = frac {6-0} {6-1} = frac {5} {6} $.
Entonces, la ecuación de la línea como una intersección de pendiente es $ y = mx + b $, que es $ y = frac {5} {6} x + 1 $.
Los puntos $ x $ dados son $ (0, 1), (3, 3.5), (6, 6), (7, frac {41} {6}), $ y $ (10, frac {56} {6}) $.
Por lo tanto, el promedio de los valores $ x $ es $ frac {0 + 3 + 6 + 7 + 10} {5} = frac {26} {5} $.
Asimismo, el promedio de los valores $ y $ es $ frac {1 + 3.5 + 6 + frac {41} {6} + frac {56} {6}} {5} = frac {10.5+ frac {97} {6}} {5} $. Esto se simplifica en $ frac { frac {63} {6} + frac {97} {6}} {5} = frac {160} {6} times frac {1} {5} $. Finalmente, se simplifica aún más en $ frac {32} {6} $ o $ frac {16} {3} $.
Desviación estándar de $ x $
Ahora es necesario encontrar la desviación estándar de los valores $ x $, $ s_x $. Esto requiere encontrar la diferencia entre cada uno de los términos $ x $ y $ bar {x} $.
$ (0- frac {26} {5}) ^ 2 = frac {676} {25} $.
$ (3- frac {26} {5}) ^ 2 = frac {121} {25} $.
$ (6- frac {26} {5}) ^ 2 = frac {16} {25} $.
$ (7- frac {26} {5}) ^ 2 = frac {81} {25} $.
$ (10- frac {26} {5}) ^ 2 = frac {576} {25} $.
Ahora recuerda $ s_x $ = $ sqrt { frac { sum limits_ {k = 1} ^ n (x_k- bar {x}) ^ 2} {n-1}} $. En este caso lo es:
$ s_x $ = $ sqrt { frac {676} {25} + frac {121} {25} + frac {16} {25} + frac {81} {25} + frac {576} { $ 25}} {4}}.
Esto se simplifica a $ sqrt { frac {147} {10}} approx $ 3.83.
Por lo tanto, las puntuaciones z son:
$ frac {0- frac {26} {5}} \ sqrt {frac {{147} {10}}} aproximadamente $ -1,36.
$ frac {3- frac {26} {5}} \ sqrt {frac {{147} {2}}} aproximadamente $ -1,20.
$ frac {6- frac {26} {5}} \ sqrt {frac {{147} {2}}} aproximadamente $ -1.04.
$ frac {7- frac {26} {5}} \ sqrt {frac {{147} {2}}} aproximadamente $ -0,99.
$ frac {10- frac {26} {5}} \ sqrt {frac {{147} {2}}} aproximadamente $ -0,83.
Desviación estándar de $ y $
Asimismo, calcule la desviación estándar de $ y $ como
$ (0- frac {26} {5}) ^ 2 = frac {
Ejemplo 2
Encuentre las puntuaciones z para los siguientes puntos de datos.
Solución
Ejemplo 3
Encuentre el coeficiente de correlación para este conjunto de datos.
Solución
Ejemplo 4
Interprete un coeficiente de correlación en contexto.
Solución
Ejemplo 5
Usa una calculadora para encontrar el coeficiente de correlación. A continuación, interprete el coeficiente de correlación en contexto.