Estadística descriptiva bidimensional
Covarianza, R de Pearson
2
Para realizar la comparación de dos variables, necesitamos nuevos estadísticos para poder medir la correlación que hay entre ellas.
Cuando nos referimos a correlación, estamos refiriéndonos a relación que hay entre las variables.
Por ejemplo, es intuitivo pensar que a mayor altura que tenga una persona, mayor será su peso. En este momento estamos buscando los estadísticos que nos den esa relación.
Covarianza:
Es un valor que indica el grado de dependencia entre dos variables.
Si la covarianza es positiva, indica que hay "dependencia directa", es decir, que a mayor valor de una de las variables mayor valor de la otra. Si por el contrario es negativa, indicará "dependencia indirecta" que será que a mayor valor de una de las variables menor valor de la otra.
Para calcular la covarianza se aplicarán diferentes fórmulas según tengamos los datos:
Para los datos en tabla sin agrupar tenemos dos opciones:
Para los datos en tabla agrupado también tenemos dos opciones:
Y para los datos agrupados en tabla de doble entrada:
Veamos un ejemplo:
Continuando con el problema anterior:
Al estudiar las ausencias en clase (X) que toma valores entre 0 y 4 y la nota final (Y) que toma valores entre 5 y 9 de los 20 alumnos de una clase, tenemos los siguientes valores:
(0,9), (0,9), (0,8), (0,8), (0,7), (1,9), (1,8), (1,8), (1,8), (1,7), (1,7), (2,7), (2,6), (2,6),(2,6),(3,6), (3,6), (3,5), (4,6), (4,5).
Para los datos en tabla sin agrupar:
En las columnas 3 y 4 tenemos los cálculos correspondientes a los valores de cada variable menos su media y en la última columna el producto de éstos, en la columna 5 tenemos el producto de las columna 3 y 4 (estando al final la suma) y en la columna 6 tenemos el producto del valor de x por y.
Con estos datos podemos aplicar la primera fórmula:
En este caso cogeremos la suma de los valores de xi·yi entre 20 y le restaremos el producto de las medias: 192/20 - 1,55· 7,05 = -1,33.
Para la segunda fórmula, partimos del -26,55 y lo dividimos entre 20, dando el resultado de -1,33.
Vamos ahora con los datos en tabla agrupados:
En este caso, en la columna 3 tenemos las frecuencias, en las columnas 4 y 5 tenemos los cálculos correspondientes a los valores de cada variable menos su media y en la columna 6 el producto de éstos por su frecuencia. En la columna 7 tenemos el producto de las columna 1, 2 y 3 (estando al final la suma).
Con estos datos podemos aplicar la primera fórmula:
En este caso cogeremos la suma de los valores de xi·yi·fi entre 20 y le restaremos el producto de las medias: 192/20 - 1,55· 7,05 = -1,33.
Para la segunda fórmula, partimos del -26,55 y lo dividimos entre 20, dando el resultado de -1,33.
Vamos ahora con los datos en tabla de doble entrada:
Aplicamos la fórmula:
Sxy = (0·5·1 + 0·6·0 + 0·7·1 + 0·8·2 + 0·9·2 + 1·5·0 + 1·6·0 + 1·7·2 + 1·8·3 + 1·9·1
+ 2·5·0 + 2·6·3 + 2·7·1 + 2·8·0 + 2·9·0+ 3·5·1 + 3·6·2 + 3·7·0 + 3·8·0 + 3·9·0+ 4·5·1 + 4·6·1 + 4·7·0 + 4·8·0 + 4·9·0)/20 - 1,55 · 7,05 = -1,33.
En este caso, se ve que hay una relación indirecta (a mayor valor de la variable X menor valor de la Variable Y).
Todas las fórmulas dan el mismo valor, como era de esperar.
r de Pearson:
Al igual que la covarianza, se utiliza para comprobar la relación entre dos variables, pero ésta tiene un valor comprendido entre -1 y 1. El signo indica si la relación es directa o indirecta y el valor indica cuánto relacionadas están las variables, si es cercano a -1 o 1 indica que hay relación fuerte(o en valor absoluto cercano a 1), si es cercana a cero relación débil (en la practica se considerará fuerte cuando sea menor que -0,8 o mayor que 0,8).
Se calcula de la siguiente forma:
2
En nuestro ejemplo, tenemos que Sxy es -1,33. Sx = 1,28 y Sy = 1,24.
Por lo que el valor que buscamos será -0,83.
Como el valor absoluto es mayor que 0,8 se considera que hay una relación fuerte, es decir, las ausencias a clase influyen en la nota final, y además al ser negativa (relación indirecta), a más ausencias menor nota final.