Covarianza, r de pearson, comparación de dos variables
top of page

Estadística descriptiva bidimensional

Covarianza, R de Pearson
2

Para realizar la comparación de dos variables, necesitamos nuevos estadísticos para poder medir la correlación que hay entre ellas.

Cuando nos referimos a correlación, estamos refiriéndonos a relación que hay entre las variables.

Por ejemplo, es intuitivo pensar que a mayor altura que tenga una persona, mayor será su peso. En este momento estamos buscando los estadísticos que nos den esa relación. 

​

Covarianza:

Es un valor que indica el grado de dependencia entre dos variables. 

Si la covarianza es positiva, indica que hay "dependencia directa", es decir, que a mayor valor de una de las variables mayor valor de la otra. Si por el contrario es negativa, indicará "dependencia indirecta" que será que a mayor valor de una de las variables menor valor de la otra.

​

Para calcular la covarianza se aplicarán diferentes fórmulas según tengamos los datos:

​

Para los datos en tabla sin agrupar tenemos dos opciones:

​

​

 

Para los datos en tabla agrupado también tenemos dos opciones:

​

 

Y para los datos agrupados en tabla de doble entrada:

​

Veamos un ejemplo:

Continuando con el problema anterior:

Al estudiar las ausencias en clase (X) que toma valores entre 0 y 4 y la nota final (Y) que toma valores entre 5 y 9 de los 20 alumnos de una clase, tenemos los siguientes valores: 

(0,9), (0,9), (0,8), (0,8), (0,7), (1,9), (1,8), (1,8), (1,8), (1,7), (1,7), (2,7), (2,6), (2,6),(2,6),(3,6), (3,6), (3,5), (4,6), (4,5).

​

Para los datos en tabla sin agrupar:

​

En las columnas 3 y 4 tenemos los cálculos correspondientes a los valores de cada variable menos su media y en la última columna el producto de éstos, en la columna 5 tenemos el producto de las columna 3 y 4 (estando al final la suma) y en la columna 6 tenemos el producto del valor de x por y.

 

Con estos datos podemos aplicar la primera fórmula:

En este caso cogeremos la suma de los valores de xi·yi entre 20 y le restaremos el producto de las medias:  192/20 - 1,55· 7,05 = -1,33.

​

Para la segunda fórmula, partimos del -26,55 y lo dividimos entre 20, dando el resultado de -1,33.

​

Vamos ahora con los datos en tabla agrupados:

​

En este caso, en la columna 3 tenemos las frecuencias, en las columnas 4 y 5 tenemos los cálculos correspondientes a los valores de cada variable menos su media y en la columna 6 el producto de éstos por su frecuencia. En la columna 7 tenemos el producto de las columna 1, 2 y 3 (estando al final la suma).

​

Con estos datos podemos aplicar la primera fórmula:

En este caso cogeremos la suma de los valores de xi·yi·fi entre 20 y le restaremos el producto de las medias:  192/20 - 1,55· 7,05 = -1,33.

​

Para la segunda fórmula, partimos del -26,55 y lo dividimos entre 20, dando el resultado de -1,33.

​

Vamos ahora con los datos en tabla de doble entrada:

​

Aplicamos la fórmula:

​

Sxy = (0·5·1 + 0·6·0 + 0·7·1 + 0·8·2 + 0·9·2 + 1·5·0 + 1·6·0 + 1·7·2 + 1·8·3 + 1·9·1

+ 2·5·0 + 2·6·3 + 2·7·1 + 2·8·0 + 2·9·0+ 3·5·1 + 3·6·2 + 3·7·0 + 3·8·0 + 3·9·0+ 4·5·1 + 4·6·1 + 4·7·0 + 4·8·0 + 4·9·0)/20  -  1,55 · 7,05 = -1,33.

​

En este caso, se ve que hay una relación indirecta (a mayor valor de la variable X menor valor de la Variable Y).

 

Todas las fórmulas dan el mismo valor, como era de esperar.

​

​

r    de Pearson:

​

Al igual que la covarianza, se utiliza para comprobar la relación entre dos variables, pero ésta tiene un valor comprendido entre -1 y 1. El signo indica si la relación es directa o indirecta y el valor indica cuánto relacionadas están las variables, si es cercano a -1 o 1 indica que hay relación fuerte(o en valor absoluto cercano a 1), si es cercana a cero relación débil (en la practica se considerará fuerte cuando sea menor que -0,8 o mayor que 0,8).

​

Se calcula de la siguiente forma:

​

2

En nuestro ejemplo, tenemos que Sxy es -1,33. Sx = 1,28 y S= 1,24.

​

Por lo que el valor que buscamos será -0,83.

​

Como el valor absoluto es mayor que 0,8 se considera que hay una relación fuerte, es decir, las ausencias a clase influyen en la nota final, y además al ser negativa (relación indirecta), a más ausencias menor nota final.

​

bottom of page