sábado, 4 de febrero de 2012

Correlación y series temporales: un ejemplo

Después de escribir la entrada anterior no me he quedado del todo satisfecho, de modo que he cogido una hoja de cálculo y he preparado un ejemplo ilustrativo de lo que quiero decir.


Supongamos que Pepito Piscinas PhD pretende convencernos de la relación positiva entre dos variables, X e Y, y para ello nos muestra el gráfico siguiente:


En el gráfico podemos ver dos variables con tendencia creciente. En este caso la serie X muestra una mayor pendiente que la serie Y. Como la tesis de Pepito Piscinas es que X causa Y, además, nos presenta el gráfico de dispersión siguiente:
Se ve claramente una correlación positiva. De hecho el coeficiente de Pearson en este ejemplo es de 0,768. Pepito Piscinas PhD nos dirá que "correlación no implica causalidad" pero sembrará en nuestra mente que ambas variables evolucionan conjuntamente y que existe cierta evidencia empírica de su relación positiva. Pero... ¿Es esto así?.


Para estudiarlo he eliminado la tendencia en ambas series tomando diferencias, esto es, restando al valor de una observación el valor de la observación inmediatamente anterior. La primera observación no puede calcularse, por lo que perdemos un dato. Veamos el gráfico de ambas series diferenciadas:
Ahora es mucho más difícil percibir cualquier tipo de relación entre ambas variables. ¿Crece mucho Y cuando X crece mucho? ¿Disminuye?. Vamos a ver la gráfica de dispersión:
Resulta que cuando tomamos diferencias de las series la correlación ¡es negativa!. ¿Qué quiere decir ésto? Básicamente que cuando X crece por encima de su tendencia Y tiende a quedarse por debajo y viceversa. La pretendida correlación positiva entre las variables (y las posibles implicaciones en cuanto a lineas de acción o políticas para mejorar Y actuando sobre X) es falsa.


Mucho cuidado, (PERO MUCHO MUCHO) cuando se presentan este tipo de datos con series temporales.

1 comentario:

  1. Hola Pedro

    Mi nombre es Carlos Ramos, estoy elaborando un proceso de correlación entre variables (flujos, temperaturas, etc)
    Me doy cuenta obtener el factor de correlación es mas que simplemente comparar los datos y obtener un numero.
    Me gusto mucho tu publicaciòn

    ResponderEliminar