sábado, 4 de febrero de 2012

"Correlación no es causalidad"

De cuando en cuando uno se va encontrando informaciones y publicaciones en las que se presentan conjuntos de datos y se proporciona su coeficiente de correlación. Normalmente, si el autor de la información merece la más mínima credibilidad, suele señalar que "si bien correlación no significa causalidad" esas variables (las que sean) tienen algún tipo de relación entre ellas que merece ser analizada.


El coeficiente de correlación es un índice que nos indica el grado de relación lineal entre dos variables. Varía entre -1 y 1 y nos indica si existe alguna linea recta (no vertical ni horizontal) que siga la dirección de la nube de puntos de ambas variables. El coeficiente más utilizado es el de Pearson, si bien existen otras formas de medir lo mismo algo más robustas (coeficiente de Spearman).


Me gustaría hacer algunas consideraciones sobre el uso del coeficiente de correlación y especialmente señalar aquellas ocasiones en las que está especialmente mal usado e interpretado. Creo que la mayor parte de las veces que lo veo utilizar se interpreta de forma errónea, especialmente cuando se utiliza sobre series temporales:
  • Causalidad no es correlacion. Supongamos que entre dos variables existe una relación funcional perfecta... por ejemplo supongamos una variable y su cuadrado. Podría ocurrirnos lo que sucede en la gráfica siguiente: una relación funcional perfecta nos da un coeficiente de correlación nulo.






  •  Mucho cuidado con las series temporales. A menudo los datos de series temporales tienen una tendencia. A veces se trata de una tendencia lineal (tendencia a crecer o decrecer en una cantidad más o menos fija) o de una tendencia exponencial (tendencia a crecer o decrecen en una proporción más o menos fija). Siempre (y cuando digo siempre, quiero decir que seguro que llega alguien con un ejemplo en el que no ocurre) que estimemos un coeficiente de correlación en series con tendencia nos encontraremos un valor significativo.  
  • Para trabajar con series temporales hay que corregirlas: Es posible que dos series temporales tengan algún tipo de relación estadística entre ellas pero para poder analizarla es preciso "retocarlas" antes. La idea es extraer la información contenida en la serie sustrayendo la tendencia subyacente. El proceso puede ser más o menos complejo con el objetivo final de obtener una serie estacionaria: sin tendencia, sin ciclos y homocedástica (que la dispersión o varianza no aumente o disminuya al avanzar en el tiempo). Dicho de otra manera, se trata de obtener una serie con las anomalías de la serie original en torno a la tendencia subyacente. Si dos series temporales "de anomalías" tienen un coeficiente de correlación significativo es posible que dicho coeficiente tenga alguna importancia. 
  • La relación causal puede depender del retardo. En muchos casos una variable afecta a otra de forma no instantánea sino a lo largo del tiempo. De hecho, el impacto puede extenderse a lo largo de varios períodos. En ese caso, el coeficiente de correlación tampoco aporta gran información ya que sólo mide el efecto instantáneo y éste puede ser nulo pese a que las variables tengan una fuerte dependencia. 


En resumen, el coeficiente de correlación "a secas" no debería ser empleado nunca en series temporales sin un estudio en profundidad de las mismas. Es una mala aplicación de la estadística. (Por supuesto, si alguien sabe lo suficiente de series temporales como para estudiarlas en profundidad utilizará otras herramientas...)


En el caso de datos transversales (distintos individuos u observaciones en el mismo momento de tiempo, o cuando el tiempo no es relevante) el coeficiente de correlación puede señalar relaciones causales, pero no hay que olvidar que puede haber relaciones causales sin correlación (lineal) y lo que todos repetimos "correlación no implica causalidad".

No hay comentarios:

Publicar un comentario