viernes, 3 de enero de 2014

La correlación no es transitiva

No sé si recordaréis aquellas clases de matemáticas donde nos hablaban de una propiedad que cumplían algunas relaciones denominada propiedad transitiva. Un ejemplo donde se cumple la propiedad transitiva es en la relación de igualdad: 
  • si A = B y B = C, entonces A = C. 
Otro ejemplo es la relación "mayor que": 
  • si A > B y B > C, entonces A > C

Hay otras relaciones que no cumplen la propiedad transitiva como por ejemplo la relación de desigualdad: si A es distinto de B y B es distinto de C no podemos decir nada sobre si A es o no distinto de C.

Otro ejemplo: si Luis es hermano de Carlos y Carlos es hermano de Pepe ¿es Luis hermano de Pepe?. Si contestamos a bote pronto seguramente contestaremos afirmativamente aplicando la propiedad transitiva a la relación "ser hermano de". Sin embargo es posible que Luis y Pepe no sean hermanos: Luis y Carlos podrían ser hermanos por ser hijos de la misma madre mientras que Carlos y Pepe pueden compartir padre.

No sé si se ha estudiado alguna vez la propiedad transitiva desde un punto de vista psicológico pero no me extrañaría que exista un sesgo transitivo en la mente humana, esto es, asumir la propiedad transitiva en relaciones de semejanza que no la cumplen. De hecho hay quien utiliza variantes de este sesgo como falacias lógicas. Nuestra mente tiende a aplicar la propiedad transitiva de manera generalizada y de hecho este truco se utiliza en muchos acertijos y juegos de lógica. 

Una de las relaciones que no cumplen la propiedad transitiva pero que puede dar lugar a confusión es la correlación lineal: la relación "está correlacionada con" NO es transitiva. Y este hecho no es trivial ya que tendemos a pensar que si un fenómeno está correlacionado con otro y éste con un tercero el primero y el tercero también lo estarán.

Planting seeds of knowledge
Un sencillo ejercicio mental nos puede ayudar a entender el fenómeno: imaginemos un experimento en el que tomamos 150 plantitas y las exponemos a distintos niveles de luz y de agua de riego de forma aleatoria. Los niveles de agua y luz no estarán pues correlacionados ya que por el propio diseño del experimento no regamos más las plantitas con más o menos luz. Supongamos que medimos el crecimiento de las plantitas y hallamos que el crecimiento está correlacionado con el nivel de luz y con la cantidad de agua de riego. Podríamos entonces afirmar que el nivel de luz está correlacionado con el crecimiento, y el crecimiento a su vez con la cantidad de agua de riego, pero tal y como hemos dicho antes, los niveles de luz y agua no guardan correlación alguna: no hay transitividad. He compuesto un pequeño ejemplo númérico que puede consultarse aquí.

En realidad no creo que sea del todo cierto que la correlación no sea transitiva. Si la correlación es perfecta entre dos variables se verificará que si una de ellas está correlacionada con una tercera la otra también lo estará. La correlación puede ser más o menos alta (cercana a 1) o significativa (con un valor significativamente distinto de 0). En la medida que la correlación entre dos variables sea muy alta es más fácil que se verifique un cierta transitividad en la correlación con terceras variables. Aunque ahora mismo no puedo demostrar lo que sigue matemáticamente (es una conjetura, pero tengo una intuición muy fuerte al respecto... y seguramente no es difícil de demostrar (*) ) creo que es cierto que: 
si la suma de los cuadrados de los coeficientes de correlación de una variable X con otras dos variables Y y Z es superior a 1, el coeficiente de correlación entre Y y Z no puede ser nulo
Otra lectura de la afirmación anterior es que si dos variables están correlacionadas con una tercera pero la suma de los cuadrados de los coeficientes de correlación no es mayor que 1 dichas variables pueden no guardar ninguna correlación. ¡Ojo!: no afirmo que no exista. Digo que es compatible la existencia de dos variables con un fuerte poder explicativo sobre una tercera sin que ambas guarden correlación entre sí. De hecho, como dichos coeficientes tienes un valor absoluto menor que 1 su cuadrado es menor. Por ejemplo, es posible que dos variables presenten una correlación de 0,7 con una tercera y que no guarden correlación entre sí: 0,7^2 + 0,7^2 = 0,98 < 1


En realidad toda esta cháchara está inspirada por la lectura del texto de Juan Ignacio Pérez (@Uhandrea) en su excelente blog La Naturaleza Humana: "¿Es la herencia el factor que más influye en el desempeño escolar?". Ahí Juan Ignacio explica los resultados de una investigación en el Reino Unido sobre el desempeño escolar. Parece que los investigadores han demostrado una alta heredabilidad de dicho carácter: los hijos de los padres que lo hacían bien en el cole lo hacen bien también ellos. Hasta un 52% de la variabilidad parece tener origen genético. A mí no me sorprende y parece que tampoco lo hace al autor del blog. Sin embargo Juan Ignacio es incisivo y no se queda ahí sino que compara los resultados de esta investigación con los resultados del informe PISA donde queda en evidencia que el estrato socioeconómico de los estudiantes es un importante determinante de su desempeño escolar. Copio y pego:
Démonos cuenta de que si las conclusiones de los informes PISA y resultados como los aquí expuestos fuesen válidos a la vez, querría decir que la distribución de la población en sectores o estratos socioeconómicos tendría también una base genética. Y esto, a mí, me resulta difícil de aceptar, quizás porque va en contra de ideas muy firmemente establecidas en mi pensamiento o quizás porque no concuerda con mi experiencia con la gente que conozco.
Lo cierto es que a mí también me preocupa. Pero creo que tenemos un par de escapatorias. La primera tiene que ver con el núcleo central de esta entrada: es perfectamente posible que herencia genética y estrato socioeconómico tengan una gran importancia en el desempeño escolar y que a su vez no guarden apenas correlación (o que dicha correlación sea baja) entre sí. Si... ya lo sé... mostrar una puerta abierta no significa que por esa puerta haya pasado nadie, pero por lo menos creo poder afirmar que la conclusión (aunque fuese cierta) no se deriva de la premisas.

Por otro lado me gusta pensar que la existencia de una cierta correlación entre herencia genética y estrato socioeconómico no es necesariamente una mala noticia si dicha relación tiene como mediador al desempeño escolar. Si un señor hace 40 años fue un buen estudiante y eso le permitió alcanzar un nivel socioeconómico superior al de sus padres no me parece mal. Que su hijo haga bien los exámenes bien sea por genética o porque en su casa hay libros y un ambiente culto tampoco me parece un delito. De hecho uno esperaría encontrar una mayor correlación entre genética, desempeño escolar y estrato socioeconómico a largo plazo en sociedades con gran movilidad social que en sociedades más estáticas, como la de castas de la India.


En cualquier caso interesantes reflexiones ya que poco podemos hacer por la genética pero prefiero pensar que sí que es posible cerrar la brecha ocasionada por circunstancias socioeconómicas. 

(*) La intuición viene motivada por el doble significado del R2 de una regresión: como cuadrado de R (coeficiente de correlación entre variable predicha y observada) y como porcentaje de la varianza explicada por la regresión. Se puede investigar un poquito más aquí.

2 comentarios:

  1. Interesante análisis. Más allá del contenido y conclusiones, con el que en general estoy de acuerdo, pasaba por aquí para comentar que, efectivamente, se ha investigado la transitividad en psicología, desde experimentos con animales a otros más sofisticados con humanos. De hecho, el fenómeno se investiga influido por la teoría matemática de conjuntos, relacionando reflexividad, simetría y transitividad (y equivalencia) de estímulos.
    Ej. http://www.ijpsy.com/volumen4/num1/74/aportaciones-del-analisis-conductual-al-ES.pdf (p. 48 y siguientes).

    Un caso relacionado con el estudio de las falacias (concretamente, la falacia de conjunción), lo he encontrado aquí, por si interesa:
    http://opensiuc.lib.siu.edu/cgi/viewcontent.cgi?article=1096&context=tpr

    ResponderEliminar
  2. @Jesús,

    Muchísimas gracias por tu comentario y tu valiosa aportación que supongo será también valorada por los lectores del blog. Leeré con atención los enlaces que me pasas.

    Un abrazo y muchísimas gracias

    ResponderEliminar