sábado, 25 de agosto de 2012

Si torturas lo suficiente a los datos acabarán confesando cualquier cosa

Me encanta Gapminder. La agregación de cientos de series temporales en una herramienta de visualización poderosa es algo maravilloso. Recuerdo hace años cuando para un trabajo de econometría en la facultad o para la elaboración de mi trabajo de investigación la localización y procesamiento previo de los datos era una tarea de chinos. Normalmente los datos eran más escasos y estaban publicados en papel. A veces había cambios metodológicos en las series que obligaban a procesarlos antes de poderlos utilizar. Sin duda la disponibilidad actual de grandes repositorios de datos a todos los niveles es algo fenomenal... y peligroso.

He comentado ya varias veces en este blog que 'correlación no implica causalidad' y que hay que tener mucho cuidado con la correlación en series temporales. En general, creo que hay que tener mucho cuidado con la interpretación de datos si no se tiene un conocimiento adecuado de la realidad que representan. La ubicuidad de datos, estadísticas, series temporales animan al más pintado a buscar cuatro datos que le permitan "verificar" cualquier idea peregrina.

Para tratar de ilustrar lo que quiero decir, permítame el lector guiarle a través de un sencillo ejemplo:

Una de las regularidades empíricas más contrastadas en Economía es la relación negativa entre precio y cantidad demandada: cuanto mayor es el precio de algo ceteris paribus menor será la cantidad demandada por parte de los consumidores. Las palabrejas en latín son importantes. Significa 'permaneciendo el resto de factores constantes'. Se entenderá fácilmente con un ejemplo físico hablando de gases: a mayor presión, menor volumen... ceteris paribus, esto es, siempre que mantengamos la temperatura constante. Si variamos la temperatura la relación entre presión y volumen no tiene por qué cumplir el enunciado anterior.

Es cierto que no siempre se cumple la relación entre precio y cantidad demandada, pero son casos muy extraños.

Supongamos que alguien nos quiere convencer de que en realidad esta relación es un cuento chino. Podría acudir al INE y descargar unos datos que presento en el siguiente gráfico:

Permítame el lector que no revele todavía de qué bien se trata. Lo que está claro es que cuando el precio (de hecho un índice de precios mensual) es más alto mayor es la cantidad demandada de ese bien. Los datos son aplastantes. Ahora podríamos proponer, por ejemplo, seguir incrementando los precios para estimular al sector. O podríamos criticar la Teoría Económica que se estudia en las facultades ya que evidentemente no sirve para nada cuando se enfrenta a los 'datos reales'.

Pero ¿es ésto así?. La clave está en las palabrejas latinas anteriores: ceteris paribus. En los datos que se presentan en la gráfica hay elementos que distorsionan profundamente la información que podemos extraer de ellos, pero para ello hace falta disponer de un contexto: tener suficiente información como para poner en duda las conclusiones anteriores. En este ejemplo, tan pronto como revele de qué se trata, todos estaremos de acuerdo. En otros casos, en relación a realidades económicas más complejas en las que es más difícil entender el contexto que se halla detrás de los datos es necesario dejarse "guiar" por la opinión de quienes estudian y conocen en profundidad los fenómenos en cuestión.

Pero desvelemos ya el misterio. La cantidad del ejemplo es el porcentaje de ocupación hotelera. El precio es la relación de los precios de los servicios de alojamiento respecto al índice general de precios. Es evidente que en temporada alta los hoteles están más llenos y son más caros... y todos entendemos por qué: la gente disfruta principalmente de sus vacaciones en verano.

En este caso todo es bastante evidente, pero invito al lector a que se pregunte ante evidencias tan aplastantes como las del gráfico anterior si las cosas son así de claras o si alguien está tratando de darle gato por liebre.

2 comentarios:

  1. Estoy bastante de acuerdo, eh? Sólo porque las cosas sean medibles con números no significa que las metodologías sean correctas.

    Sin embargo, hay casos que...

    http://2.bp.blogspot.com/-gsViyFk8IGI/UDsqx1_ZOBI/AAAAAAAAaVI/c-ME66Muhko/s400/574911_10151040503143732_1070647693_n.jpg

    XDDD

    ResponderEliminar
    Respuestas
    1. Intentar sistematizar matemáticamente la realidad humana es muy dificil, por no decir imposible ya que las ciencias sociales no son ciencias exactas. Son múltiples los factores que influyen en el comportamiento de la sociedad y por tanto es muy dificil parametrizar todas estas variables en un modelo econométrico.

      Eso sin contar con que en muchas ocasiones el comportamiento humano no se rige por parametros racionales.

      Si fuera posible parametrizarlo con lo que ha avanzado la ciencia informatica (descubrimiento de galaxias, el genoma humana y las particulas subatomicas por poner 3 ejemplos de grande ,pegueño y atómico) se podría pronosticar los ciclos económicos, la evolución bursatil y otros campos de la economía ... y NO es posible porque falla el axioma inicial ... Es posible medir (parametrizar) la realidad humana, pero es IMPOSIBLE pronosticar y extrapolar modelos con exactitud matemática.

      Saludos

      Carlos

      Eliminar