miércoles, 22 de enero de 2014

Encuestas y censos

Mañana sale la Encuesta de Población Activa (la EPA) y conoceremos los datos del mercado de trabajo del último trimestre de 2013. Para quien tenga un poco de memoria los datos le chirriarán respecto a la publicación que se hace mensualmente del paro registrado y de cotizantes a la Seguridad Social. Son fuentes distintas y los números discrepan.

La principal diferencia estriba en que el paro registrado se corresponde a una lista donde están (teóricamente) apuntados todos los desempleados mientras que el dato de la EPA es una encuesta que se hace a 60.000 individuos. Hasta aquí nada chocante excepto que creemos que los datos EPA (la encuesta) son mejores que los del SEPE (censo de parados). Además la EPA aporta muchísima más información, con los datos mucho más detallados. Hay gente que ha explicado esto mucho mejor de lo que yo pueda llegar nunca a hacer, de modo que no voy a extenderme más en este tema. Lo que me gustaría contaros hoy es un poquito de la historia del muestreo representativo que es lo que en definitiva está detrás de la elaboración de una encuesta.

Antes de que la probabilidad y el muestreo aplicado a las encuestas cruzaran sus caminos existían censos. Los estadísticos del siglo XIX realizaban detallados y costosísimos estudios sobre distintas áreas, regiones e incluso países. Las estadísticas eran concienzudas y la toma de datos una tarea de chinos. La forma de trabajar era la enumeración completa. (Si alguien tiene curiosidad, el INE tiene abierto el acceso a su Anuario Estadístico desde 1858.)


En algún momento a alguien se le ocurrió que si en lugar de analizar a toda la población se pudiese analizar solamente a un grupo representativo más pequeño se podría estudiar más concienzudamente y extrapolar los resultados a la población en general. La cuestión era: ¿y cómo determinamos a ese grupo representativo?. ¿A qué llamamos representativo?.

En nuestra forma de ver el mundo usamos de hecho algún tipo de muestreo (no necesito probar todas las uvas para saber que están dulces). En las ciencias naturales las muestras se trataban como si fuesen aleatorias, pese a no existir todavía una teoría sólida respecto al muestreo. Incluso en ciencias sociales se hacían estudios puntuales (limitados a zonas muy pequeñas o a sectores muy definidos) con la idea de extrapolar los resultados. Sin embargo, la primera vez que alguien propuso el muestreo representativo fue el estadístico noruego Kiaer en la reunión de 1895 en Berna International Statistical Institute (ISI) donde presentó su artículo Observation et expériences concernant des dénombrements représentatifs. La verdad es que la propuesta de Kiaer distaba todavía mucho de lo que hoy entendemos por un muestreo representativo y no fue especialmente bien acogida por parte de sus colegas. Esto es lo que decía uno de ellos (Georg von Mayr):

... creo que el punto de vista del trabajo de Kiaer es muy peligroso. Entiendo que las muestras representativas pueden tener algo de valor pero es un valor restringido a lo que ya sabemos por la enumeración completa. Uno no puede reemplazar la observación de los hechos con cálculos. Una muestra proporciona valores estadísticos para aquellas unidades que han sido observadas, pero no valores estadísticos verdaderos para toda la población.
Es especialmente peligroso proponer el muestreo representativo entre un montón de profesionales de la estadística. Puede tal vez tener usos a efectos administrativos o legislativos, pero uno no debe olvidar que no puede reemplazar a una enumeración completa. Es necesario añadir aquí que hay entre nosotros estos días una corriente en las mentes de los matemáticos que quiere que calculemos en lugar de observar. Debemos mantenernos firmes y decir: nada de cálculos cuando se pueden hacer observaciones.

Lo cierto es que Kiaer apenas hablaba de probabilidad, ni de matemáticas en su trabajo. De hecho el método representativo propuesto no se parece en nada al muestreo aleatorio que conocemos hoy. Kiaer sugería localizar zonas (calles, pueblos, ciudades) cuyos datos medios conocidos en censos fuesen cercanos a la media y barrerlos sistemáticamente extendiendo la muestra si era necesario. Proponía un muestreo dirigido que como hoy bien sabemos puede adolecer de graves sesgos y deficiencias.

Kiaer no se quedó ahí. Siguió trabajando sobre el método representativo y proponiendo mejoras al mismo. Lo hizo en las reuniones del ISI en San Petersburgo 1897, Budapest 1901 y Berlin 1903. Aunque Kiaer no tenía un modelo probabilístico detrás de sus ideas otros estadísticos como Von Bortkiewicz o March sí que añadieron dicho enfoque.

Hubo otros autores que trabajaron sobre distintas variantes del método representativo pero curiosamente en las reuniones del ISI desde 1903 hasta 1925 no se volvió a tocar el tema. Sí que hubo aportaciones importante especialmente por parte de Chuprov (sobre la estructura probabilística del muestreo) y Bowley (sobre errores de muestreo; casi llegó a formular el concepto de intervalo de confianza). Sorprendentemente en 1925 la opinión mayoritaria era favorable a la legitimidad del muestreo representativo. En esa ocasión se definieron dos métodos alternativos:
  • el muestreo aleatorio, donde cualquier elemento de la población tiene la misma probabilidad de ser elegido y
  • muestreo deliberado: elegir grupos de elementos que se consideran representativos y enumerarlos completamente.
En 1934 Neyman escribe On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection  donde literalmente se carga el muestreo deliberado señalando sus importantes deficiencias. A partir de ahí el camino estuvo claro: el muestreo aleatorio.


Fuente: Representative Sampling, IV: The History of the Concept in Statistics, 1895-1939 (William Kruskal and Frederick Mosteller) International Statistical Review / Revue Internationale de Statistique, Vol. 48, No. 2(Aug., 1980), pp. 169-195

lunes, 20 de enero de 2014

Sobre la paradoja del ascensor

No sé si conocéis a Clara Grima. Matemática con un algo de show-woman que la hace francamente divertida. Sus artículos de divulgación en distintos medios son muy recomendables y en especial si te gustan las matemáticas.

Dicho ésto, hoy he leído un artículo suyo (que conviene leer para entender lo que viene a continuación) sobre la paradoja del ascensor que me ha dejado un poco pensativo y que ha motivado lo que voy a escribir a continuación. Vamos allá:


Clara afirma que:

"... si suponemos que los ascensores se mueven de forma uniforme a lo largo del edificio y estamos en la 2ª planta de un edificio de siete, como aquel en el que trabajaban Gamow y Stern, tenemos más plantas por arriba que por abajo, con lo cual, la probabilidad de que el ascensor esté en una planta superior cuando lo llamamos es más alta que la probabilidad de que esté en una planta por debajo nuestra. Y al revés."

En realidad la sentencia anterior es cierta si se se cumple la condición  "suponemos que los ascensores se mueven de forma uniforme a lo largo del edificio". Claro... si los ascensores suben y bajan de la planta baja al último piso continuamente el razonamiento anterior es cierto. Sin embargo no es así como se usan normalmente los ascensores. La gente los utiliza normalmente para subir hasta su planta (y no más arriba) y para bajar hasta la planta baja.

Pongamos un ejemplo. Supongamos un edificio de 11 plantas (lo hago así para simplificar los cálculos) en el que en cada piso vive un vecino. El vecino utiliza el ascensor para subir y para bajar. Lo cierto es que no puede subir si no está en la calle y no puede bajar a la calle si no ha subido primero: la mitad de sus viajes en ascensor serán de subida y la otra mitad de bajada. De modo que cada vecino deja el ascensor la mitad de las veces en su planta y la otra mitad de las veces en la planta baja.

La probabilidad de que un vecino encuentre el ascensor más arriba de su planta será pues la probabilidad de que el anterior vecino que ha cogido el ascensor viva por encima multiplicado por la probabilidad de que ese viaje fuese de subida (un 50%).

Así pues las probabilidades de que el ascensor esté más arriba serían:

Para el vecino de la planta 11: 0.0 x 0.5 = 0%
Para el vecino de la planta 10: 0.1 x 0.5 = 5%
...
Para el vecino de la planta 2: 0.9 x 0.5 = 45%
Para el vecino de la planta 1: 1 x 0.5 = 50%

Esto es, para el vecino de la planta 1 es tan probable que el ascensor esté en la planta baja como en un piso situado por encima de él. Para todos los demás es más probable que el ascensor venga de abajo.

Y hasta aquí mi ida de olla del día.

viernes, 3 de enero de 2014

La correlación no es transitiva

No sé si recordaréis aquellas clases de matemáticas donde nos hablaban de una propiedad que cumplían algunas relaciones denominada propiedad transitiva. Un ejemplo donde se cumple la propiedad transitiva es en la relación de igualdad: 
  • si A = B y B = C, entonces A = C. 
Otro ejemplo es la relación "mayor que": 
  • si A > B y B > C, entonces A > C

Hay otras relaciones que no cumplen la propiedad transitiva como por ejemplo la relación de desigualdad: si A es distinto de B y B es distinto de C no podemos decir nada sobre si A es o no distinto de C.

Otro ejemplo: si Luis es hermano de Carlos y Carlos es hermano de Pepe ¿es Luis hermano de Pepe?. Si contestamos a bote pronto seguramente contestaremos afirmativamente aplicando la propiedad transitiva a la relación "ser hermano de". Sin embargo es posible que Luis y Pepe no sean hermanos: Luis y Carlos podrían ser hermanos por ser hijos de la misma madre mientras que Carlos y Pepe pueden compartir padre.

No sé si se ha estudiado alguna vez la propiedad transitiva desde un punto de vista psicológico pero no me extrañaría que exista un sesgo transitivo en la mente humana, esto es, asumir la propiedad transitiva en relaciones de semejanza que no la cumplen. De hecho hay quien utiliza variantes de este sesgo como falacias lógicas. Nuestra mente tiende a aplicar la propiedad transitiva de manera generalizada y de hecho este truco se utiliza en muchos acertijos y juegos de lógica. 

Una de las relaciones que no cumplen la propiedad transitiva pero que puede dar lugar a confusión es la correlación lineal: la relación "está correlacionada con" NO es transitiva. Y este hecho no es trivial ya que tendemos a pensar que si un fenómeno está correlacionado con otro y éste con un tercero el primero y el tercero también lo estarán.

Planting seeds of knowledge
Un sencillo ejercicio mental nos puede ayudar a entender el fenómeno: imaginemos un experimento en el que tomamos 150 plantitas y las exponemos a distintos niveles de luz y de agua de riego de forma aleatoria. Los niveles de agua y luz no estarán pues correlacionados ya que por el propio diseño del experimento no regamos más las plantitas con más o menos luz. Supongamos que medimos el crecimiento de las plantitas y hallamos que el crecimiento está correlacionado con el nivel de luz y con la cantidad de agua de riego. Podríamos entonces afirmar que el nivel de luz está correlacionado con el crecimiento, y el crecimiento a su vez con la cantidad de agua de riego, pero tal y como hemos dicho antes, los niveles de luz y agua no guardan correlación alguna: no hay transitividad. He compuesto un pequeño ejemplo númérico que puede consultarse aquí.

En realidad no creo que sea del todo cierto que la correlación no sea transitiva. Si la correlación es perfecta entre dos variables se verificará que si una de ellas está correlacionada con una tercera la otra también lo estará. La correlación puede ser más o menos alta (cercana a 1) o significativa (con un valor significativamente distinto de 0). En la medida que la correlación entre dos variables sea muy alta es más fácil que se verifique un cierta transitividad en la correlación con terceras variables. Aunque ahora mismo no puedo demostrar lo que sigue matemáticamente (es una conjetura, pero tengo una intuición muy fuerte al respecto... y seguramente no es difícil de demostrar (*) ) creo que es cierto que: 
si la suma de los cuadrados de los coeficientes de correlación de una variable X con otras dos variables Y y Z es superior a 1, el coeficiente de correlación entre Y y Z no puede ser nulo
Otra lectura de la afirmación anterior es que si dos variables están correlacionadas con una tercera pero la suma de los cuadrados de los coeficientes de correlación no es mayor que 1 dichas variables pueden no guardar ninguna correlación. ¡Ojo!: no afirmo que no exista. Digo que es compatible la existencia de dos variables con un fuerte poder explicativo sobre una tercera sin que ambas guarden correlación entre sí. De hecho, como dichos coeficientes tienes un valor absoluto menor que 1 su cuadrado es menor. Por ejemplo, es posible que dos variables presenten una correlación de 0,7 con una tercera y que no guarden correlación entre sí: 0,7^2 + 0,7^2 = 0,98 < 1


En realidad toda esta cháchara está inspirada por la lectura del texto de Juan Ignacio Pérez (@Uhandrea) en su excelente blog La Naturaleza Humana: "¿Es la herencia el factor que más influye en el desempeño escolar?". Ahí Juan Ignacio explica los resultados de una investigación en el Reino Unido sobre el desempeño escolar. Parece que los investigadores han demostrado una alta heredabilidad de dicho carácter: los hijos de los padres que lo hacían bien en el cole lo hacen bien también ellos. Hasta un 52% de la variabilidad parece tener origen genético. A mí no me sorprende y parece que tampoco lo hace al autor del blog. Sin embargo Juan Ignacio es incisivo y no se queda ahí sino que compara los resultados de esta investigación con los resultados del informe PISA donde queda en evidencia que el estrato socioeconómico de los estudiantes es un importante determinante de su desempeño escolar. Copio y pego:
Démonos cuenta de que si las conclusiones de los informes PISA y resultados como los aquí expuestos fuesen válidos a la vez, querría decir que la distribución de la población en sectores o estratos socioeconómicos tendría también una base genética. Y esto, a mí, me resulta difícil de aceptar, quizás porque va en contra de ideas muy firmemente establecidas en mi pensamiento o quizás porque no concuerda con mi experiencia con la gente que conozco.
Lo cierto es que a mí también me preocupa. Pero creo que tenemos un par de escapatorias. La primera tiene que ver con el núcleo central de esta entrada: es perfectamente posible que herencia genética y estrato socioeconómico tengan una gran importancia en el desempeño escolar y que a su vez no guarden apenas correlación (o que dicha correlación sea baja) entre sí. Si... ya lo sé... mostrar una puerta abierta no significa que por esa puerta haya pasado nadie, pero por lo menos creo poder afirmar que la conclusión (aunque fuese cierta) no se deriva de la premisas.

Por otro lado me gusta pensar que la existencia de una cierta correlación entre herencia genética y estrato socioeconómico no es necesariamente una mala noticia si dicha relación tiene como mediador al desempeño escolar. Si un señor hace 40 años fue un buen estudiante y eso le permitió alcanzar un nivel socioeconómico superior al de sus padres no me parece mal. Que su hijo haga bien los exámenes bien sea por genética o porque en su casa hay libros y un ambiente culto tampoco me parece un delito. De hecho uno esperaría encontrar una mayor correlación entre genética, desempeño escolar y estrato socioeconómico a largo plazo en sociedades con gran movilidad social que en sociedades más estáticas, como la de castas de la India.


En cualquier caso interesantes reflexiones ya que poco podemos hacer por la genética pero prefiero pensar que sí que es posible cerrar la brecha ocasionada por circunstancias socioeconómicas. 

(*) La intuición viene motivada por el doble significado del R2 de una regresión: como cuadrado de R (coeficiente de correlación entre variable predicha y observada) y como porcentaje de la varianza explicada por la regresión. Se puede investigar un poquito más aquí.