Mañana sale la Encuesta de Población Activa (la EPA) y conoceremos los datos del mercado de trabajo del último trimestre de 2013. Para quien tenga un poco de memoria los datos le chirriarán respecto a la publicación que se hace mensualmente del paro registrado y de cotizantes a la Seguridad Social. Son fuentes distintas y los números discrepan.
La principal diferencia estriba en que el paro registrado se corresponde a una lista donde están (teóricamente) apuntados todos los desempleados mientras que el dato de la EPA es una encuesta que se hace a 60.000 individuos. Hasta aquí nada chocante excepto que creemos que los datos EPA (la encuesta) son mejores que los del SEPE (censo de parados). Además la EPA aporta muchísima más información, con los datos mucho más detallados. Hay gente que ha explicado esto mucho mejor de lo que yo pueda llegar nunca a hacer, de modo que no voy a extenderme más en este tema. Lo que me gustaría contaros hoy es un poquito de la historia del muestreo representativo que es lo que en definitiva está detrás de la elaboración de una encuesta.
Antes de que la probabilidad y el muestreo aplicado a las encuestas cruzaran sus caminos existían censos. Los estadísticos del siglo XIX realizaban detallados y costosísimos estudios sobre distintas áreas, regiones e incluso países. Las estadísticas eran concienzudas y la toma de datos una tarea de chinos. La forma de trabajar era la enumeración completa. (Si alguien tiene curiosidad, el INE tiene abierto el acceso a su Anuario Estadístico desde 1858.)
En algún momento a alguien se le ocurrió que si en lugar de analizar a toda la población se pudiese analizar solamente a un grupo representativo más pequeño se podría estudiar más concienzudamente y extrapolar los resultados a la población en general. La cuestión era: ¿y cómo determinamos a ese grupo representativo?. ¿A qué llamamos representativo?.
En nuestra forma de ver el mundo usamos de hecho algún tipo de muestreo (no necesito probar todas las uvas para saber que están dulces). En las ciencias naturales las muestras se trataban como si fuesen aleatorias, pese a no existir todavía una teoría sólida respecto al muestreo. Incluso en ciencias sociales se hacían estudios puntuales (limitados a zonas muy pequeñas o a sectores muy definidos) con la idea de extrapolar los resultados. Sin embargo, la primera vez que alguien propuso el muestreo representativo fue el estadístico noruego Kiaer en la reunión de 1895 en Berna International Statistical Institute (ISI) donde presentó su artículo Observation et expériences concernant des dénombrements représentatifs. La verdad es que la propuesta de Kiaer distaba todavía mucho de lo que hoy entendemos por un muestreo representativo y no fue especialmente bien acogida por parte de sus colegas. Esto es lo que decía uno de ellos (Georg von Mayr):
... creo que el punto de vista del trabajo de Kiaer es muy peligroso. Entiendo que las muestras representativas pueden tener algo de valor pero es un valor restringido a lo que ya sabemos por la enumeración completa. Uno no puede reemplazar la observación de los hechos con cálculos. Una muestra proporciona valores estadísticos para aquellas unidades que han sido observadas, pero no valores estadísticos verdaderos para toda la población.
Es especialmente peligroso proponer el muestreo representativo entre un montón de profesionales de la estadística. Puede tal vez tener usos a efectos administrativos o legislativos, pero uno no debe olvidar que no puede reemplazar a una enumeración completa. Es necesario añadir aquí que hay entre nosotros estos días una corriente en las mentes de los matemáticos que quiere que calculemos en lugar de observar. Debemos mantenernos firmes y decir: nada de cálculos cuando se pueden hacer observaciones.
Lo cierto es que Kiaer apenas hablaba de probabilidad, ni de matemáticas en su trabajo. De hecho el método representativo propuesto no se parece en nada al muestreo aleatorio que conocemos hoy. Kiaer sugería localizar zonas (calles, pueblos, ciudades) cuyos datos medios conocidos en censos fuesen cercanos a la media y barrerlos sistemáticamente extendiendo la muestra si era necesario. Proponía un muestreo dirigido que como hoy bien sabemos puede adolecer de graves sesgos y deficiencias.
Kiaer no se quedó ahí. Siguió trabajando sobre el método representativo y proponiendo mejoras al mismo. Lo hizo en las reuniones del ISI en San Petersburgo 1897, Budapest 1901 y Berlin 1903. Aunque Kiaer no tenía un modelo probabilístico detrás de sus ideas otros estadísticos como Von Bortkiewicz o March sí que añadieron dicho enfoque.
Hubo otros autores que trabajaron sobre distintas variantes del método representativo pero curiosamente en las reuniones del ISI desde 1903 hasta 1925 no se volvió a tocar el tema. Sí que hubo aportaciones importante especialmente por parte de Chuprov (sobre la estructura probabilística del muestreo) y Bowley (sobre errores de muestreo; casi llegó a formular el concepto de intervalo de confianza). Sorprendentemente en 1925 la opinión mayoritaria era favorable a la legitimidad del muestreo representativo. En esa ocasión se definieron dos métodos alternativos:
- el muestreo aleatorio, donde cualquier elemento de la población tiene la misma probabilidad de ser elegido y
- muestreo deliberado: elegir grupos de elementos que se consideran representativos y enumerarlos completamente.
En 1934 Neyman escribe On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection donde literalmente se carga el muestreo deliberado señalando sus importantes deficiencias. A partir de ahí el camino estuvo claro: el muestreo aleatorio.
Fuente: Representative Sampling, IV: The History of the Concept in Statistics, 1895-1939 (William Kruskal and Frederick Mosteller) International Statistical Review / Revue Internationale de Statistique, Vol. 48, No. 2(Aug., 1980), pp. 169-195
Fuente: Representative Sampling, IV: The History of the Concept in Statistics, 1895-1939 (William Kruskal and Frederick Mosteller) International Statistical Review / Revue Internationale de Statistique, Vol. 48, No. 2(Aug., 1980), pp. 169-195