sábado, 16 de marzo de 2013

Multicolinealidad

Hace tiempo advertía en este blog aquí y aquí por ejemplo algunos problemas de aplicar mal la estadística. De hecho, el problema con los métodos estadísticos es tal que casi me atrevería a afirmar que es mejor no saber nada que saber poca estadística. En aquella ocasión hablaba de la correlación y de las series temporales. Hoy trataré de ilustrar otro problema.

Vamos a suponer que nos encargan colocar el pasamanos de una escalera. Nos dan el pasamanos, propiamente dicho y dos soportes que tendremos que fijar a la pared. Lo primero que tenemos que hacer es fijar los soportes... ¿dónde lo hacemos?. Imaginemos que los colocamos juntos en el centro de la pared. Si no los alineamos perfectamente el pasamanos quedará torcido. Una pequeñísima desviación en la colocación de un soporte provocará una desviación muy superior en el extremo del pasamanos. Para colocarlo de forma correcta lo ideal es colocar los soportes separados entre sí de tal manera que si cometemos un pequeño error en la colocación de los mismos apenas se notará en la posición del pasamanos.

Pues bien, este problema es muy similar a lo que ocurre algunas veces en inferencia estadística. Supongamos que los soportes son variables, conjuntos de datos (medidas de la longitud de la concha de un mejillón o el PIB per cápita de países africanos... da igual). Si para construir el modelo (para montar el pasamanos) utilizamos variables muy "cercanas" (soportes muy juntos) el pasamanos quedará torcido. ¿Y qué son variables "cercanas"?. Son variables que contienen casi la misma información estadística. A veces la relación de proximidad entre las variables es evidente (están fuertemente correladas*) y otras veces es más difícil de ver y hay que recurrir a técnicas más complejas (cálculo de autovalores, autovectores y números de condición del espacio muestral).

El problema anterior se denomina multicolinealidad de los regresores y si no se tiene cuidado induce a la estimación de modelos muy poco robustos (pequeñas variaciones en los datos muestrales provocan grandes cambios en los parámetros estimados). La wikipedia en inglés tiene un resumen decente aquí.

En dos palabras: es mejor un menor número de variables aunque la capacidad explicativa del modelo sea menor que introducir información redundante.


*Sostiene @Uhandrea que el término correcto desde un punto de vista etimológico sería "correlacionadas". Es posible que tenga razón. De momento lo dejo como está ya que a mí no me suena del todo mal. Constancia queda pues de mi ignorancia.

viernes, 8 de marzo de 2013

Hotelling y París

(Escribí esto hace un tiempo ya...)

París.... ¡qué ciudad!.

Ayer mismo aterricé después de un par de días en la ciudad de la luz en los que callejeamos como locos. Según Google Earth caminamos algo así como 30 Km en dos días y la verdad es que repetimos pocos trayectos.

Me gusta pasear por las calles de las ciudades a las que llego. Supongo que mi deformación profesional me hace fijarme más en los comercios y en el tráfico rodado que en las variedades de árboles que jalonan las aceras o en la arquitectura.

Me sorprendió en la isla de San Luis y cerca de la zona de La Bastilla (donde estaba nuestro hotel) el gran número de tiendas de "trastos": tiendas que vendían desde teléfonos viejos, un walkman de Sony, maniquíes o una larga lista de objetos vintage. "No puede ser que toda esta gente viva de vender cacharros... " pensé.

El paseo al lado del Sena nos llevó por una calle donde se agrupaban decenas de tiendas de plantas y pequeños animales. Tiendas gemelas unas de otras y todas en la misma calle. Este hecho no es un fenómeno nuevo ni que escape a los ojos de un economista. La localización industrial es uno de las cuestiones a las que los economistas buscamos explicación. Un fenómeno que se da con bastante frecuencia es la agrupación de industrias o comercios del mismo tipo en la misma ubicación y eso es lo que yo había apreciado en las tiendas de "trastos" y las floristerías. Cualquier tienda de "cachivaches" en un rincón perdido de París no hubiese tenido gran futuro, pero situándose en el "barrio de los cachivacheros" era más probable que cualquier persona buscando trastos se dejase caer por allí.

En 1929 Harold Hotelling, estadístico y economista, formuló el que tal vez fue el primer modelo formal de localización industrial. El modelo de Hotelling es muy sencillo y era el primer antecedente bibliográfico sobre el tema de mi investigación hace unos años. No es difícil encontrar el desarrollo formal del modelo por la red pero tal vez sí que lo sea encontrar una explicación meramente verbal. Vamos a ver si soy capaz de darla yo...

Esta es una historia de una playa. Es una playa que mide un kilómetro de larga y en la que las personas extienden sus toallas de forma uniforme en toda su extensión. Hace calor y los bañistas están dispuestos a comprarse un helado. En el pueblo cercano hay dos heladerías y ambas tienen la posibilidad de colocar un puesto de helados en la playa para atender la demanda de los mismos.

Uncle John Ice Cream @ Alleppey beach, KeralaEl primer día deciden colocarse cada uno en un extremo de la playa. La noticia es bien recibida por parte de los bañistas que se situan en los extremos ya que no tienen que andar mucho para comprar el helado. Sin embargo quienes colocaron sus toallas en medio de la playa tienen que recorrer casi 500 metros de ida y otros tantos de vuelta para comprar su helado. Cada puesto de helados atiende a los bañistas más cercanos y es fácil calcular que la distancia media recorrida por los clientes es de 500 metros (250 de ida y 250 de vuelta). De hecho, los precios de los helados podrían ser distintos y repartirse el mercado de forma asimétrica, pero eso es otra historia...Uno de los heladeros se da cuenta de que si desplaza su puesto en dirección al centro de la playa podrá vender más helados ya que seguirá vendiendo a los clientes del extremo y "robará" mercado del otro heladero en el sector central de la playa. El problema es que el otro heladero no es tonto y llega a la misma conclusión. Finalmente las dos heladerías acaban en el centro de la playa atendiendo cada una a su "mitad" más cercana. Los consumidores acaban andando la misma distancia media y los heladeros están igual que al principio. La competencia ha llevado a los comercios a "agruparse" en la misma zona.

Es fácil ver que si los heladeros se hubiesen situado a la distancia de un cuarto y tres cuartos respectivamente sobre la longitud de la playa la distancia recorrida por los clientes hubiese sido mínima. Esa solución no es estable (porque ambos tienen incentivos para acercarse al centro) pero tal vez sea la situación socialmente óptima. Un regulador podría fijar las ubicaciones de las dos heladerías. Pero eso también tiene otros problemas como la barrera de entrada a nuevos heladeros y la posible colusión entre ambos si precisamente el regulador es quien impide la competencia... pero ese sí que es otro cantar.

Volvamos a París. Comercios de lujo en la Plaza Vendome. Sexshops en Pigalle. Multitud de tiendas de instrumentos musicales y de telas para confección en la misma calle. Los pintores en Montmartre. Las tiendas de ropa de fiesta barata (tipo Bollywood) en la cabecera de la calle Magenta. Restaurantes y bares en la zona de La Bastilla. Los concesionarios de motos del Boulevard Beaumarchais.... El modelo de Hotelling en acción. No sé si llegaré a vivir alguna vez en París, pero si lo hago iré a comprar mi guitarra a alguna de las tiendas cerca de Pigalle...