Hace tiempo advertía en este blog aquí y aquí por ejemplo algunos problemas de aplicar mal la estadística. De hecho, el problema con los métodos estadísticos es tal que casi me atrevería a afirmar que es mejor no saber nada que saber poca estadística. En aquella ocasión hablaba de la correlación y de las series temporales. Hoy trataré de ilustrar otro problema.
Vamos a suponer que nos encargan colocar el pasamanos de una escalera. Nos dan el pasamanos, propiamente dicho y dos soportes que tendremos que fijar a la pared. Lo primero que tenemos que hacer es fijar los soportes... ¿dónde lo hacemos?. Imaginemos que los colocamos juntos en el centro de la pared. Si no los alineamos perfectamente el pasamanos quedará torcido. Una pequeñísima desviación en la colocación de un soporte provocará una desviación muy superior en el extremo del pasamanos. Para colocarlo de forma correcta lo ideal es colocar los soportes separados entre sí de tal manera que si cometemos un pequeño error en la colocación de los mismos apenas se notará en la posición del pasamanos.
Pues bien, este problema es muy similar a lo que ocurre algunas veces en inferencia estadística. Supongamos que los soportes son variables, conjuntos de datos (medidas de la longitud de la concha de un mejillón o el PIB per cápita de países africanos... da igual). Si para construir el modelo (para montar el pasamanos) utilizamos variables muy "cercanas" (soportes muy juntos) el pasamanos quedará torcido. ¿Y qué son variables "cercanas"?. Son variables que contienen casi la misma información estadística. A veces la relación de proximidad entre las variables es evidente (están fuertemente correladas*) y otras veces es más difícil de ver y hay que recurrir a técnicas más complejas (cálculo de autovalores, autovectores y números de condición del espacio muestral).
El problema anterior se denomina multicolinealidad de los regresores y si no se tiene cuidado induce a la estimación de modelos muy poco robustos (pequeñas variaciones en los datos muestrales provocan grandes cambios en los parámetros estimados). La wikipedia en inglés tiene un resumen decente aquí.
En dos palabras: es mejor un menor número de variables aunque la capacidad explicativa del modelo sea menor que introducir información redundante.
*Sostiene @Uhandrea que el término correcto desde un punto de vista etimológico sería "correlacionadas". Es posible que tenga razón. De momento lo dejo como está ya que a mí no me suena del todo mal. Constancia queda pues de mi ignorancia.
Vamos a suponer que nos encargan colocar el pasamanos de una escalera. Nos dan el pasamanos, propiamente dicho y dos soportes que tendremos que fijar a la pared. Lo primero que tenemos que hacer es fijar los soportes... ¿dónde lo hacemos?. Imaginemos que los colocamos juntos en el centro de la pared. Si no los alineamos perfectamente el pasamanos quedará torcido. Una pequeñísima desviación en la colocación de un soporte provocará una desviación muy superior en el extremo del pasamanos. Para colocarlo de forma correcta lo ideal es colocar los soportes separados entre sí de tal manera que si cometemos un pequeño error en la colocación de los mismos apenas se notará en la posición del pasamanos.
Pues bien, este problema es muy similar a lo que ocurre algunas veces en inferencia estadística. Supongamos que los soportes son variables, conjuntos de datos (medidas de la longitud de la concha de un mejillón o el PIB per cápita de países africanos... da igual). Si para construir el modelo (para montar el pasamanos) utilizamos variables muy "cercanas" (soportes muy juntos) el pasamanos quedará torcido. ¿Y qué son variables "cercanas"?. Son variables que contienen casi la misma información estadística. A veces la relación de proximidad entre las variables es evidente (están fuertemente correladas*) y otras veces es más difícil de ver y hay que recurrir a técnicas más complejas (cálculo de autovalores, autovectores y números de condición del espacio muestral).
El problema anterior se denomina multicolinealidad de los regresores y si no se tiene cuidado induce a la estimación de modelos muy poco robustos (pequeñas variaciones en los datos muestrales provocan grandes cambios en los parámetros estimados). La wikipedia en inglés tiene un resumen decente aquí.
En dos palabras: es mejor un menor número de variables aunque la capacidad explicativa del modelo sea menor que introducir información redundante.
*Sostiene @Uhandrea que el término correcto desde un punto de vista etimológico sería "correlacionadas". Es posible que tenga razón. De momento lo dejo como está ya que a mí no me suena del todo mal. Constancia queda pues de mi ignorancia.