Información mutua: qué es y cómo mide dependencia entre variables
Descubre qué es la información mutua y cómo cuantifica la dependencia entre variables: conceptos, ejemplos y aplicaciones en estadística y aprendizaje automático.
La información mutua mide cuánto más se sabe sobre un valor aleatorio cuando se da otro. Por ejemplo, conocer la temperatura de un día aleatorio del año no revelará qué mes es, pero dará alguna pista. Del mismo modo, saber qué mes es no revelará la temperatura exacta, pero hará que ciertas temperaturas sean más o menos probables. Estos indicios o cambios de probabilidad se explican y miden con la información mutua.
Definición matemática (variables discretas)
Información mutua entre dos variables aleatorias X e Y se define como
I(X;Y) = ∑x,y p(x,y) log [ p(x,y) / (p(x)p(y)) ]
En esta expresión p(x,y) es la probabilidad conjunta y p(x), p(y) son las marginales. El logaritmo puede tomarse en base 2 (resultado en bits) o en base e (resultado en nats).
Interpretación intuitiva
- I(X;Y) mide cuánto se reduce la incertidumbre sobre X cuando se conoce Y (y viceversa).
- Equivalente a la diferencia entre la entropía de X y la entropía condicional: I(X;Y) = H(X) − H(X|Y) = H(Y) − H(Y|X).
- Es simétrica: I(X;Y) = I(Y;X).
- Es siempre no negativa: I(X;Y) ≥ 0. I(X;Y) = 0 si y sólo si X e Y son independientes.
Propiedades importantes
- Cota superior: I(X;Y) ≤ min(H(X), H(Y)).
- Identidad: I(X;X) = H(X) (saber X da toda la información sobre X).
- Regla en cadena: la información mutua satisface relaciones análogas a la regla en cadena de la entropía y admite la definición de información mutua condicional I(X;Y|Z).
- Desigualdad de procesamiento de datos: si X → Y → Z es una cadena de procesamiento (Z depende de X sólo a través de Y), entonces I(X;Z) ≤ I(X;Y).
Variables continuas
Para variables continuas se usa una versión con integrales y densidades de probabilidad:
I(X;Y) = ∫∫ p(x,y) log [ p(x,y) / (p(x)p(y)) ] dx dy.
Hay que tener cuidado: la análoga de la entropía para variables continuas es la entropía diferencial, que no comparte todas las propiedades de la entropía discreta (por ejemplo, puede ser negativa). Sin embargo, la información mutua continua conserva la propiedad de ser no negativa y de medir dependencia.
Ejemplos simples
- Dos variables independientes (por ejemplo, el resultado de dos lanzamientos de moneda independientes): I = 0.
- Si Y es una copia exacta de X (X = Y) y X es una moneda justa, entonces I(X;Y) = H(X) = 1 bit.
- Ejemplo climático: saber el mes reduce la incertidumbre sobre la temperatura (I>0), pero no la elimina; la magnitud de I refleja cuánto cambia la distribución de temperaturas según el mes.
Estimación a partir de datos
En la práctica la información mutua se estima a partir de muestras. Métodos comunes:
- Plug-in (histogramas): discretizar las variables y aplicar la fórmula discreta. Sencillo, pero sensible a la elección de cubos y al número de muestras.
- Estimadores sin parámetro, por ejemplo basados en k-vecinos más próximos (Kraskov et al.): adecuados para variables continuas y multivariantes.
- Estimación mediante kernels o modelos paramétricos (asumiendo una familia de densidades).
Precauciones: la estimación tiene sesgo finito-muestral; conviene usar correcciones, validación cruzada o pruebas de significación (bootstrap, permutaciones) para evaluar la robustez.
Relación con otras medidas
- La información mutua captura cualquier dependencia estadística, no sólo la lineal. Por eso puede detectar relaciones que la correlación lineal (coeficiente de Pearson) no ve.
- Cuando las variables son gaussianas y bivariantes, la información mutua se puede expresar en función del coeficiente de correlación ρ: I = −½ log(1−ρ²).
Aplicaciones
- Selección de características en aprendizaje automático (feature selection): seleccionar variables que contienen más información sobre la etiqueta.
- Procesamiento de señales y teoría de la información: capacidad de canales, codificación, análisis de dependencias.
- Neurociencia: cuantificar la relación entre estímulos y respuesta neuronal.
- Bioinformática, econometría, análisis de redes: detectar asociaciones entre variables complejas.
Consideraciones prácticas y consejos
- Elegir el método de estimación según el tipo de datos (discreto vs continuo) y la cantidad de muestras.
- Comprobar la significación mediante pruebas de permutación para evitar interpretar como dependencia lo que es ruido muestral.
- Recordar que I mide dependencia, pero no da dirección causal; para inferencia causal se requieren otros métodos.
En resumen, la información mutua es una medida fundamental y flexible de dependencia entre variables: cuantifica cuánto reduce conocer una variable la incertidumbre sobre otra, capta dependencias no lineales y se aplica en muchos campos, aunque su estimación práctica exige cuidados.
Cálculo de la información mutua
Información necesaria
Para calcular la información mutua, se necesita la probabilidad (azar) de todos los sucesos posibles y la probabilidad de que ocurran al mismo tiempo. Por ejemplo, para medir la información mutua entre el mes y la temperatura necesitaríamos saber cuántos días del año hay 10 grados centígrados, cuántos días del año son de marzo y, por último, cuántos días hay 10 grados centígrados en marzo.
Fórmula
La fórmula requiere la suma, o la adición, de muchos términos o números. Cada resultado posible tiene su propio término. Del cálculo anterior de la información mutua entre el mes y la temperatura, utilizaremos las siguientes variables:
- p(x,y) = probabilidad de que haya x grados centígrados en el mes y
- t(x) = probabilidad de que haya x grados Celsius (en cualquier día del año)
- m(y) = probabilidad de que sea el mes y
Esto significa que m(3) es igual a la probabilidad de que un día elegido al azar esté en marzo. Es 31/365, o sea, aproximadamente 0,085, ya que 31 de los 365 días del año son en marzo.
Un término sería el siguiente:
p ( x , y ) log ( p ( x , y ) t ( x ) m ( y ) ) {\displaystyle p(x,y)\\\Nlog {\frac {p(x,y)}{t(x)m(y)}{right)}\} }
En esta fórmula, "log" significa logaritmo.
Sumando todos los términos posibles se obtiene el valor de la información mutua.
Comprender la información mutua
Valores posibles
Cuanto mayor sea la información mutua, más se aprenderá sobre un valor aleatorio (por ejemplo, el mes) cuando se le comunique otro (por ejemplo, la temperatura).
- Si la información mutua es nula, no se puede determinar nada sobre un valor cuando se da otro.
- Por ejemplo, saber si la última vez salió cara o cruz en el lanzamiento de una moneda no le dirá nada sobre lo que ocurrirá la próxima vez.
- Si la información mutua es pequeña, es posible que no haya información mutua. A veces los acontecimientos aleatorios parecen tener un patrón a corto plazo, pero en general no hay información mutua.
- Si la información mutua es grande, es probable que haya alguna conexión entre las dos cosas que se examinan.
- Como la temperatura y el mes están conectados, su información mutua sería mucho mayor que cero.
- No es fácil saber si la información mutua es significativa o grande.
- Si la información mutua es una, entonces conocer un valor te dirá exactamente el otro.
- Por ejemplo, si se selecciona un pupitre al azar en un aula, el profesor puede saber exactamente qué alumno se sentará allí. Saber qué pupitre se ha seleccionado nos dice exactamente qué alumno está conectado a él.
Datos importantes
La información mutua no cambia en función de cuál de los dos valores aleatorios se revele. Esto significa que sabemos tanto sobre la temperatura cuando se nos dice el mes como sobre el mes cuando se nos dice la temperatura.
La información mutua es difícil de comparar. Si calculamos la información mutua para el tiempo y otro valor para un juego de cartas, los dos valores no se pueden comparar fácilmente.
Páginas relacionadas
- Teoría de la información
Buscar dentro de la enciclopedia