La información mutua mide cuánto más se sabe sobre un valor aleatorio cuando se da otro. Por ejemplo, conocer la temperatura de un día aleatorio del año no revelará qué mes es, pero dará alguna pista. Del mismo modo, saber qué mes es no revelará la temperatura exacta, pero hará que ciertas temperaturas sean más o menos probables. Estos indicios o cambios de probabilidad se explican y miden con la información mutua.
Definición matemática (variables discretas)
Información mutua entre dos variables aleatorias X e Y se define como
I(X;Y) = ∑x,y p(x,y) log [ p(x,y) / (p(x)p(y)) ]
En esta expresión p(x,y) es la probabilidad conjunta y p(x), p(y) son las marginales. El logaritmo puede tomarse en base 2 (resultado en bits) o en base e (resultado en nats).
Interpretación intuitiva
- I(X;Y) mide cuánto se reduce la incertidumbre sobre X cuando se conoce Y (y viceversa).
- Equivalente a la diferencia entre la entropía de X y la entropía condicional: I(X;Y) = H(X) − H(X|Y) = H(Y) − H(Y|X).
- Es simétrica: I(X;Y) = I(Y;X).
- Es siempre no negativa: I(X;Y) ≥ 0. I(X;Y) = 0 si y sólo si X e Y son independientes.
Propiedades importantes
- Cota superior: I(X;Y) ≤ min(H(X), H(Y)).
- Identidad: I(X;X) = H(X) (saber X da toda la información sobre X).
- Regla en cadena: la información mutua satisface relaciones análogas a la regla en cadena de la entropía y admite la definición de información mutua condicional I(X;Y|Z).
- Desigualdad de procesamiento de datos: si X → Y → Z es una cadena de procesamiento (Z depende de X sólo a través de Y), entonces I(X;Z) ≤ I(X;Y).
Variables continuas
Para variables continuas se usa una versión con integrales y densidades de probabilidad:
I(X;Y) = ∫∫ p(x,y) log [ p(x,y) / (p(x)p(y)) ] dx dy.
Hay que tener cuidado: la análoga de la entropía para variables continuas es la entropía diferencial, que no comparte todas las propiedades de la entropía discreta (por ejemplo, puede ser negativa). Sin embargo, la información mutua continua conserva la propiedad de ser no negativa y de medir dependencia.
Ejemplos simples
- Dos variables independientes (por ejemplo, el resultado de dos lanzamientos de moneda independientes): I = 0.
- Si Y es una copia exacta de X (X = Y) y X es una moneda justa, entonces I(X;Y) = H(X) = 1 bit.
- Ejemplo climático: saber el mes reduce la incertidumbre sobre la temperatura (I>0), pero no la elimina; la magnitud de I refleja cuánto cambia la distribución de temperaturas según el mes.
Estimación a partir de datos
En la práctica la información mutua se estima a partir de muestras. Métodos comunes:
- Plug-in (histogramas): discretizar las variables y aplicar la fórmula discreta. Sencillo, pero sensible a la elección de cubos y al número de muestras.
- Estimadores sin parámetro, por ejemplo basados en k-vecinos más próximos (Kraskov et al.): adecuados para variables continuas y multivariantes.
- Estimación mediante kernels o modelos paramétricos (asumiendo una familia de densidades).
Precauciones: la estimación tiene sesgo finito-muestral; conviene usar correcciones, validación cruzada o pruebas de significación (bootstrap, permutaciones) para evaluar la robustez.
Relación con otras medidas
- La información mutua captura cualquier dependencia estadística, no sólo la lineal. Por eso puede detectar relaciones que la correlación lineal (coeficiente de Pearson) no ve.
- Cuando las variables son gaussianas y bivariantes, la información mutua se puede expresar en función del coeficiente de correlación ρ: I = −½ log(1−ρ²).
Aplicaciones
- Selección de características en aprendizaje automático (feature selection): seleccionar variables que contienen más información sobre la etiqueta.
- Procesamiento de señales y teoría de la información: capacidad de canales, codificación, análisis de dependencias.
- Neurociencia: cuantificar la relación entre estímulos y respuesta neuronal.
- Bioinformática, econometría, análisis de redes: detectar asociaciones entre variables complejas.
Consideraciones prácticas y consejos
- Elegir el método de estimación según el tipo de datos (discreto vs continuo) y la cantidad de muestras.
- Comprobar la significación mediante pruebas de permutación para evitar interpretar como dependencia lo que es ruido muestral.
- Recordar que I mide dependencia, pero no da dirección causal; para inferencia causal se requieren otros métodos.
En resumen, la información mutua es una medida fundamental y flexible de dependencia entre variables: cuantifica cuánto reduce conocer una variable la incertidumbre sobre otra, capta dependencias no lineales y se aplica en muchos campos, aunque su estimación práctica exige cuidados.