Una red bayesiana es un tipo de grafo que se utiliza para modelar sucesos o procesos probabilísticos, especialmente cuando algunas variables no se pueden observar directamente. El grafo es dirigido y acíclico (DAG, por sus siglas en inglés) y sus nodos representan variables aleatorias. Las aristas indican dependencias condicionales entre variables: si hay una arista de A a B, B depende condicionalmente de A y esa relación se cuantifica mediante probabilidades condicionales asociadas (habitualmente expresadas en tablas de probabilidad condicional o CPT).

Formalmente, una red bayesiana factoriza la probabilidad conjunta de un conjunto de variables X1,...,Xn como el producto de las probabilidades condicionales de cada variable dado sus padres en el grafo:

P(X1,...,Xn) = P(X1 | Parents(X1)) · P(X2 | Parents(X2)) · ... · P(Xn | Parents(Xn)).

Inferencia

Una vez definida la estructura y las probabilidades, la red permite realizar distintas tareas de inferencia probabilística:

  • Inferencia marginal: calcular la probabilidad de una variable dado evidencia observada.
  • Máxima a posteriori (MAP) y MPE (Most Probable Explanation): encontrar la asignación más probable para una variable o para todas las variables no observadas dadas las evidencias.
  • Actualización bayesiana: incorporar nueva evidencia para actualizar creencias.

Los algoritmos de inferencia pueden ser exactos (p. ej., eliminación de variables, algoritmos de clúster/junction tree) o aproximados (p. ej., muestreo Monte Carlo como Gibbs sampling, métodos MCMC, propagación de creencias en grafos con ciclos o aproximaciones variacionales). La elección depende del tamaño y la estructura de la red.

Aprendizaje

Hay dos componentes principales al construir una red bayesiana a partir de datos:

  • Aprendizaje de parámetros: estimar las probabilidades condicionales para una estructura dada (técnicas: máxima verosimilitud, estimación bayesiana, uso del algoritmo EM cuando hay datos faltantes u variables latentes).
  • Aprendizaje de la estructura: determinar qué aristas deben existir entre nodos. Esto puede hacerse mediante métodos basados en puntuaciones (score-based, p. ej., BIC, AIC, búsqueda heurística), métodos basados en restricciones (constraint-based, p. ej., algoritmo PC) o enfoques híbridos. El problema de aprender la estructura óptima es en general NP-difícil, por lo que se usan aproximaciones y heurísticas.

Aplicaciones en aprendizaje automático y otras áreas

Las redes bayesianas son herramientas populares en el aprendizaje automático por su capacidad para manejar incertidumbre y representar conocimiento estructurado. Se han aplicado en tareas de clasificación y reconocimiento —por ejemplo, reconocimiento de imágenes, documentos o voz— y en sistemas de recuperación de información. Algunos usos concretos:

  • Clasificadores (p. ej., naive Bayes, que es una red bayesiana con una estructura muy simple y suposición de independencia condicional entre características).
  • Diagnóstico médico y sistemas de soporte a decisiones clínicas.
  • Bioinformática y análisis de redes genéticas.
  • Robótica y modelos de seguimiento/estado (extensiones dinámicas como redes bayesianas dinámicas y modelos ocultos de Markov).
  • Detección de fallos, mantenimiento predictivo y sistemas expertos.
  • Procesamiento de lenguaje natural y sistemas de recomendación.

Relación con el teorema de Bayes y la causalidad

Las redes bayesianas se fundamentan en el teorema de Bayes, que permite actualizar probabilidades ante nueva evidencia. Además, si la estructura del grafo se interpreta causalmente (enfoque promovido por investigadores como Judea Pearl), las redes permiten razonar sobre intervenciones (p. ej., análisis contrafactual y reglas do-calculus) y no solo sobre correlaciones observadas.

Ventajas y limitaciones

  • Ventajas: representación explícita de dependencias condicionales, interpretabilidad, manejo de incertidumbre y facilidad para combinar conocimiento experto con datos.
  • Limitaciones: aprendizaje de estructura computacionalmente costoso en redes grandes, rendimiento sensible a la calidad y cantidad de datos, y en algunos casos la inferencia exacta puede ser intratable en términos computacionales.

Ejemplo sencillo

El clasificador naive Bayes asume que las características son condicionalmente independientes dado la clase. En términos de red bayesiana, la variable "clase" es un padre común de todas las características observadas. Esta simplicidad lo hace eficiente y sorprendentemente competitivo en muchas tareas prácticas, a pesar de la suposición de independencia rara vez se cumpla plenamente.

En resumen, las redes bayesianas son una herramienta flexible y poderosa para modelar incertidumbre y relaciones probabilísticas, con aplicaciones prácticas en múltiples dominios del aprendizaje automático y la inteligencia artificial.