La paradoja de Simpson es una paradoja de la estadística. Lleva el nombre de Edward H. Simpson, un estadístico británico que la describió por primera vez en 1951. El estadístico Karl Pearson describió un efecto muy similar en 1899, y la descripción de Udny Yule data de 1903. A veces, se denomina efecto Yule-Simpson. Cuando se observan las puntuaciones estadísticas de los grupos, éstas pueden cambiar, dependiendo de si los grupos se observan uno a uno, o si se combinan en un grupo mayor. Este caso se da a menudo en las ciencias sociales y en las estadísticas médicas. Puede confundir a la gente, si los datos de frecuencia se utilizan para explicar una relación causal. Otros nombres de la paradoja son paradoja de la inversión y paradoja de la amalgama.

Definición ampliada

La paradoja de Simpson ocurre cuando una tendencia que aparece en varios subgrupos de datos desaparece o se invierte al combinar esos subgrupos en un conjunto global. En términos probabilísticos, las probabilidades condicionales P(Y | X, Z) pueden mostrar una relación diferente (o la misma relación con distinto signo) que la probabilidad marginal P(Y | X) cuando se ignora la variable Z. La variable Z que provoca ese cambio se suele llamar variable de confusión o variable oculta.

Causas y mecanismo

  • Confusión por un factor oculto: cuando la distribución de una variable relevante (Z) difiere entre los grupos y está correlacionada tanto con la variable explicativa (X) como con la respuesta (Y).
  • Diferentes tamaños de grupo: si los subgrupos tienen tamaños muy distintos, la agregación puede dar mayor peso a los subgrupos grandes y enmascarar la tendencia de los subgrupos pequeños.
  • Relación no lineal o interacción: la relación entre X e Y puede depender del nivel de Z (interacción) y, por tanto, el efecto promedio puede invertirse.

Ejemplo numérico clásico (piedras renales)

Un ejemplo famoso muestra dos tratamientos (A y B) para el mismo problema, divididos en dos tipos de pacientes (pequeñas y grandes piedras). En cada subgrupo, el tratamiento A parece mejor, pero al combinar los datos A parece peor.

  • Pacientes con piedras pequeñas:
    • Tratamiento A: 81 éxitos de 87 (93.1%)
    • Tratamiento B: 234 éxitos de 270 (86.7%)
  • Pacientes con piedras grandes:
    • Tratamiento A: 192 éxitos de 263 (73.0%)
    • Tratamiento B: 55 éxitos de 80 (68.8%)
  • Combinado (todos los pacientes):
    • Tratamiento A: 273 éxitos de 350 = 78.0%
    • Tratamiento B: 289 éxitos de 350 = 82.6%

Interpretación: dentro de cada tamaño de piedra, A tiene mejor tasa de éxito; sin embargo, al agregar, B parece mejor. Esto se debe a que la distribución de pacientes por tamaño difiere entre los tratamientos (por ejemplo, B puede haberse usado más en pacientes con mejores probabilidades de recuperación), lo que introduce confusión.

Ejemplos reales

  • Medicina: estudios que comparan la eficacia de tratamientos sin ajustar por edad, severidad de la enfermedad u otras covariables pueden llevar a conclusiones erróneas.
  • Admisiones universitarias: tasas de aceptación por departamento frente a tasas agregadas por sexo; puede ocurrir que cada departamento acepte proporcionalmente más a mujeres, pero globalmente haya una mayor proporción de hombres aceptados si las mujeres solicitan más a departamentos con baja tasa de admisión.
  • Economía y políticas públicas: indicadores agregados (p. ej., tasa de empleo) pueden ocultar diferencias entre subgrupos geográficos o demográficos.

Cómo detectarla y evitar errores

  • Estratificar los datos: analizar resultados por subgrupos relevantes en lugar de solo mirar promedios globales.
  • Controlar variables confusoras: incluir covariables en modelos estadísticos (regresión múltiple, modelos de efectos mixtos) o usar métodos de ajuste (emparejamiento, ponderación).
  • Diagramas causales (DAGs): usar grafos causales para identificar variables que hay que ajustar para estimar efectos causales.
  • Prueba de sensibilidad: comprobar si la conclusión cambia cuando se incluyen o excluyen subgrupos o variables potencialmente relevantes.
  • Evitar inferir causalidad de la agregación: la observación de una asociación marginal no prueba causalidad; siempre buscar diseño o análisis que controlen confusores.

Consecuencias prácticas

La paradoja de Simpson muestra que la agregación inapropiada de datos puede llevar a decisiones equivocadas en medicina, políticas públicas, investigación social y negocio. Por eso es esencial diseñar estudios con control de variables relevantes y presentar resultados tanto desagregados como agregados, para que los responsables puedan entender las distintas capas de la evidencia.

Notas históricas y nomenclatura

Aunque el nombre proviene de Edward H. Simpson (1951), efectos similares fueron descritos por Karl Pearson y Udny Yule a principios del siglo XX; por eso también se habla del efecto Yule–Simpson. Los términos alternativos incluyen paradoja de la inversión y paradoja de la amalgama.