Paradoja de Simpson (efecto Yule–Simpson): definición, causas y ejemplos

Descubre la Paradoja de Simpson (efecto Yule–Simpson): qué es, por qué ocurre y ejemplos claros para evitar interpretaciones erróneas en estadísticas y ciencias.

Autor: Leandro Alegsa

La paradoja de Simpson es una paradoja de la estadística. Lleva el nombre de Edward H. Simpson, un estadístico británico que la describió por primera vez en 1951. El estadístico Karl Pearson describió un efecto muy similar en 1899, y la descripción de Udny Yule data de 1903. A veces, se denomina efecto Yule-Simpson. Cuando se observan las puntuaciones estadísticas de los grupos, éstas pueden cambiar, dependiendo de si los grupos se observan uno a uno, o si se combinan en un grupo mayor. Este caso se da a menudo en las ciencias sociales y en las estadísticas médicas. Puede confundir a la gente, si los datos de frecuencia se utilizan para explicar una relación causal. Otros nombres de la paradoja son paradoja de la inversión y paradoja de la amalgama.

Definición ampliada

La paradoja de Simpson ocurre cuando una tendencia que aparece en varios subgrupos de datos desaparece o se invierte al combinar esos subgrupos en un conjunto global. En términos probabilísticos, las probabilidades condicionales P(Y | X, Z) pueden mostrar una relación diferente (o la misma relación con distinto signo) que la probabilidad marginal P(Y | X) cuando se ignora la variable Z. La variable Z que provoca ese cambio se suele llamar variable de confusión o variable oculta.

Causas y mecanismo

  • Confusión por un factor oculto: cuando la distribución de una variable relevante (Z) difiere entre los grupos y está correlacionada tanto con la variable explicativa (X) como con la respuesta (Y).
  • Diferentes tamaños de grupo: si los subgrupos tienen tamaños muy distintos, la agregación puede dar mayor peso a los subgrupos grandes y enmascarar la tendencia de los subgrupos pequeños.
  • Relación no lineal o interacción: la relación entre X e Y puede depender del nivel de Z (interacción) y, por tanto, el efecto promedio puede invertirse.

Ejemplo numérico clásico (piedras renales)

Un ejemplo famoso muestra dos tratamientos (A y B) para el mismo problema, divididos en dos tipos de pacientes (pequeñas y grandes piedras). En cada subgrupo, el tratamiento A parece mejor, pero al combinar los datos A parece peor.

  • Pacientes con piedras pequeñas:
    • Tratamiento A: 81 éxitos de 87 (93.1%)
    • Tratamiento B: 234 éxitos de 270 (86.7%)
  • Pacientes con piedras grandes:
    • Tratamiento A: 192 éxitos de 263 (73.0%)
    • Tratamiento B: 55 éxitos de 80 (68.8%)
  • Combinado (todos los pacientes):
    • Tratamiento A: 273 éxitos de 350 = 78.0%
    • Tratamiento B: 289 éxitos de 350 = 82.6%

Interpretación: dentro de cada tamaño de piedra, A tiene mejor tasa de éxito; sin embargo, al agregar, B parece mejor. Esto se debe a que la distribución de pacientes por tamaño difiere entre los tratamientos (por ejemplo, B puede haberse usado más en pacientes con mejores probabilidades de recuperación), lo que introduce confusión.

Ejemplos reales

  • Medicina: estudios que comparan la eficacia de tratamientos sin ajustar por edad, severidad de la enfermedad u otras covariables pueden llevar a conclusiones erróneas.
  • Admisiones universitarias: tasas de aceptación por departamento frente a tasas agregadas por sexo; puede ocurrir que cada departamento acepte proporcionalmente más a mujeres, pero globalmente haya una mayor proporción de hombres aceptados si las mujeres solicitan más a departamentos con baja tasa de admisión.
  • Economía y políticas públicas: indicadores agregados (p. ej., tasa de empleo) pueden ocultar diferencias entre subgrupos geográficos o demográficos.

Cómo detectarla y evitar errores

  • Estratificar los datos: analizar resultados por subgrupos relevantes en lugar de solo mirar promedios globales.
  • Controlar variables confusoras: incluir covariables en modelos estadísticos (regresión múltiple, modelos de efectos mixtos) o usar métodos de ajuste (emparejamiento, ponderación).
  • Diagramas causales (DAGs): usar grafos causales para identificar variables que hay que ajustar para estimar efectos causales.
  • Prueba de sensibilidad: comprobar si la conclusión cambia cuando se incluyen o excluyen subgrupos o variables potencialmente relevantes.
  • Evitar inferir causalidad de la agregación: la observación de una asociación marginal no prueba causalidad; siempre buscar diseño o análisis que controlen confusores.

Consecuencias prácticas

La paradoja de Simpson muestra que la agregación inapropiada de datos puede llevar a decisiones equivocadas en medicina, políticas públicas, investigación social y negocio. Por eso es esencial diseñar estudios con control de variables relevantes y presentar resultados tanto desagregados como agregados, para que los responsables puedan entender las distintas capas de la evidencia.

Notas históricas y nomenclatura

Aunque el nombre proviene de Edward H. Simpson (1951), efectos similares fueron descritos por Karl Pearson y Udny Yule a principios del siglo XX; por eso también se habla del efecto Yule–Simpson. Los términos alternativos incluyen paradoja de la inversión y paradoja de la amalgama.

Ejemplo: Tratamiento de cálculos renales

Este es un ejemplo real de un estudio médico que compara las tasas de éxito de dos tratamientos para los cálculos renales.

La tabla muestra las tasas de éxito y el número de tratamientos para los cálculos renales pequeños y grandes, donde el tratamiento A incluye todos los procedimientos abiertos y el tratamiento B es la nefrolitotomía percutánea:

Tratamiento A

Tratamiento B

éxito

fallo

éxito

fallo

Piedras pequeñas

Grupo 1

Grupo 2

número de pacientes

81

6

234

36

93%

7%

87%

13%

Piedras grandes

Grupo 3

Grupo 4

número de pacientes

192

71

55

25

73%

27%

69%

31%

Ambos

Grupo 1+3

Grupo 2+4

número de pacientes

273

77

289

61

78%

22%

83%

17%

La conclusión paradójica es que el tratamiento A es más eficaz cuando se utiliza en cálculos pequeños, y también cuando se utiliza en cálculos grandes, pero el tratamiento B es más eficaz cuando se consideran ambos tamaños al mismo tiempo. En este ejemplo, no se sabía que el tamaño del cálculo renal influía en el resultado. Esto se denomina variable oculta (o variable al acecho) en estadística.

El tratamiento que se considera mejor viene determinado por una desigualdad entre dos ratios (éxitos/total). La inversión de la desigualdad entre los ratios, que crea la paradoja de Simpson, se produce porque se dan dos efectos a la vez:

  1. Los tamaños de los grupos, que se combinan cuando no se tiene en cuenta la variable de acecho, son muy diferentes. Los médicos tienden a dar a los casos graves (cálculos grandes) el mejor tratamiento (A), y a los casos más leves (cálculos pequeños) el tratamiento inferior (B). Por lo tanto, los totales están dominados por los grupos tres y dos, y no por los dos grupos uno y cuatro, mucho más pequeños.
  2. La variable de acecho tiene un gran efecto en los ratios, es decir, el porcentaje de éxito está más fuertemente influenciado por la gravedad del caso que por la elección del tratamiento. Por lo tanto, el grupo de pacientes con cálculos grandes que utilizan el tratamiento A (grupo tres) obtiene peores resultados que el grupo con cálculos pequeños, aunque este último haya utilizado el tratamiento inferior B (grupo dos).


Buscar dentro de la enciclopedia
AlegsaOnline.com - 2020 / 2025 - License CC3