Significancia estadística: qué es, nivel α y pruebas de hipótesis

Descubre qué es la significancia estadística, el nivel α y cómo interpretar pruebas de hipótesis: guía práctica con ejemplos y consejos para aplicar y valorar resultados correctamente.

La estadística utiliza variables para describir una medida. Dicha variable se denomina significativa si la probabilidad de que su resultado se haya obtenido por azar es inferior a un valor determinado. Las pruebas de hipótesis estadísticas se utilizan para comprobar la significación.

El concepto de significación estadística fue originado por Ronald Fisher cuando desarrolló las pruebas de hipótesis estadísticas, que describió como "pruebas de significación", en su publicación de 1925, Statistical Methods for Research Workers. Fisher sugirió una probabilidad de uno entre veinte (0,05) como nivel de corte conveniente para rechazar la hipótesis nula. En su artículo de 1933, Jerzy Neyman y Egon Pearson recomendaron que el nivel de significación (por ejemplo, 0,05), al que llamaron α, se fijara con antelación, antes de cualquier recogida de datos.

A pesar de su sugerencia inicial de 0,05 como nivel de significación, Fisher no pretendía que este valor de corte fuera fijo, y en su publicación de 1956 Statistical methods and scientific inference recomendaba que los niveles de significación se fijaran en función de las circunstancias específicas.

¿Qué es exactamente el valor p?

El valor p es la probabilidad de obtener un resultado igual o más extremo que el observado, suponiendo que la hipótesis nula (H0) sea cierta. En otras palabras, el valor p cuantifica la compatibilidad de los datos con H0. Un valor p pequeño indica que los datos son poco compatibles con H0.

Es importante aclarar lo que el valor p no es: no es la probabilidad de que H0 sea verdadera ni la probabilidad de que los resultados se deban únicamente al azar en un sentido causal. Es una medida condicionada a H0.

Nivel de significación (α) y regla de decisión

El nivel de significación, α, es un umbral que fija el investigador antes del experimento para tomar decisiones: si p ≤ α, se rechaza la hipótesis nula; si p > α, no se rechaza. Valores comunes de α son 0,05, 0,01 y 0,10, pero la elección debe depender del contexto, de las consecuencias de errores y de la disciplina científica.

Ejemplo sencillo: con α = 0,05 y p = 0,03 se considera que el resultado es estadísticamente significativo y se rechaza H0; con p = 0,08 no se rechaza H0.

Errores y potencia

Error tipo I (α): rechazar H0 siendo verdadera. El nivel α controla la probabilidad de cometer este error.
Error tipo II (β): no rechazar H0 cuando la alternativa es verdadera. La potencia de una prueba es 1 − β y refleja la probabilidad de detectar un efecto real.

Hay un compromiso entre α, β, tamaño del efecto y tamaño de la muestra: para mantener α pequeño y reducir β (aumentar potencia) generalmente se necesita una muestra mayor o un efecto más grande.

Pruebas unilateral y bilateral

Las pruebas pueden ser unilaterales (una cola) o bilaterales (dos colas). En una prueba bilateral se considera la posibilidad de que el efecto sea mayor o menor que lo esperado; en una unilateral se examina solo una dirección. La elección altera cómo se calcula el valor p y el umbral α.

Significancia estadística vs. significancia práctica

La significancia estadística no siempre implica que el efecto tenga relevancia práctica o clínica. Con muestras muy grandes, efectos muy pequeños pueden resultar significativos. Por eso es recomendable:

Reportar tamaño del efecto (por ejemplo, diferencia de medias, d de Cohen, odds ratio).
Acompañar los resultados con intervalos de confianza, que muestran la precisión de la estimación.
Valorar la importancia práctica del efecto en el contexto del problema.

Limitaciones y malas interpretaciones frecuentes

Interpretar el valor p como la probabilidad de que H0 sea cierta.
Tratar α = 0,05 como una regla rígida e infalible; es una convención, no una ley científica.
No considerar la multiplicidad de pruebas: al hacer muchas comparaciones aumenta la probabilidad de obtener resultados aparentemente "significativos" por azar.

Para corregir la multiplicidad existen procedimientos como la corrección de Bonferroni, la corrección de Benjamini–Hochberg para la tasa de falsos descubrimientos, y otras técnicas.

Buenas prácticas al informar resultados

Fijar α y el diseño del estudio antes de la recogida de datos (registro previo cuando sea posible).
Reportar el valor p exacto (no solo “p < 0,05”), el tamaño del efecto y su intervalo de confianza.
Considerar análisis de potencia y cálculo del tamaño de muestra en la fase de planificación.
Evitar el p-hacking (ajustar análisis hasta obtener p pequeños) y transparencias en los análisis realizados.

Conclusión

La significancia estadística es una herramienta útil para evaluar la compatibilidad de los datos con una hipótesis nula, pero debe interpretarse con cautela y siempre en conjunto con el tamaño del efecto, intervalos de confianza, diseño del estudio y consideraciones prácticas. Históricamente, figuras como Fisher y el enfoque Neyman–Pearson contribuyeron a su desarrollo; sin embargo, la comunidad científica actual recomienda usar α y p-values como parte de un enfoque más amplio y contextualizado del análisis estadístico.

Significancia estadística: qué es, nivel α y pruebas de hipótesis

¿Qué es exactamente el valor p?

Nivel de significación (α) y regla de decisión

Errores y potencia

Pruebas unilateral y bilateral

Significancia estadística vs. significancia práctica

Limitaciones y malas interpretaciones frecuentes

Buenas prácticas al informar resultados

Conclusión

Preguntas y respuestas

P: ¿Qué es una variable estadísticamente significativa?

P: ¿Para qué se utiliza la significación estadística?

P: ¿Para qué se utilizan las pruebas estadísticas de hipótesis?

P: ¿Quién originó el concepto de significación estadística?

P: ¿Qué nivel de corte sugirió Fisher para rechazar la hipótesis nula?

P: ¿Quién recomendó que se fijara el nivel de significación antes de cualquier recogida de datos?

P: ¿Pretendía Fisher que el valor de corte de 0,05 fuera fijo?