La distribución t de Student es una distribución de probabilidad que fue desarrollada por William Sealy Gosset en 1908. Student es el seudónimo que utilizó cuando publicó el artículo que describe la distribución.

Una distribución normal describe una población completa, las distribuciones t describen muestras extraídas de una población completa; en consecuencia, la distribución t para cada tamaño de muestra es diferente, y cuanto más grande sea la muestra, más se parecerá la distribución a una distribución normal.

La distribución t desempeña un papel en muchos análisis estadísticos ampliamente utilizados, incluida la prueba t de Student para evaluar la significación estadística de la diferencia entre dos medias muestrales, la construcción de intervalos de confianza para la diferencia entre dos medias poblacionales y en el análisis de regresión lineal. La distribución t de Student también surge en el análisis bayesiano de datos de una familia normal.


 

Definición y función de densidad

La distribución t de Student es una familia de distribuciones continuas parametrizada por los grados de libertad, normalmente denotados por ν (nu). Si T sigue una distribución t con ν grados de libertad, su función de densidad es

f(t; ν) = Γ((ν+1)/2) / [√(νπ) · Γ(ν/2)] · (1 + t²/ν)^(-(ν+1)/2),

donde Γ(·) es la función gamma. La variable t puede tomar cualquier valor real. Los grados de libertad ν suelen estar relacionados con el tamaño de la muestra; por ejemplo, para una muestra simple que se usa para estimar una media poblacional, ν = n − 1.

Propiedades principales

  • Simetría: la distribución t es simétrica alrededor de cero.
  • Colas más pesadas: en comparación con la normal, la t tiene colas más gruesas (mayor probabilidad de valores extremos). Esto refleja la incertidumbre adicional cuando se estima la varianza a partir de la muestra.
  • Media y varianza: la media es 0 para ν > 1. La varianza es ν/(ν−2) para ν > 2 (por eso cuando 1 < ν ≤ 2 la varianza es infinita y para ν ≤ 1 no existe la media).
  • Dependencia en ν: a medida que ν aumenta, la t se aproxima a la distribución normal; en el límite ν → ∞ coinciden.
  • Construcción como cociente: si Z ~ N(0,1) y U ~ χ²(ν) independientes, entonces T = Z / √(U/ν) sigue una t con ν grados de libertad.

Aplicaciones estadísticas

La t de Student se usa habitualmente cuando la desviación típica poblacional es desconocida y se estima a partir de la muestra. Entre sus aplicaciones más comunes se incluyen:

  • Prueba t para una muestra: contrastar si la media poblacional difiere de un valor hipotético usando t = (x̄ − μ0) / (s/√n), con ν = n − 1.
  • Pruebas t para dos muestras: comparar medias de dos grupos (puede ser la versión de varianzas iguales o la de Welch, que ajusta ν).
  • Intervalos de confianza: para la media poblacional cuando σ es desconocida, se usan percentiles de la t para construir el intervalo x̄ ± t_{α/2,ν}·(s/√n).
  • Análisis de regresión: los coeficientes estimados en regresión lineal tienen estadísticos t (coeficiente dividido por su error estándar), que se usan para pruebas de significación y construcción de intervalos.
  • Inferencia bayesiana: aparece en modelos conjugados o en distribuciones marginales cuando se integra la incertidumbre sobre la varianza.

Cálculo de valores críticos y p-valores

Los percentiles de la t (por ejemplo, t_{α/2,ν}) se obtienen con tablas de distribución t o con software estadístico (R, Python, calculadoras). En pruebas bilaterales se compara |t_obs| con t_{α/2,ν}; en pruebas unilaterales se usa t_{α,ν}. En la práctica, los softwares devuelven p-valores exactos y no es necesario buscar en tablas.

Ejemplo práctico (intervalo de confianza para la media)

Suponga una muestra de n = 10 observaciones, media muestral x̄ = 5.2 y desviación estándar muestral s = 1.4. Para un 95% de confianza, ν = 9 y t_{0.025,9} ≈ 2.262. El intervalo es:

x̄ ± t · (s/√n) = 5.2 ± 2.262 · (1.4/√10) ≈ 5.2 ± 1.00 → (4.20, 6.20).

Este intervalo refleja la mayor incertidumbre por usar s en lugar de σ; con n grande la corrección por t sería prácticamente la misma que usando la normal.

Relación con otras distribuciones

  • Como se indicó, la t se obtiene como cociente entre una normal estándar y la raíz de una chi-cuadrado escalada.
  • Cuando ν → ∞, la t converge a la distribución normal estándar.
  • Para valores muy pequeños de ν la t tiene colas extremadamente pesadas y momentos superiores pueden no existir.

Consideraciones prácticas y advertencias

  • Supuesto de normalidad: las pruebas y los intervalos basados en la t asumen que los datos (o los errores en un modelo) son aproximadamente normales. Si no se cumple, especialmente con muestras pequeñas, los resultados pueden ser poco fiables.
  • Muestras pequeñas: prestar atención al tamaño de la muestra; con n muy pequeño la potencia es baja y la estimación de la varianza es inestable.
  • Alternativas: si la normalidad es dudosa, considerar transformaciones, pruebas no paramétricas (por ejemplo, Wilcoxon) o métodos de remuestreo como el bootstrap.

En resumen, la distribución t de Student es una herramienta esencial en inferencia cuando la varianza poblacional es desconocida. Su forma dependiente de los grados de libertad permite capturar la incertidumbre adicional de las muestras pequeñas y garantiza inferencias más conservadoras que si se usara directamente la normal estándar.