Distribución t de Student: definición, propiedades y aplicaciones estadísticas

Descubre la distribución t de Student: definición, propiedades y aplicaciones estadísticas clave — pruebas t, intervalos de confianza y regresión para muestras pequeñas.

Autor: Leandro Alegsa

La distribución t de Student es una distribución de probabilidad que fue desarrollada por William Sealy Gosset en 1908. Student es el seudónimo que utilizó cuando publicó el artículo que describe la distribución.

Una distribución normal describe una población completa, las distribuciones t describen muestras extraídas de una población completa; en consecuencia, la distribución t para cada tamaño de muestra es diferente, y cuanto más grande sea la muestra, más se parecerá la distribución a una distribución normal.

La distribución t desempeña un papel en muchos análisis estadísticos ampliamente utilizados, incluida la prueba t de Student para evaluar la significación estadística de la diferencia entre dos medias muestrales, la construcción de intervalos de confianza para la diferencia entre dos medias poblacionales y en el análisis de regresión lineal. La distribución t de Student también surge en el análisis bayesiano de datos de una familia normal.


 

Definición y función de densidad

La distribución t de Student es una familia de distribuciones continuas parametrizada por los grados de libertad, normalmente denotados por ν (nu). Si T sigue una distribución t con ν grados de libertad, su función de densidad es

f(t; ν) = Γ((ν+1)/2) / [√(νπ) · Γ(ν/2)] · (1 + t²/ν)^(-(ν+1)/2),

donde Γ(·) es la función gamma. La variable t puede tomar cualquier valor real. Los grados de libertad ν suelen estar relacionados con el tamaño de la muestra; por ejemplo, para una muestra simple que se usa para estimar una media poblacional, ν = n − 1.

Propiedades principales

  • Simetría: la distribución t es simétrica alrededor de cero.
  • Colas más pesadas: en comparación con la normal, la t tiene colas más gruesas (mayor probabilidad de valores extremos). Esto refleja la incertidumbre adicional cuando se estima la varianza a partir de la muestra.
  • Media y varianza: la media es 0 para ν > 1. La varianza es ν/(ν−2) para ν > 2 (por eso cuando 1 < ν ≤ 2 la varianza es infinita y para ν ≤ 1 no existe la media).
  • Dependencia en ν: a medida que ν aumenta, la t se aproxima a la distribución normal; en el límite ν → ∞ coinciden.
  • Construcción como cociente: si Z ~ N(0,1) y U ~ χ²(ν) independientes, entonces T = Z / √(U/ν) sigue una t con ν grados de libertad.

Aplicaciones estadísticas

La t de Student se usa habitualmente cuando la desviación típica poblacional es desconocida y se estima a partir de la muestra. Entre sus aplicaciones más comunes se incluyen:

  • Prueba t para una muestra: contrastar si la media poblacional difiere de un valor hipotético usando t = (x̄ − μ0) / (s/√n), con ν = n − 1.
  • Pruebas t para dos muestras: comparar medias de dos grupos (puede ser la versión de varianzas iguales o la de Welch, que ajusta ν).
  • Intervalos de confianza: para la media poblacional cuando σ es desconocida, se usan percentiles de la t para construir el intervalo x̄ ± t_{α/2,ν}·(s/√n).
  • Análisis de regresión: los coeficientes estimados en regresión lineal tienen estadísticos t (coeficiente dividido por su error estándar), que se usan para pruebas de significación y construcción de intervalos.
  • Inferencia bayesiana: aparece en modelos conjugados o en distribuciones marginales cuando se integra la incertidumbre sobre la varianza.

Cálculo de valores críticos y p-valores

Los percentiles de la t (por ejemplo, t_{α/2,ν}) se obtienen con tablas de distribución t o con software estadístico (R, Python, calculadoras). En pruebas bilaterales se compara |t_obs| con t_{α/2,ν}; en pruebas unilaterales se usa t_{α,ν}. En la práctica, los softwares devuelven p-valores exactos y no es necesario buscar en tablas.

Ejemplo práctico (intervalo de confianza para la media)

Suponga una muestra de n = 10 observaciones, media muestral x̄ = 5.2 y desviación estándar muestral s = 1.4. Para un 95% de confianza, ν = 9 y t_{0.025,9} ≈ 2.262. El intervalo es:

x̄ ± t · (s/√n) = 5.2 ± 2.262 · (1.4/√10) ≈ 5.2 ± 1.00 → (4.20, 6.20).

Este intervalo refleja la mayor incertidumbre por usar s en lugar de σ; con n grande la corrección por t sería prácticamente la misma que usando la normal.

Relación con otras distribuciones

  • Como se indicó, la t se obtiene como cociente entre una normal estándar y la raíz de una chi-cuadrado escalada.
  • Cuando ν → ∞, la t converge a la distribución normal estándar.
  • Para valores muy pequeños de ν la t tiene colas extremadamente pesadas y momentos superiores pueden no existir.

Consideraciones prácticas y advertencias

  • Supuesto de normalidad: las pruebas y los intervalos basados en la t asumen que los datos (o los errores en un modelo) son aproximadamente normales. Si no se cumple, especialmente con muestras pequeñas, los resultados pueden ser poco fiables.
  • Muestras pequeñas: prestar atención al tamaño de la muestra; con n muy pequeño la potencia es baja y la estimación de la varianza es inestable.
  • Alternativas: si la normalidad es dudosa, considerar transformaciones, pruebas no paramétricas (por ejemplo, Wilcoxon) o métodos de remuestreo como el bootstrap.

En resumen, la distribución t de Student es una herramienta esencial en inferencia cuando la varianza poblacional es desconocida. Su forma dependiente de los grados de libertad permite capturar la incertidumbre adicional de las muestras pequeñas y garantiza inferencias más conservadoras que si se usara directamente la normal estándar.

Historia

Gosset trabajaba en una cervecería y se interesaba por los problemas de las muestras pequeñas, por ejemplo las propiedades químicas de la cebada. En los problemas que analizaba, el tamaño de la muestra podía ser tan pequeño como tres. Debido al pequeño tamaño de la muestra, no es posible estimar la desviación estándar. Además, en muchos de los casos con los que se encontró Gosset, no se conocía la distribución de probabilidad de las muestras.

Una versión del origen del seudónimo es que el empleador de Gosset prefería que el personal utilizara seudónimos (en lugar de su nombre real) cuando publicaba artículos científicos, por lo que utilizó el nombre de "Estudiante" para ocultar su identidad. Otra versión es que la fábrica de cerveza no quería que sus competidores supieran que utilizaban la prueba t para comprobar la calidad de la materia prima.


 

Propiedades

Si tomamos una muestra de n observaciones de una distribución normal, entonces la distribución t con ν = n-1 grados de libertad puede definirse como la distribución de la ubicación de la media muestral {\displaystyle {\overline {X}}}, en relación con la media verdadera μ {\displaystyle \mu, dividida por la desviación estándar de la muestra {\displaystyle s} sobre el término normalizador {\displaystyle {\sqrt {n}}} (es decir, {\displaystyle T={\tfrac {{\overline {X}}-\mu }{s/{\sqrt {n}}}}} ). De este modo, la distribución t puede utilizarse para estimar la probabilidad de que la media real se encuentre en un rango determinado.

La distribución t es simétrica y tiene forma de campana, como la distribución normal, pero tiene colas más pesadas, lo que significa que es más propensa a producir valores que caen lejos de su media. Esto hace que sea útil para comprender el comportamiento estadístico de ciertos tipos de cocientes de cantidades aleatorias, en los que la variación en el denominador se amplifica y puede producir valores periféricos cuando el denominador del cociente cae cerca de cero. La distribución t de Student es un caso especial de la distribución hiperbólica generalizada.


 

Páginas relacionadas

  • Distribución F
 

Preguntas y respuestas

P: ¿Qué es la distribución t de Student?


R: La distribución t de Student es una distribución de probabilidad que fue desarrollada por William Sealy Gosset en 1908. Describe muestras extraídas de una población completa, y cuanto mayor es el tamaño de la muestra, más se parece a una distribución normal.

P: ¿Quién desarrolló la distribución t de Student?


R: William Sealy Gosset desarrolló la distribución t de Student en 1908. Utilizó el seudónimo "Student" cuando publicó el artículo que la describía.

P: ¿Cuáles son algunos de los usos de la distribución t de Student?


R: La distribución t de Student desempeña un papel en muchos análisis estadísticos ampliamente utilizados, incluida la prueba t de Student para evaluar la importancia estadística de las diferencias entre dos medias de muestra, construir intervalos de confianza para las diferencias entre dos medias de población y el análisis de regresión lineal. También surge en el análisis bayesiano de datos de una familia normal.

P: ¿Cómo afecta el tamaño de la muestra a la forma de una distribución t?


R: Cuanto mayor sea el tamaño de la muestra, más se parecerá a una distribución normal. Para cada tamaño de muestra diferente existe una distribución t única asociada que la describe.

P: ¿Existe alguna relación entre la distribución T de Student y la distribución normal?


R: Sí. Mientras que las distribuciones normales describen poblaciones completas, las distribuciones T de Student describen muestras extraídas de esas poblaciones; como tales, comparten similitudes pero difieren en función de sus respectivos tamaños. Como se ha mencionado anteriormente, las muestras más grandes tienden a parecerse más a las distribuciones normales que las más pequeñas.

P: ¿Existe algún otro nombre para este tipo de distribución?


R: No - este tipo de distribución se conoce como "Distribución T de Student", llamada así por su desarrollador William Sealy Gosset, que utilizó su seudónimo "Student" al publicar su artículo sobre ella.


Buscar dentro de la enciclopedia
AlegsaOnline.com - 2020 / 2025 - License CC3