Errores y residuos en estadística: qué son, diferencias y ejemplos

Los errores estadísticos y los residuos se producen porque la medición nunca es exacta.

No es posible hacer una medición exacta, pero sí se puede decir lo exacta que es una medición. Se puede medir lo mismo una y otra vez y recoger todos los datos juntos. Esto nos permite hacer estadísticas sobre los datos. Lo que se entiende por errores y residuos es la diferencia entre el valor observado o medido y el valor real, que es desconocido.

Si sólo hay una variable aleatoria, la diferencia entre los errores estadísticos y los residuos es análoga a la diferencia entre la media de la población y la media de la muestra (observada). En ese caso, el residuo es la diferencia entre lo que dice la distribución de probabilidad y lo que realmente se midió.

Supongamos que se realiza un experimento para medir la altura de los hombres de 21 años de una determinada zona. La media de la distribución es de 1,75 m. Si un hombre elegido al azar mide 1,80 m, el "error (estadístico)" es de 0,05 m (5 cm); si mide 1,70, el error es de -0,05 m (-5 cm).

Un residuo (o error de ajuste), por otro lado, es una estimación observable del error estadístico inobservable. El caso más sencillo es el de una muestra aleatoria de n hombres a los que se les mide la altura. La media de la muestra se utiliza como estimación de la media de la población. Entonces tenemos:

  • La diferencia entre la altura de cada hombre de la muestra y la media poblacional no observable es un error estadístico.
  • La diferencia entre la altura de cada hombre de la muestra y la media observable de la muestra es un residuo.

La suma de los residuos de una muestra aleatoria debe ser cero (cuando el modelo incluye un término constante). Por tanto, los residuos no son independientes. La suma de los errores estadísticos dentro de una muestra aleatoria no tiene por qué ser cero; los errores estadísticos son variables aleatorias independientes si los individuos se eligen de la población de forma independiente.

Definiciones breves y fórmulas útiles

  • Error estadístico (teórico, no observable): error_i = observado_i − verdadero_i. En regresión se suele denotar por ε_i (epsilon), que representa la desviación del valor observado respecto al verdadero modelo poblacional.
  • Residuo (observable): residuo_i = observado_i − estimado_i (o observado_i − ŷ_i). En regresión se suele denotar por e_i.
  • Si el verdadero parámetro poblacional se desconoce y se estima a partir de la muestra, los residuos son las diferencias respecto a la predicción usando esos parámetros estimados; por eso los residuos dependen de los datos y de las estimaciones.

Diferencias clave

  • Observabilidad: el error verdadero (ε_i) es en general inobservable porque depende del valor real poblacional desconocido; el residuo (e_i) es observable y computable a partir de los datos y del modelo ajustado.
  • Dependencia: los errores verdaderos suelen considerarse independientes entre sí en modelos ideales; los residuos no son independientes en general porque están sujetos a restricciones (por ejemplo, la suma de residuos es cero si hay intercepto).
  • Varianza: la varianza poblacional de los errores (Var(ε_i)) es la varianza real que queremos conocer; la varianza estimada a partir de residuos debe corregirse por los grados de libertad (n − p) para ser insesgada, donde p es el número de parámetros estimados.
  • Sesgo en la estimación de la varianza: la suma de cuadrados de residuos (SSE = Σ e_i^2) subestima la suma de cuadrados de los errores si no se divide por (n − p). La estimación insesgada del error estándar residual es sqrt(SSE / (n − p)).

Ejemplos prácticos

Ejemplo simple con la media: suponga n = 5 alturas observadas (m): 1,72; 1,78; 1,69; 1,83; 1,76. La media muestral es 1,756. Los residuos respecto a la media muestral son:

  • e1 = 1,72 − 1,756 = −0,036
  • e2 = 1,78 − 1,756 = 0,024
  • e3 = 1,69 − 1,756 = −0,066
  • e4 = 1,83 − 1,756 = 0,074
  • e5 = 1,76 − 1,756 = 0,004

La suma de estos residuos es (por definición) aproximadamente cero. Sin embargo, los errores reales serían la diferencia entre cada observación y la verdadera media poblacional, que no conocemos.

Ejemplo en regresión lineal: suponga que el modelo poblacional es y = β0 + β1 x + ε. El término ε representa el error verdadero. Tras ajustar el modelo con datos observados obtenemos estimadores b0 y b1 y predicciones ŷ_i = b0 + b1 x_i. Entonces los residuos e_i = y_i − ŷ_i son observables y se usan para diagnóstico (comprobar supuestos: homoscedasticidad, normalidad, independencia, linealidad).

Consecuencias prácticas y uso de residuos

  • Diagnóstico de modelo: los residuos se usan para detectar heteroscedasticidad (varianza no constante), no linealidad, valores atípicos y autocorrelación. Gráficos habituales: residuo vs. valores ajustados, QQ-plot de residuos y gráfico de residuos versus orden temporal.
  • Inferencia: como los residuos subestiman la variabilidad real si no se corrige por grados de libertad, es importante usar el denominador correcto (n − p) al calcular el error estándar y construir intervalos de confianza y contrastes.
  • Estimación y sesgo: los residuos no permiten recuperar directamente la distribución de los errores verdaderos sin considerar que se han estimado parámetros. En presencia de errores en las variables explicativas (error de medida), las estimaciones de parámetros pueden resultar sesgadas.
  • Independencia: si los errores verdaderos son independientes pero los residuos no lo son, los procedimientos que asumen independencia deben aplicarse con cuidado y usando las correcciones apropiadas.

Cómo se calculan en software

  • La mayoría de paquetes estadísticos (R, Python/statsmodels, Stata, SPSS) devuelven residuos ordinarios: e_i = y_i − ŷ_i. También suelen ofrecer residuos estandarizados o studentizados, que facilitan la detección de observaciones influyentes.
  • Al interpretar resultados, tenga en cuenta si los residuos son Pearson, deviance u otro tipo (en modelos no lineales o de familia exponencial, el concepto de residuo tiene variantes).

Resumen

  • Error estadístico (ε): diferencia entre el valor observado y el valor verdadero (inobservable). Es la desviación real siguiendo el modelo poblacional.
  • Residuo (e): diferencia entre el valor observado y el valor predicho por el modelo estimado (observable). Es una estimación del error verdadero.
  • Los residuos suelen sumar cero cuando el modelo incluye intercepto, por lo que no son independientes; los errores verdaderos pueden ser independientes en los supuestos del modelo.
  • La varianza de los errores se estima a partir de los residuos, pero hay que corregir por los grados de libertad (n − p) para obtener una estimación insesgada.
  • Uso práctico: los residuos se emplean para diagnósticos de modelo y para estimar la variabilidad, pero siempre considerando las limitaciones que impone el hecho de haber estimado parámetros.

Páginas relacionadas

Preguntas y respuestas

P: ¿Qué se entiende por errores estadísticos y residuales?


R: Los errores estadísticos y los residuales se refieren a la diferencia entre el valor observado o medido y el valor real, que es desconocido.

P: ¿Cómo se puede medir la precisión de una medición?


R: Se puede medir lo mismo una y otra vez, y recopilar todos los datos juntos. Esto nos permite hacer estadísticas sobre los datos para determinar lo precisa que es una medición.

P: ¿Cuál es un ejemplo de error estadístico?


R: Un ejemplo de error estadístico sería si se realizara un experimento para medir la altura de hombres de 21 años de una determinada zona con una media esperada de 1,75 m, pero un hombre elegido al azar midiera 1,80 m; entonces el "error (estadístico)" sería de 0,05 m (5 cm).

P: ¿Cuál es un ejemplo de residuo?


R: Un ejemplo de residuo sería si se realizara un experimento para medir la altura de hombres de 21 años de una determinada zona con una media esperada de 1,75 m, pero un hombre elegido al azar midiera 1,70 m; entonces el residuo (o error de ajuste) sería de -0,05 m (-5 cm).

P: ¿Son los residuales variables independientes?


R: No, la suma de los residuales dentro de una muestra aleatoria debe ser cero, por lo que no son variables independientes.

P: ¿Son los errores estadísticos variables independientes?


R: Sí. La suma de los errores estadísticos dentro de una muestra aleatoria no tiene por qué ser cero, por lo que son variables aleatorias independientes si los individuos se eligen de la población de forma independiente.

P: ¿Es posible realizar mediciones exactas?


R:No, no es posible hacer mediciones exactas porque la medición nunca es exacta

AlegsaOnline.com - 2020 / 2025 - License CC3