Intervalo de confianza

En estadística, un intervalo de confianza es una forma especial de estimar un determinado parámetro. Con este método, se da un intervalo completo de valores aceptables para el parámetro en lugar de un único valor, junto con una probabilidad de que el valor real (desconocido) del parámetro se encuentre en el intervalo. El intervalo de confianza se basa en las observaciones de una muestra y, por tanto, difiere de una muestra a otra. La probabilidad de que el parámetro se encuentre en el intervalo se denomina nivel de confianza. Muy a menudo, se indica en forma de porcentaje. El intervalo de confianza siempre se indica junto con el nivel de confianza. Se puede hablar del "intervalo de confianza del 95%". Los puntos finales del intervalo de confianza se denominan límites de confianza. Para un procedimiento de estimación dado en una situación determinada, cuanto más alto sea el nivel de confianza, más amplio será el intervalo de confianza.

El cálculo de un intervalo de confianza suele requerir suposiciones sobre la naturaleza del proceso de estimación: se trata principalmente de un método paramétrico. Un supuesto común es que la distribución de la población de la que procede la muestra es normal. Como tal, los intervalos de confianza, tal y como se analizan a continuación, no son estadísticas robustas, aunque se pueden realizar cambios para añadir robustez.

Significado del término "confianza"

El término confianza tiene un significado similar en estadística, como en el uso común. En el uso común, una afirmación del 95% de confianza en algo se toma normalmente como una indicación de certeza virtual. En estadística, una afirmación del 95% de confianza significa simplemente que el investigador ha visto un intervalo posible de un gran número de posibles, de los cuales diecinueve de veinte intervalos contienen el verdadero valor del parámetro.

Ejemplo práctico

A factory assembly line fills margarine cups to a desired 250g +/- 5g

Una máquina llena tazas con margarina. En el ejemplo, la máquina se ajusta para que el contenido de los vasos sea de 250 g de margarina. Como la máquina no puede llenar cada vaso exactamente con 250g, el contenido añadido a los vasos individuales muestra cierta variación, y se considera una variable aleatoria X. Se supone que esta variación se distribuye normalmente alrededor de la media deseada de 250g, con una desviación estándar de 2,5g. Para determinar si la máquina está adecuadamente calibrada, se elige al azar una muestra de n = 25 vasos de margarina y se pesan los vasos. Los pesos de la margarina son X 1, ..., X 25, una muestra aleatoria de X.

Para tener una impresión de la expectativa μ, basta con dar una estimación. El estimador adecuado es la media muestral:

μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\hat {\mu }}={barra {X}}={frac {1}{n}}suma _{i=1}^{n}X_{i}. } {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.}

La muestra muestra los pesos reales x 1, ...,x 25, con la media:

x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 gramos . {\displaystyle {\bar {x}}={\frac {1}{25}}suma _{i=1}^{25}x_{i}=250,2{\text}}. } {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}.}

Si tomamos otra muestra de 25 tazas, podríamos esperar fácilmente encontrar valores como 250,4 o 251,1 gramos. Sin embargo, un valor medio de la muestra de 280 gramos sería extremadamente raro si el contenido medio de las tazas se aproxima de hecho a los 250 gramos. Existe todo un intervalo en torno al valor observado de 250,2 de la media muestral dentro del cual, si la media de toda la población toma realmente un valor en este rango, los datos observados no se considerarían especialmente inusuales. Dicho intervalo se denomina intervalo de confianza para el parámetro μ. ¿Cómo calculamos dicho intervalo? Los puntos finales del intervalo deben calcularse a partir de la muestra, por lo que son estadísticos, funciones de la muestra X 1, ..., X 25y, por tanto, variables aleatorias en sí mismas.

En nuestro caso podemos determinar los puntos finales considerando que la media muestral X de una muestra normalmente distribuida también lo está, con la misma expectativa μ, pero con error estándar σ/√n = 0,5 (gramos). Al estandarizar obtenemos una variable aleatoria

Z = X ¯ - μ σ / n = X ¯ - μ 0,5 {\displaystyle Z={{frac {{barra {X}}-\mu }{sigma /{cuadrado {n}}}}={frac {{barra {X}}-\mu }{0,5}} {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}

dependiente del parámetro μ a estimar, pero con una distribución normal estándar independiente del parámetro μ. Por lo tanto, es posible encontrar números -z y z, independientes de μ, en los que Z se encuentra entre ambos con probabilidad 1 - α, una medida de la confianza que queremos tener. Tomamos 1 - α = 0,95. Así que tenemos:

P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95,} {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95.\,}

El número z se deduce de la función de distribución acumulativa:

Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{tfrac {{alpha }{2}}=0,975,\\\\tfrac[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0,975)=1,96,\end{aligned}} {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}

y obtenemos:

0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X ¯ - μ σ / n ≤ 1,96 ) = P ( X ¯ - 1,96 σ n ≤ μ ≤ X ¯ + 1.96 σ n ) = P ( X ¯ - 1,96 × 0,5 ≤ μ ≤ X ¯ + 1,96 × 0,5 ) = P ( X ¯ - 0,98 ≤ μ ≤ X ¯ + 0,98 ) . {\displaystyle {\begin{aligned}0,95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1,96\leq {\frac {{barra {X}}-\mu }{sigma /{\sqrt {n}}}}\leq 1.96\a la derecha)&=P\a la izquierda({{barra {X}}-1,96{frac {{sigma}} {{cuadrado {n}}leq \a la barra {X}}+1.96 {\frac {\sigma}{cuadrado {n}}derecha)&=P\left({barra {X}}-1,96\times 0,5\leq \mu \leq {barra {X}+1.96 veces 0,5 a la derecha). {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}

Esto podría interpretarse como: con probabilidad 0,95 encontraremos un intervalo de confianza en el que nos encontraremos con el parámetro μ entre los puntos finales estocásticos

X ¯ - 0 . 98 {\displaystyle {\bar {X}}-0{.}\\a},} {\displaystyle {\bar {X}}-0{.}98\,}

y

X ¯ + 0.98. {\displaystyle {\bar {X}}+0,98,} {\displaystyle {\bar {X}}+0.98.\,}

Esto no significa que haya un 0,95 de probabilidad de encontrar el parámetro μ en el intervalo calculado. Cada vez que se repitan las mediciones, habrá otro valor para la media X de la muestra. En el 95% de los casos μ estará entre los puntos finales calculados a partir de esta media, pero en el 5% de los casos no lo estará. El intervalo de confianza real se calcula introduciendo los pesos medidos en la fórmula. Nuestro intervalo de confianza del 0,95 se convierte en:

( x ¯ - 0,98 ; x ¯ + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,} {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}

Como el valor deseado 250 de μ está dentro del intervalo de confianza resultante, no hay razón para creer que la máquina está mal calibrada.

El intervalo calculado tiene puntos finales fijos, donde μ puede estar en medio (o no). Por lo tanto, este evento tiene una probabilidad de 0 o 1. No podemos decir: "con probabilidad (1 - α) el parámetro μ se encuentra en el intervalo de confianza". Sólo sabemos que por repetición en el 100(1 - α) % de los casos μ estará en el intervalo calculado. Sin embargo, en el 100α % de los casos no lo está. Y desgraciadamente no sabemos en cuál de los casos ocurre esto. Por eso decimos: "con un nivel de confianza del 100(1 - α) %, μ se encuentra en el intervalo de confianza. "

La figura de la derecha muestra 50 realizaciones de un intervalo de confianza para una media poblacional dada μ. Si elegimos al azar una realización, la probabilidad es del 95% de que acabemos eligiendo un intervalo que contenga el parámetro; sin embargo, podemos tener mala suerte y haber elegido el equivocado. Nunca lo sabremos; nos quedamos con nuestro intervalo.

Los segmentos de líneas verticales representan 50 realizaciones de un intervalo de confianza para μ.Zoom
Los segmentos de líneas verticales representan 50 realizaciones de un intervalo de confianza para μ.

Preguntas y respuestas

P: ¿Qué es un intervalo de confianza en estadística?


R: Un intervalo de confianza es un intervalo especial que se utiliza para estimar un parámetro, como la media de la población, dando un rango de valores aceptables para el parámetro en lugar de un valor único.

P: ¿Por qué se utiliza un intervalo de confianza en lugar de un valor único?


R: Se utiliza un intervalo de confianza en lugar de un valor único para tener en cuenta la incertidumbre de estimar un parámetro basándose en una muestra, y para dar una probabilidad de que el valor real del parámetro se encuentre dentro del intervalo.

P: ¿Qué es un nivel de confianza?


R: Un nivel de confianza es la probabilidad de que el parámetro que se está estimando se encuentre dentro del intervalo de confianza, y a menudo se da en forma de porcentaje (por ejemplo, intervalo de confianza del 95%).

P: ¿Qué son los límites de confianza?


R: Los límites de confianza son los puntos finales de un intervalo de confianza, que definen el rango de valores aceptables para el parámetro que se está estimando.

P: ¿Cómo afecta el nivel de confianza al intervalo de confianza?


R: En un procedimiento de estimación determinado, cuanto mayor sea el nivel de confianza, más amplio será el intervalo de confianza.

P: ¿Qué supuestos son necesarios para calcular un intervalo de confianza?


R: El cálculo de un intervalo de confianza suele requerir supuestos sobre la naturaleza del proceso de estimación, como el supuesto de que la distribución de la población de la que procede la muestra es normal.

P: ¿Son los intervalos de confianza estadísticas robustas?


R: Los intervalos de confianza, como se explica a continuación, no son estadísticas robustas, aunque se pueden hacer ajustes para añadir robustez.

AlegsaOnline.com - 2020 / 2023 - License CC3