En estadística, una muestra es parte de una población. La muestra se elige cuidadosamente: debe representar a toda la población de forma justa, sin sesgos, para que las conclusiones que obtengamos sean válidas y transferibles al conjunto.
Cuando se trata como un conjunto de datos, una muestra suele representarse con letras mayúsculas como e
, y sus elementos se representan en minúsculas (por ejemplo,
), y el tamaño de la muestra se representa con la letra
.
La razón por la que se necesitan muestras es que las poblaciones pueden ser tan grandes que contar o medir todos los individuos puede no ser posible, práctico o económico. Por ello, la resolución de un problema en estadística suele comenzar con el muestreo. El muestreo consiste en elegir los datos que se tomarán para su posterior análisis. Por ejemplo, para estudiar la contaminación de un lago se toman muestras de agua en distintos puntos: dependiendo de los puntos de muestreo los resultados del estudio pueden variar significativamente.
Como regla general, las muestras deben ser aleatorias. Esto significa que la posibilidad o probabilidad de seleccionar un individuo es la misma que la de seleccionar cualquier otro, o bien que el proceso de selección está definido de forma que no favorece sistemáticamente a ciertos elementos.
Muestreo: procedimiento y sesgos
En la práctica, las muestras aleatorias se obtienen mediante un procedimiento bien definido. Un procedimiento es un conjunto de reglas o una secuencia de pasos escritos y seguidos con exactitud (por ejemplo, generar números aleatorios para seleccionar individuos). Aun así, puede quedar algún sesgo en la muestra. Consideremos el diseño de una muestra para predecir el resultado de una encuesta electoral. Todos los métodos conocidos tienen sus limitaciones, y los resultados finales suelen diferir de las predicciones basadas en una muestra.
Si se recogen opiniones por teléfono o preguntando en la calle, no se incluirán a personas que no responden llamadas o que no frecuentan la vía pública, lo que introduce un sesgo de cobertura. Por lo tanto, en estos casos nunca es posible una muestra completamente neutral. Un estadístico pensará en cómo medir la cantidad de sesgo y en formas de estimarlo o corregirlo (p. ej., ponderación, ajuste por no respuesta).
Errores y tipos de incertidumbre
Hay dos grandes familias de errores que afectan a las muestras:
- Error de muestreo: Variación debida al hecho de estudiar solo una parte de la población. Incluso si el muestreo es perfecto, diferentes muestras producirán estimaciones diferentes. Este error se reduce aumentando el tamaño de la muestra y se cuantifica mediante la distribución muestral, la desviación estándar de la estimación y el intervalo de confianza.
- Error no muestral: Incluye sesgos de medición, errores en la recolección de datos, no respuestas, errores de cobertura y problemas en el diseño de la encuesta. Estos errores no se corrigen simplemente aumentando n y suelen ser más difíciles de cuantificar.
Un ejemplo de error de medición se da cuando los científicos miden una propiedad física, por ejemplo el peso de un trozo de metal o la velocidad de la luz. Ningún sistema de medición es perfecto: obtendremos una serie de lecturas (muestras) con cierto grado de error. La estadística describe estos errores y permite estimar la incertidumbre asociada a las mediciones.
Tipos de muestreo (resumen y cuándo usarlos)
- Muestreo aleatorio simple: Cada individuo de la población tiene la misma probabilidad de ser seleccionado. Es fácil de entender y sirve como referencia teórica, pero requiere un marco muestral completo.
- Muestreo sistemático: Se selecciona cada k-ésimo elemento de una lista ordenada. Es sencillo y eficiente, pero puede introducir sesgos si hay patrones en la lista.
- Muestreo estratificado: La población se divide en estratos (grupos) homogéneos y se toma una muestra aleatoria dentro de cada estrato. Mejora la precisión cuando existen diferencias entre estratos (p. ej., edad, región).
- Muestreo por conglomerados (clusters): Se divide la población en grupos naturales (conglomerados), se seleccionan algunos conglomerados al azar y se muestrea dentro de ellos. Es práctico cuando la lista completa de individuos no está disponible pero sí la de conglomerados (p. ej., escuelas, manzanas).
- Muestreo por conveniencia: Se eligen los individuos más accesibles. Es barato y rápido, pero suele generar sesgos importantes y no permite generalizaciones fiables.
- Muestreo por cuotas: Se seleccionan individuos hasta completar cuotas definidas por características (p. ej., 50% hombres, 50% mujeres). Intenta imitar la composición de la población, pero si la selección dentro de la cuota no es aleatoria puede introducir sesgo.
Tamaño de la muestra y precisión
El tamaño de la muestra () determina la precisión de las estimaciones: a mayor n, menor error de muestreo y más estrechos los intervalos de confianza, siempre que el muestreo sea apropiado. El cálculo de n depende de la variabilidad de la característica estudiada, el nivel de confianza deseado y la precisión (margen de error) aceptable. En encuestas se usa con frecuencia la fórmula basada en la proporción esperada y la z de la distribución normal para obtener n aproximada.
Cómo diseñar una muestra robusta
- Definir claramente la población objetivo (quiénes están incluidos y quiénes no).
- Elegir un método de muestreo adecuado según recursos y objetivos (aleatorio simple, estratificado, por conglomerados, etc.).
- Determinar el tamaño de la muestra necesario según la precisión deseada y la variabilidad prevista.
- Aplicar procedimientos estandarizados de recolección para reducir errores de medición.
- Controlar y documentar tasas de no respuesta y cobertura; aplicar ajustes (p. ej., ponderación) si procede.
- Realizar análisis de sensibilidad y, si es posible, repetir muestreos o validar con fuentes externas.
Ejemplos prácticos
- Encuestas electorales: combinar muestreo estratificado para asegurar representación por región/edad y ajustes por tasas de respuesta puede mejorar la validez de la predicción, aunque siempre existirán fuentes de incertidumbre.
- Estudio de contaminación de un lago: diseñar una red de muestreo que cubra distintos puntos (superficie, profundidad, entrada de afluentes) y repetir las mediciones en el tiempo para estimar variaciones y tendencias.
- Mediciones de laboratorio: tomar varias réplicas, calibrar equipos y estimar la desviación estándar de las mediciones para cuantificar la incertidumbre.
Conclusión
El muestreo es la base de la estadística aplicada: permite inferir sobre poblaciones a partir de una parte de ellas. Un buen diseño muestral y una gestión cuidadosa de los errores (tanto de muestreo como no muestrales) son esenciales para obtener conclusiones fiables. Cuando se conoce la naturaleza y magnitud de los errores, las técnicas estadísticas permiten estimar la incertidumbre y, en muchos casos, corregir o ajustar los resultados para aproximarlos a la realidad.

