Correlación en estadística: definición, direcciones y medidas

Descubre qué es la correlación en estadística, sus direcciones (positiva/negativa), medidas y cómo interpretarla sin confundirla con causalidad.

Autor: Leandro Alegsa

En estadística y teoría de la probabilidad, la correlación se refiere a la relación o dependencia entre dos conjuntos de datos. Más precisamente, mide hasta qué punto los valores de una variable tienden a cambiar cuando cambian los de otra.

Es importante subrayar que la correlación no implica necesariamente causalidad. Dos variables pueden correlacionar porque una causa a la otra, porque una es efecto de la otra, porque existe una relación bidireccional o porque hay un tercer factor (confusor) que influye en ambas. También puede tratarse de una correlación espuria por coincidencia o por errores en la medición.

Direcciones e interpretación

La correlación suele describirse por su dirección y su magnitud:

  • Correlación positiva: cuando los valores de ambas variables tienden a aumentar juntos. En un gráfico de dispersión los puntos forman una nube con pendiente ascendente.
  • Correlación negativa: cuando una variable tiende a aumentar mientras la otra disminuye; la nube de puntos tiene pendiente descendente.
  • Sin correlación lineal: si no hay una relación lineal evidente; puede existir otra relación (por ejemplo, cuadrática) que una medida lineal no detecte.

La dirección no indica causalidad. Además de la dirección, se valora la fuerza de la correlación (qué tan clara o estrecha es la relación).

Medidas comunes de correlación

  • Coeficiente de correlación de Pearson (r): mide la asociación lineal entre dos variables cuantitativas. Varía entre -1 y 1. Valores cercanos a ±1 indican una relación lineal fuerte; 0 indica ausencia de correlación lineal. Requiere ciertas condiciones (linealidad, homocedasticidad y, para inferencia, normalidad de los residuos).
  • Coeficiente de determinación (r²): indica la proporción de varianza de una variable explicada por la otra en un modelo lineal simple (por ejemplo, r = 0.7 → r² = 0.49, es decir 49% de la varianza explicada).
  • Coeficiente de correlación de Spearman (rho): mide la relación monótona usando rangos; es robusto frente a valores atípicos y útil para relaciones no estrictamente lineales.
  • Kendall (tau): otra medida de correlación de rangos, especialmente útil con muestras pequeñas o muchas empates.
  • Coeficientes para variables categóricas: phi, V de Cramer o correlación punto-biserial para medidas mixtas.
  • Otras medidas: correlación parcial (controlando otras variables), correlaciones robustas y medidas modernas como correlación de distancia, que detecta asociaciones no lineales.

Representación gráfica

El gráfico de dispersión es la herramienta básica para explorar correlaciones entre variables numéricas: permite ver la dirección, forma (lineal o no), fuerza y la presencia de outliers que pueden distorsionar medidas como Pearson. A menudo se superpone una línea de mejor ajuste (regresión lineal) para visualizar la tendencia promedio.

Significancia estadística y muestreo

Cuando se calcula una correlación en una muestra, se suele realizar una prueba de hipótesis para determinar si la correlación observada difiere significativamente de cero en la población. El valor p y los intervalos de confianza ayudan a evaluar la incertidumbre. El tamaño de la muestra influye mucho en la capacidad para detectar correlaciones pequeñas: con muestras grandes, correlaciones pequeñas pueden resultar estadísticamente significativas aunque no sean relevantes desde el punto de vista práctico.

Limitaciones y precauciones

  • Correlación ≠ causalidad: siempre considerar la posibilidad de confusores, direccionalidad inversa o variables omitidas.
  • Relaciones no lineales: una correlación de Pearson cercana a cero no implica ausencia de relación; puede existir una relación no lineal que dicha medida no capture.
  • Outliers: valores atípicos pueden inflar o reducir la correlación; conviene inspeccionar y, si procede, usar medidas robustas o transformar los datos.
  • Sesgo por muestreo o medición: errores sistemáticos en la recogida de datos pueden generar correlaciones engañosas.
  • Simpson: la paradoja de Simpson muestra cómo relaciones observadas en subgrupos pueden invertirse en el conjunto agregado.
  • Correlaciones espurias: coincidencias estadísticas o series temporales con tendencias comunes pueden producir correlaciones sin relación causal real.

Consejos prácticos

  • Antes de calcular coeficientes, visualiza los datos con un gráfico de dispersión.
  • Comprueba supuestos (linealidad, homocedasticidad) si vas a usar Pearson; si no se cumplen, considera Spearman o transformaciones.
  • Investiga posibles confusores y calcula correlaciones parciales si es necesario.
  • Reporta no solo el coeficiente, sino también el intervalo de confianza y el tamaño de la muestra.
  • No bases conclusiones causales únicamente en correlaciones; para causalidad usa diseños experimentales o métodos de inferencia causal (variables instrumentales, experimentos aleatorizados, análisis longitudinal).

En resumen, la correlación es una herramienta poderosa para explorar relaciones entre variables, pero su interpretación requiere cuidado: distinguir dirección, magnitud y forma de la asociación, controlar supuestos y considerar alternativas explicativas antes de sacar conclusiones causales.

Este gráfico de dispersión tiene una correlación positiva. Se puede decir porque la tendencia es hacia arriba y hacia la derecha. La línea roja es la línea de mejor ajuste.Zoom
Este gráfico de dispersión tiene una correlación positiva. Se puede decir porque la tendencia es hacia arriba y hacia la derecha. La línea roja es la línea de mejor ajuste.

Explicación de la correlación

Fuerte y débil son palabras utilizadas para describir la correlación. Si la correlación es fuerte, los puntos están muy juntos. Si la correlación es débil, los puntos están separados. Hay formas de hacer que los números muestren lo fuerte que es la correlación. Estas medidas se denominan coeficientes de correlación. El más conocido es el coeficiente de correlación producto-momento de Pearson. Se introducen los datos en una fórmula y se obtiene un número. Si el número es 1 o -1, entonces hay una fuerte correlación. Si la respuesta es 0, entonces no hay correlación. Otro tipo de coeficiente de correlación es el coeficiente de correlación de rango de Spearman.

Correlación frente a causalidad

La correlación no siempre significa que una cosa cause la otra (causalidad), porque otra cosa podría haber causado ambas. Por ejemplo, en los días de calor la gente compra helados, y también va a la playa, donde algunos son devorados por los tiburones. Existe una correlación entre las ventas de helados y los ataques de tiburones (en este caso, ambos aumentan cuando sube la temperatura). Pero el hecho de que las ventas de helados aumenten no significa que las ventas de helados causen (causalidad) más ataques de tiburones o viceversa.

Dado que la correlación no implica causalidad, los científicos, economistas, etc. pondrán a prueba sus teorías creando entornos aislados en los que sólo se modifique un factor (cuando esto sea posible). Sin embargo, los políticos, los vendedores, los medios de comunicación y otros suelen sugerir que una determinada correlación implica causalidad. Esto puede deberse a la ignorancia o al deseo de persuadir. Así, una noticia puede llamar la atención diciendo que las personas que consumen un determinado producto con más frecuencia tienen un determinado problema de salud, dando a entender una causalidad que en realidad podría deberse a otra cosa.

Páginas relacionadas

  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (3ª ed.) Hillsdale, NJ: Lawrence Erlbaum Associates.

Preguntas y respuestas

P: ¿Qué es la correlación?


R: La correlación es una forma de indicar lo estrechamente relacionados que están dos conjuntos de datos.

P: ¿Significa la correlación que un conjunto de datos es la causa del otro?


R: No, la correlación no siempre significa que un conjunto de datos sea la causa del otro. De hecho, a menudo hay un tercer factor implicado.

P: ¿Cuáles son las dos direcciones de la correlación?


R: Las dos direcciones de la correlación son positiva y negativa.

P: ¿Qué significa una correlación positiva?


R: Una correlación positiva significa que los dos conjuntos de datos suben juntos.

P: ¿Qué significa una correlación negativa?


R: Una correlación negativa significa que un conjunto de datos sube mientras que el otro baja.

P: ¿Existen diferentes medidas de correlación?


R: Sí, se utilizan muchas medidas diferentes de correlación para distintas situaciones.

P: ¿Cómo se suele mostrar la dirección de la correlación en un gráfico de dispersión?


R: A menudo se dibuja una línea de mejor ajuste para mostrar la dirección de la correlación en un gráfico de dispersión.


Buscar dentro de la enciclopedia
AlegsaOnline.com - 2020 / 2025 - License CC3