En matemáticas y estadística, el coeficiente de correlación de rango de Spearman es una medida de correlación, que lleva el nombre de su creador, Charles Spearman. Se escribe de forma abreviada como la letra griega rho ( ρ {\displaystyle \rho } ) o a veces como r s {\displaystyle r_{s}}.
. Es un número que muestra el grado de vinculación de dos conjuntos de datos. Sólo puede utilizarse para datos que puedan ordenarse, por ejemplo, de mayor a menor.
La fórmula general de r s {\displaystyle r_{s}} es ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{cfrac {6\sum d^{2}}{n(n^{2}-1)}}
.
Por ejemplo, si se tienen datos sobre el precio de los distintos ordenadores y sobre la velocidad de los mismos, se puede ver si están vinculados, y con qué grado de vinculación, mediante r s {displaystyle r_{s}}. .
Qué mide y cómo se interpreta
- Qué mide: Spearman mide la fuerza y dirección de una relación monótona entre dos variables. Es decir, si cuando una variable aumenta la otra tiende a aumentar (o disminuir) de forma consistente, aunque no necesariamente lineal.
- Rango de valores: ρ varía entre −1 y +1:
- ρ = +1: correlación monótona perfectamente positiva (los rangos coinciden exactamente).
- ρ = −1: correlación monótona perfectamente negativa (los rangos están exactamente invertidos).
- ρ ≈ 0: no hay una relación monótona aparente.
- Diferencia con Pearson: Pearson mide correlación lineal entre valores crudos; Spearman usa los rangos y detecta relaciones monótonas, incluso si no son lineales.
Fórmula y variables
La fórmula más utilizada cuando no hay empates es:
ρ = 1 - (6 · Σ d²) / [n (n² − 1)]
- d = diferencia entre los rangos de cada par de observaciones (rango de X − rango de Y).
- n = número de pares de observaciones.
- Σ d² = suma de los cuadrados de esas diferencias.
Cálculo paso a paso (ejemplo sencillo)
- Asigna rangos a cada variable (1 al mayor o al menor, según convenga; lo importante es la consistencia). Si hay empates, asigna el rango promedio a los valores empatados (ver sección de empates).
- Calcula, para cada observación, la diferencia d entre ambos rangos y eleva al cuadrado d².
- Suma todos los d² para obtener Σ d².
- Aplica la fórmula ρ = 1 − (6 Σ d²) / [n (n² − 1)].
Ejemplo práctico (n = 5):
- Velocidad (GHz): 4.0, 3.5, 3.0, 2.5, 1.8 → Rangos (1,2,3,4,5) donde 1 = mayor.
- Precio (€): 600, 500, 450, 400, 300 → Rangos (1,2,3,4,5).
Las órdenes coinciden exactamente, por lo que d = 0 para cada par, Σ d² = 0 y ρ = 1 − 0 = 1 (correlación monótona perfecta positiva).
Tratamiento de empates
Cuando hay empates (valores iguales en una variable), se asigna a cada valor empatado el rango promedio de las posiciones que ocuparían. Por ejemplo, si dos observaciones ocuparían los puestos 2 y 3, a ambas se les asigna el rango (2+3)/2 = 2.5.
En presencia de empates la fórmula simple con 6Σd²/(n(n²−1)) sigue dando una aproximación razonable, pero para mayor exactitud se puede calcular ρ como el coeficiente de correlación de Pearson entre los rangos (es decir, calcular los rangos con ajustes por empates y luego aplicar la fórmula de Pearson sobre esos rangos). Los paquetes estadísticos suelen aplicar los ajustes necesarios al calcular el valor p y el estadístico.
Pruebas de significación
- Para evaluar si ρ difiere significativamente de cero se usa una prueba de hipótesis. Para muestras pequeñas existen tablas o pruebas exactas; para muestras grandes se puede aproximar mediante una distribución t o usar la aproximación normal.
- En la práctica, la mayoría de software devuelve un valor p asociado (por ejemplo, cor.test en R o scipy.stats.spearmanr en Python).
Cómo calcularlo con software
- R: cor.test(x, y, method = "spearman") o cor(x, y, method = "spearman") para solo el coeficiente.
- Python (SciPy): from scipy import stats; stats.spearmanr(x, y) devuelve ρ y p-valor.
- Excel: no tiene función directa de Spearman; se obtienen los rangos con RANK.AVG o RANK.EQ y luego se calcula la correlación de Pearson entre los rangos con la función =PEARSON(rangosX, rangosY) o =CORREL(rangosX, rangosY).
Usos y limitaciones
- Útil cuando los datos son ordinales o cuando la relación puede ser monótona pero no lineal.
- No requiere distribución normal de las variables.
- Menos sensible a valores extremos (outliers) que Pearson, porque usa rangos.
- Sin embargo, si la relación no es monótona (por ejemplo, en forma de U), Spearman puede dar ρ cercano a cero aunque exista dependencia.
- Con muchos empates la potencia de la prueba disminuye y la interpretación se complica; en esos casos conviene considerar métodos alternativos.
Resumen
El coeficiente rho de Spearman es una medida robusta y sencilla para cuantificar la asociación monótona entre dos variables ordenables. Se calcula a partir de los rangos de los datos y toma valores entre −1 y +1. Es apropiado cuando los datos son ordinales o cuando no se cumple la suposición de linealidad exigida por Pearson; no obstante, hay que prestar atención a empates y a la forma concreta de la relación entre variables.