Coeficiente rho de Spearman: qué es y cómo calcularlo

Descubre qué es el coeficiente rho de Spearman, cómo calcularlo paso a paso, su fórmula y ejemplos prácticos para medir la correlación entre rangos.

Autor: Leandro Alegsa

En matemáticas y estadística, el coeficiente de correlación de rango de Spearman es una medida de correlación, que lleva el nombre de su creador, Charles Spearman. Se escribe de forma abreviada como la letra griega rho ( ρ {\displaystyle \rho } {\displaystyle \rho }) o a veces como r s {\displaystyle r_{s}}. {\displaystyle r_{s}}. Es un número que muestra el grado de vinculación de dos conjuntos de datos. Sólo puede utilizarse para datos que puedan ordenarse, por ejemplo, de mayor a menor.

La fórmula general de r s {\displaystyle r_{s}}{\displaystyle r_{s}} es ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{cfrac {6\sum d^{2}}{n(n^{2}-1)}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Por ejemplo, si se tienen datos sobre el precio de los distintos ordenadores y sobre la velocidad de los mismos, se puede ver si están vinculados, y con qué grado de vinculación, mediante r s {displaystyle r_{s}}. {\displaystyle r_{s}}.

Qué mide y cómo se interpreta

  • Qué mide: Spearman mide la fuerza y dirección de una relación monótona entre dos variables. Es decir, si cuando una variable aumenta la otra tiende a aumentar (o disminuir) de forma consistente, aunque no necesariamente lineal.
  • Rango de valores: ρ varía entre −1 y +1:
    • ρ = +1: correlación monótona perfectamente positiva (los rangos coinciden exactamente).
    • ρ = −1: correlación monótona perfectamente negativa (los rangos están exactamente invertidos).
    • ρ ≈ 0: no hay una relación monótona aparente.
  • Diferencia con Pearson: Pearson mide correlación lineal entre valores crudos; Spearman usa los rangos y detecta relaciones monótonas, incluso si no son lineales.

Fórmula y variables

La fórmula más utilizada cuando no hay empates es:

ρ = 1 - (6 · Σ d²) / [n (n² − 1)]

  • d = diferencia entre los rangos de cada par de observaciones (rango de X − rango de Y).
  • n = número de pares de observaciones.
  • Σ d² = suma de los cuadrados de esas diferencias.

Cálculo paso a paso (ejemplo sencillo)

  1. Asigna rangos a cada variable (1 al mayor o al menor, según convenga; lo importante es la consistencia). Si hay empates, asigna el rango promedio a los valores empatados (ver sección de empates).
  2. Calcula, para cada observación, la diferencia d entre ambos rangos y eleva al cuadrado d².
  3. Suma todos los d² para obtener Σ d².
  4. Aplica la fórmula ρ = 1 − (6 Σ d²) / [n (n² − 1)].

Ejemplo práctico (n = 5):

  • Velocidad (GHz): 4.0, 3.5, 3.0, 2.5, 1.8 → Rangos (1,2,3,4,5) donde 1 = mayor.
  • Precio (€): 600, 500, 450, 400, 300 → Rangos (1,2,3,4,5).

Las órdenes coinciden exactamente, por lo que d = 0 para cada par, Σ d² = 0 y ρ = 1 − 0 = 1 (correlación monótona perfecta positiva).

Tratamiento de empates

Cuando hay empates (valores iguales en una variable), se asigna a cada valor empatado el rango promedio de las posiciones que ocuparían. Por ejemplo, si dos observaciones ocuparían los puestos 2 y 3, a ambas se les asigna el rango (2+3)/2 = 2.5.

En presencia de empates la fórmula simple con 6Σd²/(n(n²−1)) sigue dando una aproximación razonable, pero para mayor exactitud se puede calcular ρ como el coeficiente de correlación de Pearson entre los rangos (es decir, calcular los rangos con ajustes por empates y luego aplicar la fórmula de Pearson sobre esos rangos). Los paquetes estadísticos suelen aplicar los ajustes necesarios al calcular el valor p y el estadístico.

Pruebas de significación

  • Para evaluar si ρ difiere significativamente de cero se usa una prueba de hipótesis. Para muestras pequeñas existen tablas o pruebas exactas; para muestras grandes se puede aproximar mediante una distribución t o usar la aproximación normal.
  • En la práctica, la mayoría de software devuelve un valor p asociado (por ejemplo, cor.test en R o scipy.stats.spearmanr en Python).

Cómo calcularlo con software

  • R: cor.test(x, y, method = "spearman") o cor(x, y, method = "spearman") para solo el coeficiente.
  • Python (SciPy): from scipy import stats; stats.spearmanr(x, y) devuelve ρ y p-valor.
  • Excel: no tiene función directa de Spearman; se obtienen los rangos con RANK.AVG o RANK.EQ y luego se calcula la correlación de Pearson entre los rangos con la función =PEARSON(rangosX, rangosY) o =CORREL(rangosX, rangosY).

Usos y limitaciones

  • Útil cuando los datos son ordinales o cuando la relación puede ser monótona pero no lineal.
  • No requiere distribución normal de las variables.
  • Menos sensible a valores extremos (outliers) que Pearson, porque usa rangos.
  • Sin embargo, si la relación no es monótona (por ejemplo, en forma de U), Spearman puede dar ρ cercano a cero aunque exista dependencia.
  • Con muchos empates la potencia de la prueba disminuye y la interpretación se complica; en esos casos conviene considerar métodos alternativos.

Resumen

El coeficiente rho de Spearman es una medida robusta y sencilla para cuantificar la asociación monótona entre dos variables ordenables. Se calcula a partir de los rangos de los datos y toma valores entre −1 y +1. Es apropiado cuando los datos son ordinales o cuando no se cumple la suposición de linealidad exigida por Pearson; no obstante, hay que prestar atención a empates y a la forma concreta de la relación entre variables.

Trabajando en ello

Primer paso

Para calcular r s {\displaystyle r_{s}}{\displaystyle r_{s}}, primero hay que clasificar cada dato. Vamos a utilizar el ejemplo de la introducción de los ordenadores y su velocidad.

Así, el ordenador con el precio más bajo tendría el rango 1. El más alto tendría el 2. Luego, se va subiendo hasta que todo esté clasificado. Tienes que hacer esto con ambos conjuntos de datos.

PC

Precio ($)

R a n k 1 {\displaystyle Rank_{1}} {\displaystyle Rank_{1}}

Velocidad (GHz)

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

A

200

1

1.80

2

B

275

2

1.60

1

C

300

3

2.20

4

D

350

4

2.10

3

E

600

5

4.00

5

Segundo paso

A continuación, hay que encontrar la diferencia entre los dos rangos. Luego, se multiplica la diferencia por sí misma, lo que se llama elevar al cuadrado. La diferencia se llama d {\displaystyle d} {\displaystyle d}, y el número que se obtiene al cuadrar d {\displaystyle d} se {\displaystyle d}llama d 2 {\displaystyle d^{2}}. {\displaystyle d^{2}}.

R a n k 1 {\displaystyle Rank_{1}} {\displaystyle Rank_{1}}

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

d {\diseño d} {\displaystyle d}

d 2 {\displaystyle d^{2}} {\displaystyle d^{2}}

1

2

-1

1

2

1

1

1

3

4

-1

1

4

3

1

1

5

5

0

0

Tercer paso

Contar la cantidad de datos que tenemos. Estos datos tienen rangos del 1 al 5, por lo que tenemos 5 datos. Este número se llama n {desde luego n} n.

Cuarto paso

Por último, utilice todo lo que hemos trabajado hasta ahora en esta fórmula: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}} {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

∑ d 2 {\displaystyle \sum d^{2}}{\displaystyle \sum d^{2}} significa que tomamos el total de todos los números que estaban en la columna d 2 {\displaystyle d^{2}}. {\displaystyle d^{2}}. Esto es porque ∑ {\displaystyle \sum } {\displaystyle \sum }significa total.

Entonces, ∑ d 2 {\displaystyle \sum d^{2}}{\displaystyle \sum d^{2}} es 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1}{\displaystyle 1+1+1+1} que es 4. La fórmula dice que se multiplique por 6, que es 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} {\displaystyle n(n^{2}-1)}es 5 × ( 25 - 1 ) {\displaystyle 5\times (25-1)} {\displaystyle 5\times (25-1)}que es 120.

Así que, para encontrar r s {\displaystyle r_{s}} {\displaystyle r_{s}}simplemente hacemos 1 - 24 120 = 0,8 {{displaystyle 1-{cfrac {24}{120}}=0,8}}. {\displaystyle 1-{\cfrac {24}{120}}=0.8}

Por lo tanto, el coeficiente de correlación de rango de Spearman es de 0,8 para este conjunto de datos.

Qué significan los números

r s {\displaystyle r_{s}}{\displaystyle r_{s}} siempre da una respuesta entre -1 y 1. Los números intermedios son como una escala, donde -1 es un vínculo muy fuerte, 0 es ningún vínculo, y 1 es también un vínculo muy fuerte. La diferencia entre 1 y -1 es que 1 es una correlación positiva, y -1 es una correlación negativa. Un gráfico de datos con un {\displaystyle r_{s}}valor de r s de -1 se parecería al gráfico mostrado, excepto que la línea y los puntos irían de arriba a la izquierda.

Por ejemplo, para los datos que hicimos anteriormente, r s {\displaystyle r_{s}}{\displaystyle r_{s}} fue de 0,8. Esto significa que hay una correlación positiva. Debido a que está cerca de 1, significa que el vínculo es fuerte entre los dos conjuntos de datos. Por lo tanto, podemos decir que esos dos conjuntos de datos están vinculados, y suben juntos. Si fuera -0,8, podríamos decir que están vinculados y que cuando uno sube, el otro baja.

Zoom

Este gráfico de dispersión tiene una correlación positiva. El valor de r s {displaystyle r_{s}}{\displaystyle r_{s}} estaría cerca de 1 o 0,9. La línea roja es una línea de mejor ajuste.

Si dos números son iguales

A veces, al clasificar los datos, hay dos o más números que son iguales. Cuando esto ocurre en r s {\displaystyle r_{s}} {\displaystyle r_{s}}se toma la media o el promedio de los rangos que son iguales. Esto se llama rangos empatados. Para ello, clasificamos los números empatados como si no lo estuvieran. A continuación, sumamos todos los rangos que tendrían y los dividimos entre el número de ellos. Por ejemplo, digamos que clasificamos el rendimiento de diferentes personas en un examen de ortografía.

Puntuación de la prueba

Rango

Rango (con empate)

4

1

1

6

2

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

3

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

4

2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

8

5

5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

8

6

5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

Estos números se utilizan exactamente igual que los rangos normales.

Páginas relacionadas

Preguntas y respuestas

P: ¿Qué es el coeficiente de correlación de rangos de Spearman?


R: El coeficiente de correlación de rangos de Spearman es una medida de correlación que muestra lo estrechamente relacionados que están dos conjuntos de datos. Sólo puede utilizarse para datos que puedan ordenarse, como de mayor a menor.

P: ¿Quién creó el coeficiente de correlación de rango de Spearman?


R: Charles Spearman creó el coeficiente de correlación de rangos de Spearman.

P: ¿Cómo se escribe la fórmula general del coeficiente de correlación de rangos de Spearman?


R: La fórmula general del coeficiente de correlación de rangos de Spearman se escribe como ρ = 1 - 6∑d2/n(n2-1).

P: ¿Cuándo debe utilizar el coeficiente de correlación de rango de Spearman?


R: Debe utilizar el coeficiente de correlación de rangos de Spearman cuando desee ver lo estrechamente relacionados que están dos conjuntos de datos y si lo están en absoluto.

P: ¿Con qué tipo de datos funciona?


R: Funciona con cualquier tipo de datos que puedan ordenarse, como de mayor a menor.

P: ¿Puede dar un ejemplo en el que utilizaría esta medida?



R: Un ejemplo en el que utilizaría esta medida podría ser si tiene datos sobre lo caros que son los diferentes ordenadores, y datos sobre lo rápidos que son los ordenadores, entonces podría ver si están vinculados, y lo estrechamente vinculados que están utilizando r_s.


Buscar dentro de la enciclopedia
AlegsaOnline.com - 2020 / 2025 - License CC3