La ley de Zipf es una ley empírica, formulada mediante la estadística matematica, que lleva el nombre del lingüista George Kingsley Zipf, quien la propuso por primera vez.

La ley de Zipf establece que, dada una gran muestra de palabras utilizadas, la frecuencia de cualquier palabra es inversamente proporcional a su rango en la tabla de frecuencias. Así, la palabra número n tiene una frecuencia proporcional a 1/n.

Así, la palabra más frecuente aparecerá aproximadamente dos veces más que la segunda palabra más frecuente, tres veces más que la tercera palabra más frecuente, etc. Por ejemplo, en una muestra de palabras del idioma inglés, la palabra más frecuente, "the", representa casi el 7% de todas las palabras (69.971 de algo más de un millón). Siguiendo la ley de Zipf, la palabra "of", que ocupa el segundo lugar, representa algo más del 3,5% de las palabras (36.411 apariciones), seguida de "and" (28.852). Sólo se necesitan unas 135 palabras para dar cuenta de la mitad de las palabras de una muestra grande.

La misma relación se da en muchas otras clasificaciones, no relacionadas con la lengua, como los rangos de población de las ciudades de varios países, el tamaño de las empresas, los rankings de ingresos, etc. La aparición de la distribución en los rankings de ciudades por población fue advertida por primera vez por Felix Auerbach en 1913.

No se sabe por qué la ley de Zipf se mantiene para la mayoría de las lenguas.

Forma matemática y variantes

En forma general, la ley de Zipf se expresa como f(r) ∝ 1 / r^s, donde f(r) es la frecuencia del elemento con rango r y s es un exponente. En muchos fenómenos observados (especialmente en palabras) s es cercano a 1, lo que lleva a la regla simple f(r) ≈ C / r con una constante de normalización C.

Una variante práctica es la ley de Zipf–Mandelbrot, que añade un corrimiento para ajustar mejor los extremos: f(r) = C / (r + q)^s. Esta forma corrige desviaciones frecuentes en los rangos más altos (palabras o ciudades más frecuentes/grandes).

Ejemplos y alcance

  • Lenguas: casi todas las lenguas naturales muestran una distribución aproximada de Zipf para las frecuencias de palabras, aunque los parámetros pueden variar según corpus y tokenización.
  • Ciudades: los tamaños de población ordenados por rango suelen seguir una ley de potencias parecida; cuando el exponente es 1 se habla a menudo de la "ley de Zipf para ciudades".
  • Empresas e ingresos: el tamaño de empresas (empleo, ingresos) y la distribución de ingresos/riqueza muestran colas pesadas similares a las predichas por leyes de potencias.
  • Otras áreas: frecuencias de apellidos, visitas a sitios web, grados en redes complejas y en algunos fenómenos naturales aparecen distribuciones relacionadas.

Por qué aparece: teorías y modelos

No hay una única explicación universal aceptada; distintas teorías describen cómo pueden surgir leyes de potencias y, por tanto, Zipf:

  • Principio del esfuerzo: Zipf propuso una explicación basada en un equilibrio entre el esfuerzo del emisor (hablante) por usar pocas palabras y el esfuerzo del receptor por distinguir significados —un compromiso que produce una distribución desigual de frecuencias.
  • Modelos de crecimiento preferencial (Simon, Yule): procesos en los que "lo que es popular tiende a volverse más popular" (preferential attachment) generan distribuciones de tipo potencias.
  • Modelos aleatorios y de fragmentación: mecanismos multiplicativos y procesos estocásticos con retroalimentación pueden producir colas pesadas.
  • Optimización de la información: enfoques desde la teoría de la información y la compresión muestran que ciertos equilibrios entre redundancia y eficiencia conducen a distribuciones cercanas a Zipf.

Limitaciones y cuándo no se cumple exactamente

  • La ley es empírica: suele ajustarse de forma aproximada, sobre todo en el rango medio de los datos. Los extremos (primeros rangos y la cola larga) con frecuencia presentan desviaciones.
  • El ajuste depende del tamaño y la limpieza del corpus o de los datos: tokenización, eliminación de signos, lenguaje técnico, corpus muy pequeños, etc., influyen mucho.
  • Hay fenómenos que presentan potencias con exponentes distintos de 1 o no siguen una ley de potencias en absoluto; por eso es importante estimar parámetros y comprobar el ajuste estadísticamente.

Cómo se prueba y mide

Para verificar Zipf en un conjunto de datos se suelen emplear:

  • Gráficas en escala log-log de rango vs. frecuencia: una recta indica una ley de potencias; la pendiente aproxima −s.
  • Métodos estadísticos más rigurosos: estimación por máxima verosimilitud del exponente, pruebas de Kolmogorov–Smirnov para comparar con una ley de potencias y análisis de intervalos de confianza.
  • Comparación con alternativas (por ejemplo, distribución log-normal, exponencial o Zipf–Mandelbrot) para decidir cuál modelo describe mejor los datos.

Implicaciones prácticas

  • Procesamiento del lenguaje natural: la existencia de una pequeña fracción de palabras muy frecuentes motiva estrategias como stop words, modelos de lenguaje que manejan colas largas y técnicas de suavizado.
  • Análisis urbano y económico: la ley ayuda a caracterizar desigualdades en tamaños de ciudades o empresas y a generar modelos de crecimiento.
  • Diseño de sistemas y búsqueda: conocer la distribución de acceso o uso permite optimizar caches, índices y algoritmos de priorización.

En resumen, la ley de Zipf es una observación robusta y sorprendentemente universal sobre cómo se distribuyen muchos tipos de elementos ordenados por frecuencia o tamaño. Aunque no existe una única causa acordada para todos los fenómenos que la exhiben, la combinación de modelos estocásticos, principios de optimización y efectos de retroalimentación explica por qué las leyes de potencias aparecen con tanta frecuencia en sistemas complejos.