La similitud puede significar varias cosas según el área de estudio. A continuación se describen los principales usos y tipos, con explicaciones y ejemplos sencillos.

En matemáticas:

  • Similitud (geometría), cuando una forma se parece a otra, pero tiene un tamaño o una rotación diferentes
  • Similitud de matrices, una relación entre matrices

Similitud en geometría

Dos figuras son similares cuando tienen la misma forma aunque difieran en tamaño o en orientación. En polígonos, esto significa que sus ángulos correspondientes son iguales y las longitudes de lados correspondientes son proporcionales. Se suele usar el símbolo ~, por ejemplo △ABC ~ △A'B'C'.

Propiedades clave:

  • Existe una constante de escala k tal que cada distancia en la figura transformada es k veces la distancia correspondiente en la original.
  • Las transformaciones que llevan una figura a otra similar combinan dilataciones (homotecias), rotaciones y traslaciones (isometrías).
  • Conservan proporciones y ángulos, pero no necesariamente longitudes absolutas.

Ejemplo simple: si un triángulo tiene lados 3, 4 y 5, otro triángulo con lados 6, 8 y 10 es similar con factor de escala 2.

Similitud de matrices

En álgebra lineal, dos matrices cuadradas A y B (del mismo tamaño) son similares si existe una matriz invertible P tal que

B = P⁻¹ A P.

Interpretación: matrices similares representan la misma transformación lineal en distintas bases. Por ello comparten invariantes como:

  • Los mismos valores propios (eigenvalores) con la misma multiplicidad.
  • El mismo polinomio característico y el mismo determinante y traza.
  • Los mismos bloques de Jordan (hasta el orden de los bloques), lo que permite la reducción a forma canónica.

Aplicaciones: simplificar problemas de cálculo de potencias de matrices, exponentes de matrices, estudio de sistemas dinámicos lineales y clasificación de operadores lineales.

En informática:

  • Métrica de cadenas, o similitud de cadenas
  • La similitud semántica en la lingüística computacional

Similitud de cadenas (métricas de distancia)

En informática y procesamiento de texto, la similitud entre cadenas mide cuánto se parecen dos secuencias de caracteres o símbolos. Existen dos enfoques principales: métricas de distancia (donde menor es más parecido) y medidas de similitud (donde mayor es más parecido).

Algunas métricas y medidas comunes:

  • Distancia de Levenshtein (edición): número mínimo de inserciones, eliminaciones o sustituciones necesarias para convertir una cadena en otra. Se usa mucho en corrección ortográfica y búsqueda con tolerancia a errores.
  • Distancia de Hamming: número de posiciones con caracteres distintos entre dos cadenas de igual longitud. Útil en códigos y comunicaciones.
  • Jaro y Jaro–Winkler: especialmente útiles para coincidencias de nombres y registros, penalizan diferencias en orden y transposiciones.
  • Similitud basada en n-gramas y coseno de vectores de ocurrencia: se representan las cadenas por vectores de frecuencias de subcadenas (n-gramas) y se mide la similitud con la medida del coseno.

Frecuentemente se normaliza la distancia para obtener una puntuación en [0,1], por ejemplo:

Similitud normalizada = 1 − (Levenshtein / longitud_max).

Similitud semántica

En lingüística computacional y procesamiento del lenguaje natural (PLN), la similitud semántica cuantifica cuánto dos palabras, frases o documentos comparten significado, no solo forma. Va más allá de la coincidencia léxica y busca capturar relaciones conceptuales.

Métodos habituales:

  • Recursos léxicos: WordNet y ontologías permiten medir similitud por caminos en la jerarquía de conceptos (p. ej., distancia semántica basada en ancestros comunes).
  • Modelos de distribución: representaciones vectoriales (embeddings) como Word2Vec, GloVe o modelos contextuales como BERT. Se mide la similitud entre vectores con el coseno: coseno(u,v) = (u·v) / (||u|| ||v||).
  • Modelos basados en aprendizaje: modelos entrenados para tareas de similaridad semántica (STS) que devuelven una puntuación continua sobre cuánto dos fragmentos comparten significado.

Aplicaciones: búsqueda semántica, recuperación de información, detección de paráfrasis, desambiguación de sentido, recomendación de contenido y sistemas de preguntas y respuestas.

En otros ámbitos:

  • Psicología y ciencias cognitivas: la similitud perceptual o conceptual influye en procesos de reconocimiento, categorización y memoria. Modelos como el de espacios psicológicos representan estímulos en dimensiones donde la distancia refleja similitud.
  • Biología y genética: similitud genética o filogenética entre secuencias de ADN/ARN/proteínas se mide con alineamientos y puntuaciones (p. ej., identidad porcentual, distancia evolutiva) para inferir relaciones evolutivas.
  • Arte y crítica: la similitud estilística compara rasgos formales (trazo, paleta, motivos) entre obras o autores para atribución o clasificación.
  • Derecho comparado y jurisprudencia: la similitud de casos o precedentes analiza hasta qué punto un nuevo caso es comparable a decisiones anteriores para aplicar criterios jurídicos similares.
  • Industria y comercio: en recomendadores se mide similitud entre productos o usuarios (basada en comportamiento, atributos o contenido) para sugerir ítems relevantes.

Comentarios finales

La palabra «similitud» abarca conceptos que comparten la idea básica de comparabilidad o correspondencia entre entidades, pero su definición concreta depende del contexto: en geometría es una relación geométrica precisa; en álgebra lineal, una relación de conjugación matricial; en informática, un valor numérico que cuantifica cercanía de cadenas o significados; en otras disciplinas, criterios adaptados a sus objetos de estudio. Elegir la medida o el criterio adecuado es clave para interpretar correctamente los resultados.