Análisis de secuencias en biología molecular

Estudio e interpretación de secuencias de ácidos nucleicos y proteínas: métodos, pasos del análisis, aplicaciones (genómica, diagnóstico, filogenia), historia y consideraciones prácticas y éticas.

Autor: Leandro Alegsa Creado: 20 de diciembre de 2021 Actualizado: 14 de abril de 2026

Visión general

El análisis de secuencias se refiere a las técnicas y procesos destinados a identificar, comparar e interpretar el orden de unidades biológicas: por ejemplo, las letras que conforman los nucleótidos de un ácido nucleico o las unidades que componen cadenas de aminoácidos en un péptido o una proteína. Más allá de la obtención de la secuencia bruta, el análisis incluye limpieza de datos, ensamble o alineamiento, anotación funcional y evaluación de calidad. Aunque la secuenciación se ha automatizado, la interpretación biológica sigue exigiendo juicio humano y conocimientos especializados.

Galería de imágenes

3 Imágenes

simple.wikipedia.org · Public domain

Métodos y flujo de trabajo

El proceso típico combina técnicas de laboratorio y análisis computacional. En el laboratorio se realiza la extracción de material genético, preparación de la biblioteca y la lectura de fragmentos por una plataforma de secuenciación. En la etapa computacional se llevan a cabo:

Procesamiento inicial: conversión de señales crudas en bases (base calling) y control de calidad.
Filtrado y recorte (trimming) de lecturas de baja calidad.
Alineamiento a una referencia o ensamblaje de novo cuando falta referencia.
Identificación de variantes, anotación genómica y predicción funcional.

Los resultados suelen guardarse y distribuirse en formatos estándar como FASTA, FASTQ, BAM/CRAM y VCF, que permiten interoperabilidad entre herramientas bioinformáticas.

Aplicaciones y ejemplos

El análisis de secuencias es imprescindible en múltiples áreas: diagnóstico molecular y medicina personalizada (identificación de mutaciones causantes de enfermedad), estudios evolutivos y filogenia (determinar relaciones entre especies), vigilancia de patógenos (seguimiento de variantes virales o bacterianas), metagenómica (caracterizar comunidades microbianas sin cultivo) y forense (identificación individual). También se emplea en mejoramiento de cultivos, biotecnología y descubrimiento de fármacos.

Historia y evolución tecnológica

Los métodos han evolucionado desde la secuenciación por terminación de cadena desarrollada por Sanger, hasta plataformas de alto rendimiento que producen millones de lecturas cortas de forma paralela y tecnologías de lectura larga que facilitan la resolución de regiones complejas. Esta progresión ha reducido costos y ampliado el alcance de los proyectos genómicos, permitiendo desde estudios puntuales hasta proyectos poblacionales y ambientales a gran escala.

Diferencias, limitaciones y aspectos prácticos

Existen distinciones clave: secuenciación dirigida (amplicones) frente a genoma completo; DNA frente a RNA (transcriptómica); lecturas cortas frente a lecturas largas (cada una con ventajas y errores característicos). Las limitaciones incluyen errores instrumentales, sesgos en la preparación de la muestra y la necesidad de bases de datos de referencia para una interpretación robusta. Además, el manejo de datos genómicos plantea cuestiones éticas y de privacidad que requieren protocolos adecuados de consentimiento y almacenamiento seguro.

Recursos y pasos siguientes

Para profundizar se recomiendan manuales de técnicas de laboratorio, cursos de bioinformática y acceso a repositorios y herramientas comunitarias. Los investigadores suelen combinar plataformas experimentales y paquetes de software para adaptar el análisis a objetivos concretos, manteniendo buenas prácticas en control de calidad y documentación para reproducibilidad.

Secuencia de pares de bases de ADN

Una secuencia de ADN es la secuencia de nucleótidos en una molécula de ADN. Se escribe como una sucesión de letras que representan la estructura primaria de una molécula o cadena de ADN. Si es funcional, dicha secuencia lleva información para la secuencia de aminoácidos en una molécula de proteína. Las letras posibles son A, C, G y T, que representan las cuatro bases nucleotídicas de una cadena de ADN: adenina, citosina, guanina y timina. Las secuencias se imprimen una al lado de la otra, sin espacios, como en la secuencia AAAGTCTGAC.

El estudio del ARN y las proteínas es más complejo. La estructura general del ADN es simple y predecible (doble hélice). El estudio del ARN y las proteínas debe incluir un estudio de su estructura tridimensional, que es variada, e influye en su funcionamiento. Hasta cierto punto, esto puede ser ayudado por el ordenador, pero tiene que ser verificado en cada caso.

La información sobre las secuencias se guarda en bases de datos. Desde el desarrollo de la producción rápida de secuencias de genes y proteínas durante la década de 1990, el ritmo de adición de nuevas secuencias a las bases de datos aumenta constantemente.

Puntuación

Se han realizado análisis completos del genoma de más de 800 especies y cepas. El trabajo lo realiza una máquina, el secuenciador de ADN, que analiza las señales luminosas de los fluorocromos unidos a los nucleótidos. Este tipo de trabajo se está abaratando progresivamente.

"Actualmente [2009] hay más de 90 especies de vertebrados con secuencias genómicas completas terminadas, en proceso o en fase de planificación avanzada.

Totalidades aproximadas

En diciembre de 2012, se había completado el análisis del genoma completo de entre 800 y 900 especies y cepas de especies vivas. Las cifras son aproximadas y están cambiando.

Animales: 111 especies
Plantas: 53 especies
Hongos: 81 especies
Protistas: 50 especies
Archaea: 139 especies y cepas
Bacterias: ~4/500 especies y cepas

Secuencia de ADN humano

El genoma humano está almacenado en 23 pares de cromosomas del núcleo celular y en el pequeño ADN mitocondrial. En la actualidad se sabe mucho sobre las secuencias de ADN que se encuentran en nuestros cromosomas. Ahora se sabe en parte lo que hace el ADN. La aplicación de estos conocimientos en la práctica no ha hecho más que empezar.

El Proyecto Genoma Humano (PGH) produjo una secuencia de referencia que se utiliza en todo el mundo en biología y medicina. Nature publicó el informe del proyecto, financiado con fondos públicos, y Science publicó el artículo de Celera. Estos artículos describen cómo se produjo el borrador de la secuencia y ofrecen un análisis de la misma. En 2003 y 2005 se anunciaron borradores mejorados que completaron hasta ≈92% de la secuencia.

El último proyecto ENCODE estudia la forma en que se controlan los genes.

Trabajo forense

No es necesario disponer de secuencias del genoma completo para trabajos forenses, como la identificación de un criminal a partir de restos de ADN dejados en la escena del crimen, o para casos de paternidad. En la actualidad, la secuenciación del genoma completo sigue siendo muy cara, pero afortunadamente existen métodos más sencillos y baratos.

La idea básica es buscar ciertos loci (lugares) en el genoma que son muy variables entre las personas. Se necesitan entre 10 y 15 de estos loci para obtener una coincidencia, y los detalles legales difieren según los países. Una coincidencia entre una muestra y un individuo sospechoso hace que sea muy probable que ese individuo sea la fuente de la muestra. Esta prueba sería entonces la base de la acusación de un delito. Un análisis similar mostraría que es muy probable que un hombre sea el padre de un niño. En realidad se trata de una forma moderna de hacer lo que se hacía con los grupos sanguíneos antes de que se pudieran analizar los detalles del ADN. Los métodos se han desarrollado principalmente gracias al trabajo de Alec Jeffreys.

El ADN de cada persona contiene dos alelos de un gen concreto o "marcador": uno del padre y otro de la madre. Los "marcadores" son genes elegidos por tener un número de alelos diferentes que se dan con frecuencia en la población. La siguiente tabla procede de un experimento comercial de pruebas de paternidad de ADN. Muestra cómo se demuestra el parentesco entre padres e hijos con cinco marcadores:

Marcador de ADN	Madre	Niño	Supuesto padre
D21S11	28, 30	28, 31	29, 31
D7S820	9, 10	10, 11	11, 12
TH01	14, 15	14, 16	15, 16
D13S317	7, 8	7, 9	8, 9
D19S433	14, 16.2	14, 15	15, 17

Los resultados muestran que el ADN del niño y del supuesto padre coinciden en estos cinco marcadores. Los resultados completos de la prueba mostraron esta correlación en 16 marcadores entre el niño y el hombre analizado. Si un caso se somete a prueba en un tribunal, un forense aportaría pruebas sobre la probabilidad de obtener ese resultado por casualidad.

Pruebas de ADN en Estados Unidos

Existen leyes estatales sobre perfiles de ADN en los 50 estados de Estados Unidos. En el sitio web de la Conferencia Nacional de Legislaturas Estatales se puede encontrar información detallada sobre las leyes de bases de datos de cada estado.

Un químico de la Oficina de Aduanas y Protección de Fronteras de EE.UU. lee un perfil de ADN para averiguar la procedencia de una mercancía.

ADN antiguo

Se ha recuperado ADN antiguo de algunas fuentes. El récord de supervivencia de ADN apto para el análisis de secuencias es de 700.000 años. Un esqueleto de caballo enterrado en el permafrost ha proporcionado huesos con algo de ADN superviviente. La secuencia sólo estaba completa en un 70%, pero fue suficiente para que los investigadores dijeran: "No se parecería a un caballo tal y como lo conocemos... pero esperaríamos que fuera un caballo de un solo dedo". Para comparar, los investigadores tuvieron acceso a las secuencias de ADN de caballos modernos, burros y el caballo de Przewalski.

Páginas relacionadas

George Church
Walter Gilbert
John Sulston
Fred Sanger
ENCODE: el análisis completo del genoma humano
Genoma humano
Genómica completa
Bioinformática

Autor

AlegsaOnline.com Análisis de secuencias en biología molecular Leandro Alegsa

URL: https://es.alegsaonline.com/art/88955

Cómo citar este artículo

APA

Alegsa, L. (14 de abril de 2026). Análisis de secuencias en biología molecular. AlegsaOnline.com. https://es.alegsaonline.com/art/88955

MLA

Alegsa, Leandro. “Análisis de secuencias en biología molecular.” AlegsaOnline.com, 14 de abril de 2026, https://es.alegsaonline.com/art/88955

Chicago

Alegsa, Leandro. “Análisis de secuencias en biología molecular.” AlegsaOnline.com. Actualizado 14 de abril de 2026. https://es.alegsaonline.com/art/88955

BibTeX

@misc{alegsaonline_88955,
  author = {Alegsa, Leandro},
  title = {Análisis de secuencias en biología molecular},
  year = {2026},
  howpublished = {AlegsaOnline.com},
  url = {https://es.alegsaonline.com/art/88955},
  note = {Actualizado: 14 de abril de 2026; Language: es}
}

TXT

Leandro Alegsa. “Análisis de secuencias en biología molecular.” AlegsaOnline.com. Actualizado: 14 de abril de 2026. https://es.alegsaonline.com/art/88955

Fuentes

intlgenome.org : intlgenome.org/viewDatabase.cfm
ncbi.nlm.nih.gov : "Comparative biology of aging"
doi.org : 10.1093/gerona/gln060
pubmed.ncbi.nlm.nih.gov : 19223603
ncbi.nlm.nih.gov : "Entrez Genome Database Search"
nature.com : "Initial sequencing and analysis of the human genome"
doi.org : 10.1038/35057062
pubmed.ncbi.nlm.nih.gov : 11237011
sciencemag.org : "The sequence of the human genome"
ui.adsabs.harvard.edu : 2001Sci...291.1304V
doi.org : 10.1126/science.1058040
pubmed.ncbi.nlm.nih.gov : 11181995
nature.com : nature.com/articles/489046a?error=cookies_not_supported&code=d4894f7c-6c0e-44a7-aa48-3d32…
bbc.co.uk : bbc.co.uk/news/health-19202141