fbpx

Conceptos de Pan-Genómica

Gran parte del campo de la genómica gira en torno a la existencia de genomas de referencia, que son hojas de ruta para un individuo “típico” de cada especie. La creación de cada referencia fue, y sigue siendo, un foco importante de la comunidad genómica: se han invertido 13 años y 2700 millones de dólares sólo en la creación del genoma humano de referencia. La capacidad de comparar un individuo recién secuenciado con una referencia y encontrar diferencias ha permitido innumerables descubrimientos e innovaciones, y en genómica humana esta capacidad ha formado la base de miles de estudios que buscan los orígenes genéticos de las enfermedades. Sin embargo, a medida que el número y el alcance de los experimentos de secuenciación han aumentado dramáticamente, los científicos han comenzado a darse cuenta de las muchas limitaciones que un único genoma de referencia impone a la comunidad. Para capturar mejor la variación perdida al usar una referencia, podemos crear y utilizar un ‘pangenoma’, una colección de todas las secuencias de ADN que ocurren en una especie.

Catalogar el ADN de todos los individuos de una especie es una tarea desalentadora. Los primeros pangenomas se desarrollaron para bacterias pequeñas y fáciles de secuenciar, pero, incluso en ese contexto, los pangenomas proporcionaron conocimientos científicos novedosos. La consideración de la diversidad genética dentro de las especies bacterianas ha contribuido a nuestra comprensión de las diferencias subyacentes en patogenicidad, virulencia y resistencia a los medicamentos e incluso puede ayudar a predecir cuán patógena será una nueva cepa. Los estudios pangenómicos de plantas y animales resultaron difíciles de alcanzar al principio, debido al gran tamaño del genoma y a las enormes cantidades de secuencias intergénicas de estas especies. Sin embargo, en los últimos años, gracias a mejoras espectaculares en la eficiencia de la tecnología de secuenciación, la comunidad científica ha podido secuenciar decenas, cientos o incluso miles de individuos de una sola especie vegetal o animal. Además, las nuevas tecnologías de secuenciación de lectura larga ahora nos permiten ensamblar mejor regiones repetitivas de genomas grandes, incluidas regiones centroméricas, que son difíciles de caracterizar con lecturas cortas.

La secuenciación humana también se ha acelerado. En los últimos años, una avalancha de publicaciones ha descrito grandes colecciones de genomas humanos recientemente secuenciados, incluidas cohortes de poblaciones específicas de Islandia, Dinamarca, Suecia, Papúa Nueva Guinea, Mongolia y África, así como encuestas a gran escala en todo el mundo. Estos estudios han demostrado, entre otras cosas, que grandes cantidades de secuencias en estas poblaciones (según algunas estimaciones, hasta el 10% del tamaño total del genoma) faltan en el genoma de referencia. A medida que se han acumulado estas colecciones de genomas, los científicos computacionales han estado trabajando para desarrollar nuevos métodos para detectar, representar y analizar variantes estructurales a gran escala, que anteriormente habían sido dejadas de lado mientras la mayoría de los estudios genéticos se centraban en polimorfismos de un solo nucleótido (SNP). Las nuevas representaciones deben ser capaces no sólo de capturar la variación de grandes colecciones de genomas sino también de permitir medios eficientes para buscar estos genomas. Independientemente de los métodos elegidos, ahora está claro que la comunidad debe ir más allá de la dependencia de un único genoma de referencia. Si bien el uso de una única referencia ha hecho avanzar enormemente la genética, no nos ha permitido, como algunos esperaban, encontrar la causa de todas las enfermedades genéticas, una deficiencia que ha llevado a algunos comentaristas a calificar el Proyecto Genoma Humano como un fracaso. Aunque ahora sabemos que muchas enfermedades son causadas por mezclas complejas de múltiples variantes genéticas, si queremos intentar descubrir las causas genéticas de muchas enfermedades aún inexplicables, uno de los muchos factores que debemos considerar es la vasta diversidad genética presente en los pangenomas.

En 2001 se publicó por primera vez un borrador inicial del genoma humano de referencia. El genoma consistió en la secuencia de aproximadamente 20 individuos que respondieron a un anuncio de voluntarios en Buffalo News, un periódico de Buffalo, Nueva York, EE.UU. Para secuenciar a estos individuos, se extrajo ADN de una muestra de sangre y se cortó en trozos de entre 150 y 200 kb, que se insertaron en cromosomas artificiales bacterianos (BAC) para su secuenciación. Este enfoque significó que cada segmento de ~150 kb podría secuenciarse y ensamblarse por separado, reduciendo los errores causados ​​por las repeticiones ubicuas que ocurren en todo el genoma. Además, se creó un mapa físico del genoma para determinar las ubicaciones relativas de los clones BAC a lo largo de los cromosomas. Por lo tanto, el genoma humano de referencia se ensambló como un mosaico de estos individuos secuenciados, donde un segmento de longitud BAC podría provenir de un individuo, el siguiente segmento de un individuo diferente, y así sucesivamente. Las personas que proporcionaron el ADN eran anónimas.

La versión original del genoma humano de referencia contenía 2.69 Gb y casi 150 000 huecos. El genoma ha sufrido muchas actualizaciones importantes desde 2001 para producir la versión actual, GRCh38.p13, que contiene 2.95 Gb de secuencia y sólo 349 espacios . Estas actualizaciones han incluido llenar espacios donde no había ninguna secuencia, reemplazar alelos raros en el genoma con las variantes más comunes y agregar secuencias alternativas que representan variantes divergentes de alguna porción del genoma de referencia, aunque estas secuencias alternativas a menudo no son consideradas por los procesos de análisis. Sin embargo, el trasfondo genético subyacente de la referencia sigue siendo el mismo que en la versión inicial: un mosaico de secuencias de un pequeño número de individuos anónimos.

En 2010, un estudio que describe el genoma del Neandertal realizó además un análisis de la referencia humana (versión GRCh37). Ese análisis utilizó la información BAC original para rastrear qué donante anónimo era la fuente de cada segmento del genoma y luego utilizó polimorfismos de un solo nucleótido (SNP) específicos de la población para determinar la ascendencia de cada donante. Este proceso reveló que aproximadamente dos tercios de la secuencia del genoma de referencia estaba compuesta de ADN de un donante masculino con el identificador anónimo RPCI-11, y que es casi seguro que RPCI-11 era 50% africano y 50% europeo.

Debido a que los científicos continúan utilizando el genoma humano de referencia como base para casi todos los estudios de genética humana, es importante reconocer que no representa a toda la población. Más bien, es una mezcla de etnias, predominantemente una secuencia de un individuo mestizo europeo y africano. Además, como mosaico de muchos individuos, es posible que no represente combinaciones variantes que existan en ningún individuo.

Sherman RM, Salzberg SL. Pan-genomics in the human genome era. Nat Rev Genet. 2020 Apr;21(4):243-254. doi: 10.1038/s41576-020-0210-7. Epub 2020 Feb 7. PMID: 32034321; PMCID: PMC7752153.

EuroEspes Health dispone de un canal de WhatsApp para difundir de forma gratuita y en español las últimas noticias y avances en el ámbito de la Genómica, las Enfermedades del Sistema Nervioso, Cardiovasculares, Metabólicas, Infecciosas y Cáncer. Seleccionadas y editadas por el Dr. Ramón Cacabelos.
Únase haciendo clic en el siguiente enlace para recibir diariamente en su móvil todas las publicaciones:
 

Déjenos sus datos y nosotros nos pondremos en contacto con usted

Déjenos sus datos y nosotros nos pondremos en contacto con usted