Información

5.2: Ensamblaje del genoma I - Enfoque de superposición-diseño-consenso - Biología

5.2: Ensamblaje del genoma I - Enfoque de superposición-diseño-consenso - Biología


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Muchas áreas de investigación en biología computacional dependen de la disponibilidad de datos completos de la secuencia del genoma. Primero, examinaremos aspectos de la configuración experimental para el enfoque de consenso de diseño de superposición, y luego avanzaremos para aprender cómo combinar lecturas y aprender información de ellas.

Configurar el experimento

El primer desafío que se debe abordar al configurar este experimento es que debemos comenzar con muchas copias de cada cromosoma para poder utilizar este enfoque. Este número es del orden de 105. Es importante señalar que la forma en que obtenemos estas copias es muy importante y afectará nuestros resultados más adelante, ya que muchas de las comparaciones que hagamos dependerán de datos consistentes. La primera forma en que podemos pensar para obtener esta cantidad de datos es amplificar un genoma dado. Sin embargo, la amplificación hace daño, lo que alterará nuestros algoritmos en pasos posteriores y provocará peores resultados. Otro método posible sería la endogamia del genoma para obtener muchas copias de cada cromosoma. Si está buscando deshacerse del polimorfismo, esta puede ser una buena técnica, pero también perdemos datos valiosos de los sitios polimórficos cuando realizamos la endogamia. Un método sugerido para obtener estos datos es utilizar un solo individuo, aunque el organismo debería ser bastante grande. También podríamos utilizar técnicas como la progenie de uno o la progenie de dos para obtener la menor cantidad posible de versiones de cada cromosoma. Esto obtendrá una gran profundidad de secuenciación en cada cromosoma, que es la razón por la que queremos que todos los cromosomas sean lo más similares posible.

A continuación, veamos cómo podríamos decidir nuestras longitudes de lectura dada la tecnología actual. En la (Figura 5.2), podemos ver que se debe realizar un análisis de costo-beneficio para decidir qué plataforma usar en un proyecto dado. Con la tecnología actual, usamos comúnmente HiSeq2500 con una longitud de lectura de aproximadamente 250, aunque esto está cambiando rápidamente.

Finalmente, veamos algunas secuencias que causan problemas cuando se usan plataformas con lecturas cortas. Las secuencias con alto contenido de GC (por ejemplo, GGCGGCGATC), bajo contenido de GC (por ejemplo, AAATAATCAA) o baja complejidad (por ejemplo, ATATATATA) pueden causar problemas con lecturas cortas. Esta es todavía un área activa de investigación, pero algunas posibles explicaciones incluyen el deslizamiento de la polimerasa y la desnaturalización del ADN con demasiada facilidad o no con la suficiente facilidad.

Esta sección examinará uno de los primeros métodos más exitosos para ensamblar computacionalmente un genoma a partir de un conjunto de lecturas de ADN, llamado secuenciación de escopeta (Figura 5.3). La secuenciación por escopeta implica dividir al azar múltiples copias del mismo genoma en muchos fragmentos pequeños, como si el ADN fuera disparado con una escopeta. Normalmente, el ADN en realidad se fragmenta mediante sonicación (breves ráfagas de un ultrasonido) o una enzima dirigida diseñada para escindir el genoma en motivos de secuencia específicos. Ambos métodos se pueden ajustar para crear fragmentos de diferentes tamaños.

Una vez que el ADN ha sido amplificado y fragmentado, se utiliza la técnica desarrollada por Frederick Sanger en 1977 llamada secuenciación de terminación de cadena (también llamada secuenciación de Sanger) para secuenciar los fragmentos. En resumen, la ADN polimerasa extiende los fragmentos hasta que se incorpora un didesoxinucleotrifosfato; estos nucleótidos especiales provocan la terminación de la extensión de un fragmento. Por lo tanto, la longitud del fragmento se convierte en un proxy de dónde se agregó un ddNTP dado en la secuencia. Se pueden ejecutar cuatro reacciones separadas, cada una con un ddNTP diferente (A, G, C, T) y luego ejecutar los resultados en un gel para determinar el orden relativo de las bases. El resultado son muchas secuencias de bases con los correspondientes puntajes de calidad por base, lo que indica la probabilidad de que cada base se haya llamado correctamente. Los fragmentos más cortos se pueden secuenciar completamente, pero los fragmentos más largos solo se pueden secuenciar en cada uno de sus extremos, ya que la calidad disminuye significativamente.

después de aproximadamente 500-900 pares de bases. Estas lecturas de pares de extremos se denominan parejas de contactos. En el resto de esta sección, discutiremos cómo usar las lecturas para construir secuencias mucho más largas, hasta el tamaño de cromosomas completos.

Encontrar lecturas superpuestas

Para combinar los fragmentos de ADN en segmentos más grandes, debemos encontrar lugares donde dos o más lecturas se superponen, es decir, donde la secuencia inicial de un fragmento coincide con la secuencia final de otro fragmento. Por ejemplo, dados dos fragmentos como ACGTTGACCGCATTCGCCATA y GACCGCATTCGCCATACG-GCATT, podemos construir una secuencia más grande basada en la superposición: ACGTTGACCGCATTCGCCATACGGCATT (Figura 5.4).

Un método para encontrar secuencias coincidentes es el algoritmo de programación dinámica Needleman-Wunsch, que se discutió en el capítulo 2. Sin embargo, el método Needleman-Wunsch no es práctico para el ensamblaje del genoma, ya que necesitaríamos realizar millones de alineaciones por pares, cada una tomando O (norte2) tiempo, para construir un genoma completo a partir de los fragmentos de ADN.

Un mejor enfoque es usar el algoritmo BLAST (discutido en el capítulo 3) para hash todos los k-mers (secuencias únicas de longitud k) en las lecturas y encontrar todas las ubicaciones donde dos o más lecturas tienen uno de los k-mers en común. Esto nos permite lograr O (knorte) eficiencia en lugar de O (n2) comparaciones por pares. k puede ser cualquier número menor que el tamaño de las lecturas, pero varía según la sensibilidad y especificidad deseadas. Al ajustar la longitud de lectura para abarcar las regiones repetitivas del genoma, podemos resolver correctamente estas regiones y acercarnos mucho al ideal de un genoma completo y continuo. Un ensamblador de consenso de diseño de superposición popular llamado Arachne usa k = 24 [2].

Dados los k-mers coincidentes, podemos alinear cada una de las lecturas correspondientes y descartar cualquier coincidencia que sea menos del 97% similar. No requerimos que las lecturas sean idénticas ya que permitimos la posibilidad de errores de secuenciación y heterocigosidad (es decir, un organismo diploide como un ser humano puede tener dos variantes diferentes en un sitio polimórfico).

Fusionar lecturas en contigs

Usando las técnicas descritas anteriormente para encontrar superposiciones entre fragmentos de ADN, podemos juntar segmentos más grandes de secuencias continuas llamadas contigs. Una forma de visualizar este proceso es crear un gráfico en el que todos los nodos representan lecturas y los bordes representan superposiciones entre las lecturas (Figura 5.5). Nuestro gráfico tendrá superposición transitiva; es decir, algunos bordes conectarán nodos dispares que ya están conectados por nodos intermedios. Al eliminar las superposiciones transitivamente inferibles, podemos crear una cadena de lecturas que se han ordenado para formar un contig más grande. Estas transformaciones de gráficos se analizan con mayor profundidad en la sección 5.3.1 a continuación. Para comprender mejor el tamaño de los contigs, calculamos algo conocido como N50. Debido a que las medidas de longitud de contig tienden a ser muy sensibles al corte de contig más pequeño, N50 se calcula como la mediana ponderada por la longitud. Para un ser humano, N50 suele estar cerca de 125 kb.

En teoría, deberíamos poder utilizar el enfoque anterior para crear grandes contigs a partir de nuestras lecturas siempre que tengamos una cobertura adecuada de la región dada. En la práctica, a menudo nos encontramos con grandes secciones del genoma que son extremadamente repetitivas y, como resultado, son difíciles de ensamblar. Por ejemplo, no está claro exactamente cómo alinear las siguientes dos secuencias: ATATATAT y ATATATATAT. Debido al contenido de información extremadamente bajo en el patrón de secuencia, podrían superponerse de muchas maneras. Además, estas regiones repetitivas pueden aparecer en múltiples ubicaciones del genoma y es difícil determinar qué lecturas proceden de qué ubicaciones. Los contigs formados por estas lecturas ambiguas y repetitivas se denominan contigs superpuestos.

Con el fin de determinar qué secciones están superpuestas, a menudo es posible cuantificar la profundidad de cobertura de los fragmentos que componen cada contig. Si un contig tiene una cobertura significativamente mayor que los demás, es probable que sea un candidato para una región colapsada. Además, varios contig únicos pueden superponerse a un contig en la misma ubicación, lo cual es otra indicación de que el contig puede estar sobrecogido (Figura 5.6).

Una vez que los fragmentos se han ensamblado en contigs hasta el punto de una posible sección repetida, el resultado es un gráfico en el que los nodos son contigs y los bordes son vínculos entre contigs únicos y contigs sobrecogidos (Figura 5.7).

Disposición del gráfico de contig en andamios

Una vez que nuestros fragmentos se ensamblan en contigs y gráficos de contig, podemos usar los pares de relaciones de posición más grandes para vincular contigs en supercontigs o andamios. Los pares de relaciones de posición son útiles tanto para orientar los contigs como para colocarlos en el orden correcto. Si los pares de relaciones de posición son lo suficientemente largos, a menudo pueden abarcar regiones repetitivas y ayudar a resolver las ambigüedades descritas en la sección anterior (Figura 5.8).

A diferencia de los contigs, los supercontigs pueden contener algunos huecos en la secuencia debido al hecho de que los pares de mate que conectan los contigs solo se secuencian en los extremos. Dado que generalmente sabemos cuánto tiempo tiene un par de compañeros dado, podemos estimar cuántos pares de bases faltan, pero debido a la aleatoriedad de los cortes en la secuencia de escopeta, es posible que no tengamos los datos disponibles para completar la secuencia exacta. Llenar cada uno de los espacios puede ser extremadamente costoso, por lo que incluso los genomas ensamblados más completamente contienen algunos vacíos.

Derivando secuencia de consenso

El objetivo del ensamblaje del genoma es crear una secuencia continua, por lo que una vez que las lecturas se han alineado en contigs, debemos resolver las diferencias entre ellas. Como se mencionó anteriormente, algunas de las lecturas superpuestas pueden no ser idénticas debido a errores de secuenciación o polimorfismo. A menudo podemos determinar cuándo ha habido un error de secuenciación cuando una base no está de acuerdo con todas las demás bases alineadas con ella. Teniendo en cuenta los puntajes de calidad en cada una de las bases, generalmente podemos resolver estos conflictos con bastante facilidad. Este método de resolución de conflictos se denomina votación ponderada (Figura 5.9). Otra alternativa es ignorar las frecuencias de cada base y tomar como consenso la letra de máxima calidad. A veces, querrá conservar todas las bases que forman un conjunto polimórfico porque puede ser información importante. En este caso, no podríamos utilizar estos métodos para derivar una secuencia de consenso.

En algunos casos, no es posible derivar un consenso si, por ejemplo, el genoma es heterocigoto y hay el mismo número de dos bases diferentes en una ubicación. En este caso, el ensamblador debe elegir un representante.

¿Sabías?

Dado que el polimorfismo puede complicar significativamente el ensamblaje de genomas diploides, algunos investigadores inducen varias generaciones de endogamia en las especies seleccionadas para reducir la cantidad de heterocigosidad antes de intentar secuenciar el genoma.

En esta sección, vimos un algoritmo para realizar el ensamblaje del genoma dadas las lecturas. Sin embargo, este algoritmo funciona bien cuando las lecturas tienen una longitud de 500 a 900 bases o más, lo que es típico de la secuenciación de Sanger. Se requieren algoritmos alternativos de ensamblaje del genoma si las lecturas que obtenemos de nuestros métodos de secuenciación son mucho más cortas.


GUNC: detección de quimerismo y contaminación en genomas procarióticos

Los genomas son unidades críticas en microbiología, sin embargo, determinar la calidad de los conjuntos de genomas procarióticos sigue siendo un desafío formidable. Presentamos GUNC (Genome UNClutterer), una herramienta que detecta y cuantifica con precisión el quimerismo del genoma basándose en la homogeneidad de linaje de contigs individuales utilizando el complemento completo de genes de un genoma. GUNC complementa los enfoques existentes al enfocarse en tipos de contaminación previamente subdetectados: estimamos de manera conservadora que el 5.7% de los genomas en GenBank, el 5.2% en RefSeq y el 15-30% de los genomas ensamblados con metagenomas de "alta calidad" prefiltrados en estudios recientes son quimeras no detectadas. GUNC proporciona una herramienta rápida y robusta para mejorar sustancialmente la calidad del genoma procariota.


¿Cuán similares son los cromosomas homeólogos en los genomas alopoliploides?

A la luz de los desafíos descritos anteriormente, el enfoque de escopeta de genoma completo parece no ser aplicable para ensamblar genomas alopoliploides. Tradicionalmente, el enfoque para secuenciar genomas alopoliploides de plantas de cultivo ha sido secuenciar genomas diploides progenitores, como se hizo para algodón, fresa, café y colza. Sin embargo, los genomas progenitores del genoma del trigo de 17 gigabase (Gb) son más grandes que cualquiera de los genomas alopoliploides mencionados anteriormente, y la secuenciación de cualquiera de los tres genomas progenitores de 5,5 Gb requiere una inversión sustancial [5]. El genoma del trigo comprende 21 cromosomas grandes y distinguibles, y la comunidad del trigo adoptó un enfoque de clasificación de cada cromosoma o brazo cromosómico para secuenciar y ensamblar [6]. Con este enfoque, es posible eliminar el ensamblaje incorrecto de los cromosomas homeólogos. Sin embargo, la clasificación de cromosomas no produce cantidades suficientes de ADN para la secuenciación de alto rendimiento con la tecnología Illumina. Por lo tanto, es necesario amplificar cada cromosoma o brazo en fragmentos cortos, lo que hace imposible construir bibliotecas de salto de inserto grande para andamiaje, lo que da como resultado contigs cortos en el genoma ensamblado [6]. Esto hace que la investigación genómica posterior sea menos eficiente.

Estos desafíos demuestran la importancia de la Biología del genoma estudio de Chapman y sus colegas, que combinó la secuenciación de escopeta de genoma completo y el mapeo de enlace de densidad ultra alta para ensamblar un genoma alopoliploide. El "W7984 sintético" se generó cruzando un genoma AABB de trigo tetraploide con el genoma DD diploide, seguido de la duplicación de cromosomas, lo que resultó en una reconstitución contemporánea del trigo hexaploide. Esta línea homocigótica se secuenció a una cobertura de 30 × utilizando un enfoque de escopeta de genoma completo con secuencias de 2 × 150 pares de bases (pb) de las bibliotecas Illumina TruSeq en pares de extremos emparejados y pares de 250 pb a 4,5 kb de tamaño [4]. El genoma de "W7984" se ensambló utilizando una versión mejorada de Meraculous, un nuevo algoritmo para de novo ensamblaje del genoma con lecturas cortas profundas de pares de extremos [7]. El análisis de 51-mers reveló que no había características genómicas presentes en copias dobles o triples, lo que indica que los tres conjuntos de cromosomas homeólogos se separaron en el ensamblaje del genoma. La simulación de secuencias de 81 meros produjo fracciones sustancialmente más altas de secuencias únicas en el genoma que las de 51 meros, lo que implica que el aumento de la profundidad de secuenciación mejoró aún más la calidad del genoma ensamblado. Se ensamblaron exones idénticos en los subgenomas correctos utilizando información de secuencias intrónicas e intergénicas flanqueantes más divergentes, una característica clave de los genomas alopoliploides.

El nivel de identidad de la secuencia de ADN de los cromosomas homeólogos en los genomas alopoliploides había sido un misterio, pero ahora se han publicado borradores de genomas de trigo hexaploide y colza tetraploide [6, 8]. La comparación directa de secuencias homeólogas reveló una divergencia de secuencia sustancialmente mayor de lo que se suponía anteriormente. En trigo harinero Triticum aestivum, una región comparada en los cromosomas 3A, 3B y 3D tenía secuencias colineales de 21.784 pb, 28.429 pb y 25.193 pb, respectivamente. La comparación por pares entre los subgenomas A y B, A y D, y B y D reveló diferencias de inserción-deleción (InDel) del 23,3%, 13,5% y 12,8%, y SNP del 4,5%, 5,2% y 6,1% en comparación sin espacios, respectivamente. Las diferencias de secuencia de ADN combinadas entre subgenomas entre estos tres pares fueron 27,8%, 18,7% y 18,9% (Figura 1a). En colza alotetraploide Brassica napus, una región de 96.436 pb del subgenoma A era colineal con una región más grande en el subgenoma C (104.516 pb), mostrando una diferencia de InDel del 8,4% y SNP del 5,7% en una comparación sin espacios. La diferencia de secuencia de ADN combinada entre los subgenomas A y C fue del 14,1% (Figura 1b). Por lo tanto, la divergencia de la secuencia de ADN entre los cromosomas homeólogos osciló entre el 14,1% y el 27,8% en los genomas alopoliploides de T. aestivum y B. napus, suficientemente diferente para de novo ensamblaje del genoma de genomas alopoliploides.

Colinealidad de subgenomas en trigo harinero hexaploide y colza alotetraploide. (a) Tres regiones homeólogas de los subgenomas A, B y D del trigo harinero Triticum aestivum La línea Synthetic W7984 se alineó para la comparación de secuencia directa [4]. Se alinearon el andamio 946163 (posición 27.539 a 55.967) del subgenoma B, el andamio 1590518 (posición 23.362 a 48.554) del subgenoma D y el andamio 235762 (posición 75.800 a 97.583) del subgenoma A. Las regiones colineales e invertidas están representadas por líneas rojas y azules, respectivamente. Para los subgenomas A y D, pero no B, se observa un alto grado de duplicación colineal del genoma en la región central. (B) Dos regiones homeólogas de Brassica napus el subgenoma A (posición 253,565 a 350,000) y el subgenoma C (posición 409,878 a 514,393) se alinearon para comparación. Había 4.331 SNP (5,7%) dentro de una región alineada de 76 kb. Se detectaron un total de 32.411 pb (14,1%) de InDels y la longitud del más largo es de 4.808 pb. Se observó una alta colinealidad entre los dos subgenomas con eventos menores de inversión y duplicación.


Resultados

Desde el desarrollo de MUMmer 1.0 en 1999, se han desarrollado varios otros programas para la comparación del genoma a gran escala, por ejemplo, SSAHA [16], AVID [17], MGA [18], BLASTZ [19] y LAGAN [20] (ver también [21] para una revisión). La mayoría de estos programas siguen un enfoque basado en anclajes, que se puede dividir en tres fases: cálculo de anclajes potenciales cálculo de una secuencia colineal de anclajes potenciales no superpuestos: estos anclajes forman la base de la alineación y alineación de los espacios intermedios las anclas. Los métodos tradicionales para calcular los anclajes potenciales, es decir, coincidencias máximas de cierta longitud l o más, utilice un enfoque de generación y prueba. En un primer paso, todas las coincidencias de una longitud fija k & lt l, llamado k-mers, se generan usando un método basado en hash (adoptado de [22]). Cada uno de esos k-mer se comprueba para ver si se puede extender a una coincidencia exacta máxima de longitud al menos l. La extensión se realiza mediante comparaciones de caracteres por pares y, por lo tanto, el tiempo de ejecución de este enfoque depende no solo del número de anclajes potenciales, sino también de sus longitudes. Esto se puede ilustrar con un ejemplo en el que todas las coincidencias máximas de longitud 20 o más entre dos cepas diferentes de Escherichia coli (Se calcula la cepa K12, 4,639,221 pares de bases (bp) y la cepa O157: H7, 5,528,445 bp). Con k = 10, una elección típica para k, el método hash genera primero 4,99 × 10 7 k-mers y luego realiza 1.66 × 10 7 comparaciones de caracteres para determinar las 46,629 coincidencias máximas de longitud 20 o más. Por tanto, menos del 0,1% de la generada k-mers se extienden a coincidencias máximas de la longitud especificada. Por esta razón, el enfoque de generar y probar conduce a tiempos de ejecución prolongados, si las secuencias en consideración comparten subcadenas largas.

Reconociendo esta desventaja del enfoque hash, MUMmer 1.0 fue el primer sistema de software en usar árboles de sufijos para encontrar posibles anclajes para una alineación. Los árboles de sufijos se han estudiado durante casi tres décadas en informática (consulte [23] para obtener una descripción general). Un árbol de sufijos es una estructura de datos para representar todas las subcadenas de una cadena, ya sea que esa cadena sea una secuencia de ADN, una secuencia de proteínas o texto sin formato. Los árboles de sufijos tienen las siguientes características interesantes que los convierten en una estructura de datos importante para el análisis del genoma a gran escala: un árbol de sufijos para una cadena S de longitud norte se puede representar en el espacio proporcional a norte Se han diseñado algoritmos rápidos que pueden construir un árbol de sufijos en el tiempo proporcional a norte [24, 25] dado el sufijo árbol de S y una cadena de consulta Q de longitud metro, existen algoritmos para calcular todas las coincidencias máximas únicas entre S y Q de cualquier longitud mínima especificada (los anclajes potenciales) en el tiempo proporcional a metro. Todas las coincidencias máximas, únicas o no, se pueden encontrar en un tiempo casi óptimo. Tenga en cuenta especialmente que, a diferencia de los enfoques de hash, el tiempo de ejecución de los algoritmos del árbol de sufijos no depende de la longitud de las coincidencias máximas.

Los detalles de los algoritmos de árbol de sufijos incorporados en versiones anteriores de MUMmer se han descrito en [5, 7]. Aquí nos centraremos en desarrollos novedosos. MUMmer se encuentra entre los programas más rápidos para la alineación a gran escala, según una prueba reciente, los tiempos para MUMmer variaron de 4 a 110 veces más rápido que AVID, BLASTZ y LAGAN [20]. En su configuración predeterminada, MUMmer es menos sensible a la detección de coincidencias que estos programas; sin embargo, hemos agregado varias opciones de línea de comandos a MUMmer 3.0 que permiten la detección de coincidencias mucho más débiles de las que el sistema encontraría de otra manera. Tenga en cuenta que la modularidad de MUMmer y su disponibilidad como código de fuente abierta significa que ahora otros pueden construir un sistema híbrido usando, por ejemplo, el algoritmo de coincidencia de árbol de sufijos en MUMmer y el código del programa de extensión de coincidencia de LAGAN o AVID.

Las características adicionales agregadas a MUMmer 3.0 son un nuevo visor de Java, DisplayMUMs, un nuevo programa de salida gráfica para generar imágenes en formato fig o PDF, que muestra la alineación de un conjunto de contigs a un cromosoma de referencia y nuevas opciones para encontrar coincidencias no únicas. Estos se describirán a continuación.

Estructura de datos de árbol de sufijos optimizada y biblioteca de árbol de sufijos

La mejora técnica más significativa en MUMmer 3.0 es una reescritura completa del código del árbol de sufijos, basada en la representación compacta del árbol de sufijos de [26]. Esta representación también se utilizó en la herramienta de análisis de repetición REPuter [27]. Sin embargo, REPuter solo podía acomodar secuencias de hasta 134 millones de pb (Mbp). Para MUMmer 3.0, la implementación se mejoró para permitir secuencias de hasta 250 Mbp en una PC con 4 gigabytes (GB) de memoria real, a costa de un uso de espacio ligeramente mayor por par de bases. Por ejemplo, se puede construir el árbol de sufijos para el cromosoma 2 humano (237,6 Mbp, el cromosoma humano más grande) utilizando 15,4 bytes por par de bases. Para procesar secuencias de ADN de menos de 134 Mbp de longitud, MUMmer se puede compilar de modo que utilice sólo unos 12,5 bytes por bp [26]. Dado que los árboles de sufijos para las secuencias de ADN suelen ser más grandes que para las secuencias de proteínas, la proporción de bytes por par de bases es incluso mejor para este último.

MUMmer ahora requiere aproximadamente un 25% menos de memoria que la versión 2.1 y se ejecuta un poco más rápido. En comparación con la versión inicial de 1999, el sistema es más del doble de rápido y utiliza menos de la mitad de la memoria. Como en MUMmer 2.1, la versión 3.0 transmite la secuencia de consulta contra el árbol de sufijos de la secuencia de referencia. Por lo tanto, el requisito de espacio total de MUMmer es el tamaño del árbol de sufijos más el tamaño de la referencia y las secuencias de consulta. La Tabla 1 muestra los tiempos de ejecución y los requisitos de memoria para las versiones 2.1 y 3.0 de MUMmer, cuando se calculan las coincidencias máximas para diferentes pares de genomas o cromosomas.

Si bien las versiones anteriores de MUMmer implementaron la construcción del árbol de sufijos principal y los algoritmos de recorrido en un programa monolítico de 1.700 líneas de código, la versión actual se basa en una biblioteca de software bien estructurada y bien documentada. Esto proporciona tipos de datos para manejar múltiples secuencias de ADN o proteínas y sus árboles de sufijos. La biblioteca contiene funciones para construir el árbol de sufijos y recorrerlo. De esta manera, un programador que tenga la intención de modificar o extender la base del código puede usar las interfaces bien documentadas proporcionadas por la biblioteca, sin la necesidad de aprender todos los detalles de implementación de bajo nivel del árbol de sufijos.

Con la versión 3.0, MUMmer ahora tiene la capacidad de ejecutar una consulta de múltiples contig contra una referencia de múltiples contig. Anteriormente, esto estaba disponible mediante el paquete Nucmer, pero no directamente dentro del programa core mummer. En la Tabla 1, por ejemplo, la secuencia del genoma de Aspergillus fumigatus consistía (en el momento de este estudio) en 19 andamios que estaban alineados a 248 contigs de A. nidulans. Esta comparación se manejó con una simple llamada al programa mummer en la versión 3.0, pero en la versión 2.1, la secuencia de referencia debe colapsarse primero en un solo contig y, después de la coincidencia, las coordenadas deben volver a mapearse (por Nucmer) para las ubicaciones de contig correctas. Ambas versiones manejan archivos de consulta de varios contig. La tabla 1 también muestra los tiempos para alinear el cromosoma 2L de 22,2 Mbp de la mosca de la fruta. Drosophila melanogaster a una asamblea provisional (antes de que se completara el proyecto del genoma) de D. pseudoobscura. En este caso, la secuencia de consulta, que consta de 4.653 andamios que contienen aproximadamente 150 Mbp de secuencia, era mucho más larga que la referencia. El programa requirió 485 Mb de memoria total, aproximadamente 310 Mb para el árbol de sufijos y el resto para contener las secuencias de entrada.

Coincidencias máximas no únicas

Las versiones anteriores de MUMmer enfatizaban las coincidencias únicas máximas (MUM) como posibles anclajes para una alineación. Las MUM son únicas porque ocurren exactamente una vez en cada uno de los genomas. En algunos casos, la restricción de unicidad evitará que MUMmer encuentre todas las coincidencias para una subcadena repetitiva. Por ejemplo, si el genoma de referencia tiene dos copias exactas de una cadena en particular y la consulta tiene solo una copia, las versiones anteriores de MUMmer generalmente perderían una de las copias coincidentes, dependiendo de la secuencia circundante. Para superar este problema, el nuevo sistema MUMmer puede encontrar todas las coincidencias máximas, incluidas las no únicas, entre dos secuencias de entrada simplemente proporcionando una opción de línea de comandos al programa mummer. Otras opciones de la línea de comandos permiten al usuario producir MUM que son únicos tanto en la consulta como en la secuencia de referencia o MUM que son únicos solo en la secuencia de referencia.

Aunque el algoritmo para producir todas las coincidencias máximas es más complicado que el algoritmo para producir coincidencias máximas únicas, aún se ejecuta en un tiempo casi óptimo, donde el tiempo óptimo sería proporcional a la suma de los tamaños de las cadenas de entrada y el número de coincidencias encontradas. . Los tiempos de ejecución para producir cualquiera de los tres tipos de coincidencias máximas son generalmente similares. Sin embargo, tenga en cuenta que cuando el programa se dirige a encontrar todas las coincidencias no únicas, incluidas las cortas, el tamaño de la salida puede ser extremadamente grande y el tiempo para crear el archivo de salida será la parte dominante del cálculo.

Partidos distantes

Una de las críticas que se le ha hecho a MUMmer 1.0 es que solo encuentra coincidencias exactas, mientras que en la práctica a menudo queremos encontrar coincidencias aproximadas, es decir, coincidencias entre secuencias que son menos del 100% idénticas. Abordamos esta preocupación en la versión 2.1, con la introducción de los paquetes Nucmer y Promer construidos sobre MUMmer. Estos se han mejorado sustancialmente en la versión 3.0 y ahora exhiben un rendimiento solo marginalmente más lento que la búsqueda básica en sí. La aceleración de Nucmer y Promer en comparación con la versión 2.1 es aproximadamente 10 veces mayor.

Tanto Nucmer como Promer producen una colección de alineaciones locales utilizando el algoritmo que se describe a continuación. La diferencia entre los dos programas es que Nucmer construye alineaciones de nucleótidos entre dos conjuntos de secuencias de ADN, mientras que Promer construye alineaciones de aminoácidos. Cada conjunto de secuencias es una colección de una o más secuencias del mismo genoma, por ejemplo, una colección de contigs producidos por un ensamblador de genoma. Promer primero traduce tanto la referencia como la consulta en los seis marcos, encuentra todas las coincidencias en las secuencias de aminoácidos y luego asigna las coincidencias al sistema de coordenadas de ADN original. Para el paso de extensión a continuación, Promer utiliza una matriz de sustitución de aminoácidos estándar (BLOSUM62 es la predeterminada) para puntuar los desajustes.

El algoritmo de alineación Nucmer / Promer es el siguiente. Primero, ambos programas ejecutan MUMmer para encontrar todas las coincidencias exactas más largas que una longitud especificada l, medido en nucleótidos para Nucmer y aminoácidos para Promer. En segundo lugar, los partidos se agrupan en preparación para extenderlos. Dos coincidencias se unen en el mismo grupo si están separadas por no más de gramo nucleótidos (Nucmer) o aminoácidos (Promer). Luego, de cada grupo, la cadena colineal de coincidencias de longitud máxima se extrae y se procesa más si la longitud combinada de sus coincidencias es al menos C nucleótidos / aminoácidos. (Tenga en cuenta que una cadena puede constar de una sola región coincidente si l & gtC.) Los parametros l, gramo, y C todo se puede configurar en la línea de comando. Las coincidencias de la cadena se extienden luego utilizando una implementación del algoritmo de programación dinámica Smith-Waterman [28], que se aplica a las regiones entre las coincidencias exactas y también a los límites de las cadenas, que pueden extenderse hacia afuera. Este paso de "emparejar y extender" en el algoritmo es esencialmente el mismo que el utilizado por FASTA [29], BLAST [30] y muchos otros programas de alineación de secuencias.

Cuando dos especies son muy similares, como los dos aislados del Bacillus Anthracis La cepa Ames secuenciada en TIGR [31-33], entonces MUMmer es ideal para alinear los genomas. En esa comparación de los aislados de ántrax, solo cuatro diferencias de un solo nucleótido separaron los dos cromosomas principales de 5.3 Mbp entre sí. De manera similar, en nuestra comparación de un aislado clínico de Tuberculosis micobacteriana a una cepa de laboratorio [31], MUMmer encontró rápidamente los aproximadamente 1.100 SNP y un puñado de elementos IS que distinguían las cepas. Sin embargo, cuando las especies que se comparan son más distantes, Nucmer y Promer proporcionan alineaciones mucho más detalladas y más útiles que MUMmer solo. En los ejemplos que se describen a continuación, mostramos cómo cada uno de los programas descritos aquí puede ejecutarse para genomas a diferentes distancias evolutivas.

Volar contra volar

El genoma de 130 Mbp de D. melanogaster está en gran parte completo, con los seis brazos cromosómicos principales que contienen solo unos pocos huecos. Recientemente, el Centro de Secuenciación del Genoma Humano de la Facultad de Medicina de Baylor completó la secuenciación de escopeta de D. pseudoobscura, una especie estrechamente relacionada con un genoma de aproximadamente el mismo tamaño. Estas dos especies están lo suficientemente cerca como para compartir casi todos los genes y los exones muestran un alto nivel de identidad de secuencia. Sin embargo, están lo suficientemente distantes como para que las regiones intergénicas y los intrones no se alineen bien, y ha habido cientos de reordenamientos cromosómicos a gran escala desde que las especies divergieron. Por lo tanto, no se puede simplemente alinear cada brazo cromosómico con su contraparte. Para complicar aún más las cosas, el D. pseudoobscura El conjunto de escopeta consta de miles de andamios y contigs. Para facilitar la comparación, la primera tarea computacional es alinear todos los andamios a cada uno de los D. melanogaster brazos. (El análisis integral de D. pseudoobscura, organizado por los científicos del centro de secuenciación y sus colaboradores, aparecerá en un futuro artículo. La descripción aquí está destinada principalmente a ilustrar el uso y las capacidades de Nucmer.)

Ejecutamos el programa Nucmer con una longitud mínima de coincidencia de 25, que era adecuada para capturar prácticamente todos los exones coincidentes. Debido a que los genes coincidentes son mucho más largos, requerimos que las cadenas de grupos contengan al menos 100 nucleótidos coincidentes. Para tener en cuenta los intrones largos y permitir que el programa agrupe varios genes, permitimos que la brecha entre coincidencias exactas sea de hasta 3.000 pb. En el momento de nuestro análisis (antes de la finalización del proyecto de secuenciación), el D. pseudoobscura El conjunto contenía 4.653 andamios que abarcaban 150 Mbp. Ejecutamos Nucmer por separado para alinear el conjunto completo de andamios a cada D. melanogaster brazo cromosómico. Con esta configuración, el programa tarda unos 6 minutos por brazo y utiliza aproximadamente 490 Mb de memoria en una PC Pentium 4 de sobremesa de 2,8 GHz con Linux.

Mosca contra mosquito

Cuando las dos especies están relacionadas más lejanamente, el único medio de detectar similitudes a gran escala es a través de comparaciones a nivel de aminoácidos. Un ejemplo de este fenómeno surgió durante nuestra comparación de los genomas del mosquito de la malaria, Anopheles gambiaey la mosca de la fruta D. melanogaster. Porque Anofeles fue el segundo genoma de insecto en ser secuenciado, la única especie disponible para la comparación fue la mosca de la fruta. Nuestro análisis detallado, realizado conjuntamente con colegas del Laboratorio Europeo de Biología Molecular en Heidelberg, se basó en una combinación de análisis BLAST y MUMmer [34]. Estas dos especies divergieron hace unos 250 millones de años y tienen una identidad de secuencia de proteínas promedio del 56%, menos que la compartida entre humanos y pez globo. Aunque los dos insectos tienen el mismo número de cromosomas, el Anofeles El genoma es aproximadamente el doble de grande y el orden de los genes se ha barajado casi por completo, como revelaron nuestras alineaciones. Solo quedan pequeñas, pero numerosas, regiones de 'microsinteny': informamos 948 regiones, la más grande contiene 8 genes en Anofeles y 31 en Drosophila. Sin embargo, un hallazgo interesante fue que, a pesar de una mezcla extensa, cada brazo cromosómico tenía un claro predominio de homólogos en un solo brazo en las otras especies, lo que indica que la mezcla genética intracromosómica era la fuerza principal que afectaba el orden de los genes (consulte la Figura 7 de [34]). ).

Hongo versus hongo

En una aplicación actual, estamos usando Nucmer y Promer para comparar dos genomas de hongos relacionados, Aspergillus fumigatus (un patógeno humano) y A. nidulans (un organismo modelo no patógeno). Se ha completado la secuenciación de escopeta de estos dos genomas, y A. fumigatus está en proceso de estar completamente terminado, es decir, se están cerrando todas las brechas. (A. fumigatus es un proyecto de secuenciación conjunto de TIGR y The Sanger Institute, mientras que A. nidulans está siendo secuenciado en el Whitehead / MIT Genome Center.) En el momento de nuestra comparación más reciente, el A. fumigatus El genoma había progresado hasta el punto en que se ensambló en 19 andamios que abarcaban 28 Mbp, y el A. nidulans el genoma se ensambló en 238 contigs que abarcan 30 Mbp. Para esta comparación, primero ejecutamos Nucmer y descubrimos que la mayoría de los dos genomas se asignaron entre sí con bastante claridad: hay suficientes coincidencias para revelar grandes segmentos de similitud en un diagrama de puntos simple. Ha habido un reordenamiento extenso de los cromosomas, pero la sintenia a gran escala todavía está presente. Por ejemplo, el contig más grande (A1058) en A. fumigatus, a 2.9 Mbp, lo que representa un cromosoma esencialmente completo, se mapea en cinco andamios diferentes en A. nidulans. Si uno mira solo la alineación de Nucmer del más grande de estos, un andamio de 2.1 Mbp que contiene 10 contigs, parece estar reorganizado en múltiples segmentos, pero las coincidencias están tan dispersas que es difícil saber cuántos segmentos hay (Figura 1, lado izquierdo).

Alineaciones de gráficos de puntos de un cromosoma de 2,9 Mbp de A. fumigatus (X-eje) a un andamio de 2,1 Mbp de A. nidulans (y-eje). Izquierda: alineación basada en nucleótidos con Nucmer. Derecha: alineación basada en aminoácidos con Promer. Los segmentos alineados se representan como puntos o líneas, de hasta 3.000 pb de largo en la alineación de Nucmer y de hasta 9.500 pb en la alineación de Promer. Estas alineaciones fueron generadas por el script mummerplot y el programa Unix gnuplot.

Sin embargo, la alineación sinténica es mucho más claramente visible si usamos Promer en su lugar. El resumen más simple es solo el número de bases incluidas en las alineaciones: si miramos la alineación de Nucmer entre los andamios, el número total de bases coincidentes es 81 kbp. Por el contrario, la alineación de Promer cubre 1,87 Mbp de A1058, comenzando en la posición de nucleótidos 1.000.000 y continuando hasta el final del cromosoma. En la Figura 1 se muestra una ilustración gráfica, que muestra las alineaciones de Promer y Nucmer entre el andamio de 2.1 Mbp de A. nidulans y andamio A1058 de A. fumigatus. Como deja en claro la figura, la alineación basada en aminoácidos cubre mucho más de la secuencia de ambas especies y, por lo tanto, es mucho más útil para determinar relaciones homólogas entre genes y relaciones cromosómicas.

Humano versus humano

Una de las tareas computacionales más desafiantes que se pueden realizar en la actualidad es la comparación cruzada de genomas de mamíferos. Los genomas humanos y de ratón están lo suficientemente completos como para que gran parte de la investigación en curso se base en mapeos entre estas dos especies. Como se muestra en la Tabla 1, MUMmer 3.0 puede comparar cromosomas humanos y de ratón en cuestión de minutos.La tabla muestra el tiempo (7 minutos y 10 segundos, en un procesador Pentium de 2,4 GHz) necesario para alinear el cromosoma 16 del ratón (Mm16) con el cromosoma 21 humano (Hs21). Estos dos fueron elegidos porque casi todos los mapas de Hs21 en un extremo de Mm16, de hecho, los investigadores han desarrollado un modelo de ratón del síndrome de Down que tiene una copia adicional de esta parte de Mm16.

Realizamos una prueba de referencia de MUMmer 3.0 en la que comparamos el genoma humano (versión del 3 de enero de 2003, descargado de GenBank) con él mismo calculando todas las coincidencias máximas de longitud al menos 300 entre cada cromosoma y todos los demás. Las 631,975 coincidencias resultantes permiten identificar duplicaciones intercromosómicas tanto a gran como a pequeña escala. Tenga en cuenta que los tiempos de ejecución informados en [6] son ​​solo para la parte de búsqueda de coincidencias de MUMmer. Se omite el tiempo para procesar agrupaciones y realizar alineaciones en los espacios entre coincidencias, ya que varían ampliamente según los parámetros utilizados.

Para esta prueba, necesitábamos un máximo de aproximadamente 4 GB de memoria. Como no teníamos una PC disponible con esta cantidad de memoria, usamos una computadora Sun-Sparc con el sistema operativo Solaris, con 64 GB de memoria y un procesador de 950 MHz.

Ejecutamos la alineación de la siguiente manera. Cada cromosoma humano se usó como referencia, y el resto del genoma se usó como consulta y se transmitió contra él. Para evitar la duplicación, solo incluimos cromosomas en la consulta si aún no se habían comparado, por lo que primero usamos el cromosoma 1 como referencia y transmitimos los otros 23 cromosomas contra él. Luego usamos el cromosoma 2 como referencia y transmitimos los cromosomas 3-22, X e Y contra eso, y así sucesivamente.

La longitud total de todos los cromosomas humanos para esta prueba fue de 2.839 Mbp. El tiempo necesario para construir todos los árboles de sufijos fue de 4,7 horas. El requisito de espacio para el árbol de sufijos fue notablemente constante, con aproximadamente 15,5 bytes por par de bases (con una sola excepción). El tiempo total de consulta fue de 101,5 horas y el uso de memoria nunca superó los 3,9 GB (consulte [6] para obtener más detalles). Por lo tanto, en aproximadamente 4,5 días en un solo procesador, comparamos el genoma humano consigo mismo. Esto podría dividirse fácilmente entre varias computadoras, con cada cromosoma manejado por separado, reduciendo el tiempo a solo 11 horas.

Visores gráficos

Debido a que la salida de formato de texto de MUMmer 3.0 es a menudo voluminosa, hemos desarrollado dos visores gráficos, uno con el propósito de comparar dos conjuntos de genomas o secuencias casi idénticas, y el otro para comparar genomas relacionados más lejanamente, como dos especies distintas. . El primer visor, DisplayMUMs, es un programa Java de código abierto e independiente de la plataforma. Se ha probado en una variedad de plataformas Unix / Linux y también se ejecuta en computadoras Apple Macintosh (OS X) o Microsoft Windows. El programa, que toma como entrada los resultados de la ejecución de MUMmer, permite al usuario alinear y ver los resultados de dos ensamblajes diferentes del mismo genoma o genomas muy cercanos y colocar un conjunto de contigs en el otro. Esto proporciona una potente interfaz gráfica para la comparación de ensamblajes, una función que se utiliza con frecuencia en el proceso de ensamblaje y acabado de genomas. Permite al usuario visualizar el mosaico de las lecturas de secuencia en un ensamblaje para comprender por qué es posible que los contigs no se hayan fusionado correctamente. Alternativamente, se puede comparar la salida de diferentes ensambladores de genomas con los mismos datos, una tarea que puede resultar bastante desconcertante cuando el genoma es grande y los ensambladores no están de acuerdo.

DisplayMUMs crea una pantalla independiente, ilustrada en la Figura 2. Contiene tres áreas principales. El área superior puede mostrar una variedad de tipos de información, incluidas las alineaciones de nucleótidos ampliadas. El panel central muestra un resumen de la alineación, con la referencia mostrada como una barra gris. Las coincidencias de las consultas con la referencia se muestran como rectángulos verdes (hacia adelante) y rojos (hacia atrás), con los espacios indicados en gris. Una segunda barra gris muestra los espacios en azul, lo que puede parecer redundante pero es útil cuando la escala se aleja, por ejemplo, si la secuencia tiene solo un pequeño espacio y la escala muestra 1 Mbp, entonces el pequeño espacio será invisible en el barra superior, pero seguirá siendo visible en la barra inferior. El panel inferior muestra el mosaico de todas las secuencias de consulta en la referencia, con colores rojo y verde que indican las subcadenas de coincidencia directa e inversa. Como muestra la Figura 2, algunas secuencias pueden coincidir solo en una pequeña parte de su longitud, mientras que otras coincidirán en toda su longitud. DisplayMUMs tiene muchas otras características, incluidas las funciones de mouse y búsqueda, todas las cuales están documentadas en el software. Como deja en claro este ejemplo, su objetivo principal es mejorar la utilidad de MUMmer para el análisis de ensamblaje del genoma.

Pantalla de muestra de DisplayMUMs, que muestra la alineación del genoma completo de lecturas de escopeta individuales (secuencias de consulta) a un contig del Staphylococcus epidermidis genoma. La pantalla ilustra cómo se pueden ver las coincidencias exactas de las lecturas de mosaico contra el consenso de contig. Los colores verde y rojo en las secuencias de consulta indican alineación en las cadenas de avance y retroceso, respectivamente.

El segundo visor, MapView, crea una imagen del mapeo entre dos especies basándose en la salida de Nucmer o Promer. La motivación para crear este visor fue el número cada vez mayor de proyectos genómicos que se llevan a cabo para mejorar nuestra comprensión de otro genoma ya completado. En estos proyectos, el segundo genoma puede tener solo una leve similitud de secuencia de ADN con el primero y, en algunos casos, la similitud puede detectarse solo a través de alineaciones de secuencias de proteínas, como las producidas por Promer. Un buen ejemplo de un proyecto de este tipo es el reciente esfuerzo de secuenciar D. pseudoobscura mencionado anteriormente. La principal motivación de este proyecto es mejorar la anotación de D. melanogaster, y MUMmer es una de las herramientas que se utilizan para mapear el recién ensamblado D. pseudoobscura en eso. Debido a que el genoma de referencia está bien anotado, incluimos en el visor la opción de mostrar las ubicaciones de los genes (y sus identificadores) junto con el mapeo a nivel de secuencia de aminoácidos o de ADN. Una instantánea de esta alineación por MapView se encuentra en la Figura 3, lo que deja en claro que la conservación de aminoácidos entre estas dos especies coincide estrechamente con la estructura del exón anotado. Este visor se puede utilizar para resaltar áreas de un genoma donde los exones podrían haberse perdido en análisis anteriores.

Pantalla de muestra creada por el programa MapView, que muestra un segmento de 185 kbp de D. melanogaster cromosoma 2L y su alineación con D. pseudoobscura. La alineación, generada por Promer, muestra todas las regiones de la secuencia de aminoácidos conservada. El rectángulo azul que abarca la figura representa la referencia (D. melanogaster), con genes anotados que se muestran encima. Las variantes de empalme alternativas del mismo gen se apilan verticalmente. Los exones se muestran como recuadros, con intrones intermedios que los conectan. Las UTR 5 'y 3' son de color rosa y azul para indicar la dirección de traducción del gen. Las coincidencias de Promer se muestran dos veces, una justo debajo del genoma de referencia, donde todas las coincidencias se contraen en cuadros rojos, y en una pantalla más grande que muestra las coincidencias separadas dentro de cada contig, donde los contigs se colorean de manera diferente para indicar los límites de contig. La posición vertical de las coincidencias indica su porcentaje de identidad, que va desde el 50% en la parte inferior de la pantalla hasta el 100% justo debajo de los rectángulos rojos.

El programa MapView puede producir resultados en tres formatos: fig (para ver con el programa Unix xfig), PostScript o PDF. El formato más flexible, fig, permite el desplazamiento y el zoom ilimitados, y la exportación a una amplia gama de formatos adicionales. Esto facilita la visualización del mapeo entre una gran colección de contigs y un cromosoma grande.


Conclusiones

Estos resultados ilustran cómo la información contenida en los datos leídos para un proyecto de secuenciación del genoma completo proporciona un recurso valioso para mejoras continuas en un genoma, y ​​cómo los datos generados de forma independiente se pueden fusionar en datos WGS para producir un mejor ensamblaje. Las mejoras resultantes deberían proporcionar beneficios inmediatos a la comunidad investigadora, con la que esperamos trabajar para mejorar aún más el ensamblaje. Hasta que el ensamblaje esté realmente terminado, un estado que ningún genoma de mamíferos, incluido el humano, ha alcanzado todavía, continuaremos incorporando nuevos datos para llenar los vacíos, corregir las regiones mal orientadas y colocar más secuencias en los cromosomas. Los genomas de alpaca y oveja, que se están secuenciando actualmente, deberían proporcionar una fuente rica para realizar mejoras adicionales basadas en la conservación evolutiva entre estos mamíferos estrechamente relacionados.


Conclusiones

Proporcionamos, por primera vez, evidencia significativa en apoyo de la existencia del gen PAV generalizado en un pangenoma de metazoos. La estructura inusual del genoma del mejillón es el resultado de la presencia masiva de regiones genómicas hemicigotas, que contienen varios miles dispensable genes que codifican proteínas. El enriquecimiento de estos genes en funciones asociadas a la resiliencia al estrés y la respuesta inmune justifica una mayor investigación sobre los posibles vínculos entre PAV masivo y el éxito evolutivo de los mejillones, ejemplificado por la distribución cosmopolita de esta especie en aguas costeras marinas templadas. Lo más probable es que se pueda encontrar PAV extensivo en otros invertebrados marinos cosmopolitas caracterizados por desove al voleo, un tamaño de población efectivo muy grande y sujeto a presiones ambientales similares, incluidas otras especies de bivalvos donde se han informado tasas de heterocigosidad igualmente altas.


4. Proteínas no estructurales

Además de las proteínas estructurales que forman la cápside, el genoma viral codifica muchas NSP que desempeñan numerosas funciones en los procesos de replicación y ensamblaje del virus [37]. Estas proteínas participan en la patogénesis viral modulando la regulación de la transcripción temprana, la actividad helicasa, la inmunomodulación, la transactivación de genes y la respuesta antiviral [[38], [39], [40]].

Exploramos algunas de las funciones principales de los NSP en el SARS-CoV-2 (Tabla 1). La búsqueda de InterProScan reveló que los NSP de SARS-CoV-2 están involucrados en muchos procesos biológicos que incluyen la replicación del genoma viral (GO: 0019079 y GO: 0039694), el procesamiento de proteínas (GO: 0019082), la transcripción (GO: 0006351) y la proteólisis. (IR: 0006508). Estas proteínas están involucradas en la unión de ARN (GO: 0003723), actividad endopeptidasa (GO: 0004197), actividad transferasa (GO: 0016740), unión de ATP (GO: 0005524), unión de iones de zinc (GO: 0008270), ARN -dirigida 5 & # x02032-3 & # x02032 actividad ARN-polimerasa (GO: 0003968), actividad exoribonucleasa, que produce 5 & # x02032-fosfomonoésteres (GO: 0016896) y actividad metiltransferasa (GO: 0008168).

Tabla 1

Lista de proteínas no estructurales en SARS-CoV-2 y sus funciones moleculares.

S. No.DistanciaNombre e identificación de la proteínaDescripciónFunción propuesta
1.1 & # x02013180Nsp1
<"type": "entrez-protein", "attrs": <"text": "YP_009725297.1", "term_id": "1802476805", "term_text": "YP_009725297.1" >> YP_009725297.1
Nsp1 es el producto N-terminal de la replicasa viralInhibidor de la traducción del huésped de la proteína líder. Media la replicación y el procesamiento del ARN. Involucrado en la degradación del ARNm [41].
2.181 & # x02013818Nsp2
<"type": "entrez-protein", "attrs": <"text": "YP_009725298.1", "term_id": "1802476806", "term_text": "YP_009725298.1" >> YP_009725298.1
Nsp2 es un producto de replicasa esencial para corregir la replicación viralModulación de la vía de señalización de supervivencia de la célula huésped mediante la interacción con el huésped PHB y PHB2 [42].
3.819 & # x020132763Nsp3
<"type": "entrez-protein", "attrs": <"text": "YP_009725299.1", "term_id": "1802476807", "term_text": "YP_009725299.1" >> YP_009725299.1
Nsp3 es una proteinasa similar a la papaína que contiene varios dominios.Funciona como una proteasa para separar la poliproteína traducida en sus distintas proteínas [43, 44].
4.2764 & # x020133263Nsp4
<"type": "entrez-protein", "attrs": <"text": "YP_009725300.1", "term_id": "1802476808", "term_text": "YP_009725300.1" >> YP_009725300.1
Una proteína que atraviesa la membrana contiene el dominio transmembrana 2 (TM2)Se cree que ancla el complejo de replicación-transcripción viral a las membranas del RE modificadas [45].
5.3264 & # x020133569Nsp5
<"type": "entrez-protein", "attrs": <"text": "YP_009725301.1", "term_id": "1802476809", "term_text": "YP_009725301.1" >> YP_009725301.1
Proteinasa de tipo 3C y proteinasa principalInvolucrado en el procesamiento de poliproteínas virales durante la replicación [46].
6.3570 & # x020133859Nsp6
<"type": "entrez-protein", "attrs": <"text": "YP_009725302.1", "term_id": "1802476810", "term_text": "YP_009725302.1" >> YP_009725302.1
Dominio transmembrana putativoDesempeña un papel en la inducción inicial de autofagosomas del retículo endoplásmico del huésped.
7.3860 & # x020133942Nsp7
<"type": "entrez-protein", "attrs": <"text": "YP_009725303.1", "term_id": "1802476811", "term_text": "YP_009725303.1" >> YP_009725303.1
Nsp7 es una ARN polimerasa dependiente de ARNForma un supercomplejo hexadecamérico con nsp8 que adopta una estructura de cilindro hueco implicada en la replicación [47, 48].
8.3943 & # x020134140Nsp8
<"type": "entrez-protein", "attrs": <"text": "YP_009725304.1", "term_id": "1802476812", "term_text": "YP_009725304.1" >> YP_009725304.1
Replicasa polimerasa de ARN multiméricaForma un supercomplejo hexadecamérico con nsp7 que adopta una estructura cilíndrica hueca implicada en la replicación [47, 48].
9.4141 & # x020134253Nsp9
<"type": "entrez-protein", "attrs": <"text": "YP_009725305.1", "term_id": "1802476813", "term_text": "YP_009725305.1" >> YP_009725305.1
Una proteína viral de unión a ARN monocatenarioParticipar en la replicación viral actuando como una proteína de unión a ARNs [49].
10.4254 & # x020134392Nsp10
<"type": "entrez-protein", "attrs": <"text": "YP_009725306.1", "term_id": "1802476814", "term_text": "YP_009725306.1" >> YP_009725306.1
La proteína similar al factor de crecimiento contiene dos motivos que se unen al zincEn la transcripción viral estimulando tanto la exoribonucleasa nsp14 3 & # x02032-5 & # x02032 como la nsp16 2 & # x02032-O-actividades de la metiltransferasa. Por lo tanto, juega un papel esencial en la metilación de la capa de ARNm viral [50].
11.4393 & # x020135324Nsp12
<"type": "entrez-protein", "attrs": <"text": "YP_009725307.1", "term_id": "1802476815", "term_text": "YP_009725307.1" >> YP_009725307.1
ARN polimerasa dependiente de ARN
(Pol / RdRp)
Responsable de la replicación y transcripción del genoma del ARN viral [51].
12.5325 & # x020135925Nsp13
<"type": "entrez-protein", "attrs": <"text": "YP_009725308.1", "term_id": "1802476816", "term_text": "YP_009725308.1" >> YP_009725308.1
Dominio de unión al zinc, dominio NTPasa / helicasa, ARN 5 & # x02032-trifosfatasaUn dominio central de helicasa que se une a ATP. El dominio de unión al zinc participa en la replicación y la transcripción [52, 53].
13.5926 & # x020136452Nsp14
<"type": "entrez-protein", "attrs": <"text": "YP_009725309.1", "term_id": "1802476817", "term_text": "YP_009725309.1" >> YP_009725309.1
Revisión de dominio de exoribonucleasa (ExoN / nsp14)Actividad exoribonucleasa que actúa en una dirección 3 & # x02032 a 5 & # x02032 y actividad N7-guanina metiltransferasa.
14.6453 & # x020136798Nsp15
<"type": "entrez-protein", "attrs": <"text": "YP_009725310.1", "term_id": "1802476818", "term_text": "YP_009725310.1" >> YP_009725310.1
EndoRNAse nsp15-A1 y nsp15B-NendoUMn (2 +) - actividad endoribonucleasa dependiente
15.6799 & # x020137096Nsp16
<"type": "entrez-protein", "attrs": <"text": "YP_009725311.1", "term_id": "1802476819", "term_text": "YP_009725311.1" >> YP_009725311.1
2 & # x02032-O-ribosa metiltransferasaMetiltransferasa que media la metilación de la capa 2 y # x02032-O-ribosa del ARNm a la estructura de la capa 5 y # x02032 de los ARNm virales [54].
16.4393-4405Nsp11 <"type": "entrez-protein", "attrs": <"text": "YP_009725312.1", "term_id": "1802476820", "term_text": "YP_009725312.1" >> YP_009725312.1Compuesto por 13 aminoácidos (sadaqsflngfav) e idéntico al primer segmento de Nsp12.Desconocido

Para explorar las regiones intrínsecamente no estructuradas en la poliproteína SARS-CoV-2, la secuencia traducida de la poliproteína SARS-CoV-2 ORF1ab se recuperó del GenBank (ID de acceso: <"type": "entrez-nucleotide", "attrs": < "text": "NC_045512.2", "term_id": "1798174254", "term_text": "NC_045512.2" >> NC_045512.2). Hemos predicho las regiones intrínsecamente no estructuradas en la poliproteína SARS-CoV-2 a través de múltiples predictores como PONDR & # x000ae (Predictor of Natural Disordered Regions), VLXT, VL3, VLS2 [55] y servidores web IUPred2A [56]. Estas herramientas nos permitieron identificar regiones de proteínas desordenadas al predecir los residuos que no poseen la tendencia a formar una estructura en la condición nativa. Los residuos con una puntuación de & # x0003e0,5 umbrales se consideraron intrínsecamente desordenados, mientras que los residuos con una puntuación entre 0,2 y 0,5 se consideraron flexibles. El gráfico muestra la tendencia al desorden de cada residuo en la poliproteína SARS-CoV-2, donde los valores más altos corresponden a una mayor probabilidad de desorden (Fig. 3). El análisis de datos sugiere que el SARS-CoV-2 tiene una gran cantidad de regiones intrínsecamente desordenadas que carecen de una estructura terciaria bien definida en condiciones nativas. La región N-terminal de Nsp3 (920 & # x020131020) muestra una mayor tendencia a estar desordenada según lo predicho por los cuatro predictores. Además, este análisis proporciona una breve visión del proteoma no estructural, así como de las regiones proteicas no estructuradas de la poliproteína SARS-CoV-2 que pueden ser útiles para comprender la base estructural de la infección, el descubrimiento de fármacos basado en la estructura y la interacción del SARS. -Proteínas CoV-2 con proteínas del huésped en diferentes condiciones fisiológicas.

Gráfico que ilustra la tendencia al desorden de cada residuo en la poliproteína SARS-CoV2. La línea punteada es el valor umbral de 0,5.


Referencias

Abbott AG, Zhebentyayeva T, Barakat A, Liu Z (2015) El control genético de la brotación en árboles. Res. Bot avanzado: 201–228

Anagnostakis SL (2012) Cría de castañas en los Estados Unidos para la resistencia a enfermedades e insectos. Plant Dis 96: 1392–1403

Anders S, Pyl PT, Huber W (2015) HTSeq: un marco de Python para trabajar con datos de secuenciación de alto rendimiento. Bioinformática 31: 166–169

Anwar A, She M, Wang K, Riaz B, Ye X (2018) Roles biológicos de la ornitina aminotransferasa (OAT) en la tolerancia al estrés de las plantas: progreso actual y perspectivas futuras. Int J Mol Sci 19. https://doi.org/10.3390/ijms19113681

Aranzana MJ, Decroocq V, Dirlewanger E, Eduardo I, Gao ZS, Gasic K, Iezzoni A, Jung S, Peace C, Prieto H, Tao R, Verde I, Abbott AG, Arús P (2019) Prunus genética y aplicaciones después de la secuenciación del genoma de novo: logros y perspectivas. Investigación en horticultura 6:58

Arentz F (2017) Phytophthora cinnamomi A1: ¿un antiguo residente de Nueva Guinea y Australia de origen gondwano? Para Pathol 47: e12342

Auwera GA, Carneiro MO, Hartl C, Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella KV, Altshuler D, Gabriel S, DePristo MA (2013) Desde datos de FastQ hasta llamadas de variantes de alta confianza: el conjunto de herramientas de análisis del genoma con las mejores prácticas en proceso. Curr Protocol Bioinformática 43

Bacete L, Mélida H, Miedes E, Molina A (2018) Inmunidad mediada por la pared celular vegetal: los cambios en la pared celular desencadenan respuestas de resistencia a enfermedades. Planta J 93: 614–636

Baier K, Maynard C, Powell W (2012) Floración temprana en especies de castaños inducida con luz de alta intensidad y dosis altas en cámaras de crecimiento. Cofre J Amer encontrado 26: 8–10

Bairoch A, Apweiler R (1998) El banco de datos de secuencias de proteínas SWISS-PROT y su suplemento TrEMBL en 1998. Nucleic Acids Res 26: 38–42

Bao W, Kojima KK, Kohany O (2015) Actualización de Repbase, una base de datos de elementos repetitivos en genomas eucariotas. ADN de la mafia 6:11

Barakat A, DiLoreto DS, Zhang Y et al (2009) Comparación de las transcriptomas de castaño americano (Castanea dentata) y castaño chino (Castanea mollissima) en respuesta a la infección por tizón del castaño. BMC Plant Biol 9:51

Bielenberg DG, Wang Y (E), Li Z et al (2008) Secuenciación y anotación del locus en constante crecimiento en melocotón [Prunus persica (L.) Batsch] revela un grupo de seis factores de transcripción MADS-box como genes candidatos para la regulación de la formación de yemas terminales. Tree Genet Genomes 4: 495–507

Bodénès C, Chancerel E, Gailing O, Vendramin GG, Bagnoli F, Durand J, Goicoechea PG, Soliani C, Villani F, Mattioni C, Koelewijn H, Murat F, Salse J, Roussel G, Boury C, Alberto F, Kremer A , Plomion C (2012) Mapeo comparativo en Fagaceae y más allá con EST-SSR. BMC Plant Biol 12: 153

Bodénès C, Chancerel E, Ehrenmann F, Kremer A, Plomion C (2016) Mapeo de enlaces de alta densidad y distribución de regiones de distorsión de segregación en el genoma del roble. DNA Res 23: 115-124

broadinstitute broadinstitute / picard. En: GitHub. https://github.com/broadinstitute/picard. Consultado el 19 de diciembre de 2019.

Cahill DM, McComb JA (1992) Una comparación de los cambios en la actividad de la fenilalanina amoniaco-liasa, lignina y síntesis fenólica en las raíces de Eucalipto calophylla (resistente al campo) y E. marginata (susceptible) cuando se infecta con Phytophthora cinnamomi. Physiol Mol Plant Pathol 40: 315–332

Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, Madden TL (2009) BLAST +: arquitectura y aplicaciones. BMC Bioinformática 10: 421

Campoy JA, Ruiz D, Egea J, Rees DJG, Celton JM, Martínez-Gómez P (2011) Herencia del tiempo de floración en albaricoque (Prunus armeniaca L.) y análisis de loci de rasgos cuantitativos vinculados (QTL) utilizando marcadores de repetición de secuencia simple (SSR). Plant Mol Biol Report 29: 404–410

Casasoli M, Derory J, Morera-Dutrey C, Brendel O, Porth I, Guehl JM, Villani F, Kremer A (2006) Comparación de loci de rasgos cuantitativos para rasgos adaptativos entre roble y castaño basado en un mapa de consenso de etiquetas de secuencia expresado. Genética 172: 533–546

Caracterización TFPCFGG, el consorcio público franco-italiano para la caracterización del genoma de la vid (2007) La secuencia del genoma de la vid sugiere una hexaploidización ancestral en los principales filos de angiospermas. Naturaleza 449: 463–467

Clarke JD (2009) Minipreparación de ADN de bromuro de cetiltrimetil amonio (CTAB) para el aislamiento de ADN de plantas. Protocolos de Cold Spring Harb 2009: db.prot5177

Cooke JEK, Eriksson ME, Junttila O (2012) La naturaleza dinámica de la latencia de las yemas en los árboles: control ambiental y mecanismos moleculares. Plant Cell Environ 35: 1707–1728

Danecek P, Auton A, Abecasis G, Albers CA, Banks E, DePristo MA, Handsaker RE, Lunter G, Marth GT, Sherry ST, McVean G, Durbin R, 1000 Genomes Project Analysis Group (2011) El formato de llamada variante y VCFtools . Bioinformática 27: 2156–2158

Delgado-Cerrone L, Alvarez A, Mena E, Ponce de León I, Montesano M (2018) Análisis de todo el genoma de la familia CRK de la soja y regulación transcripcional por señales de estrés biótico que desencadenan la inmunidad de las plantas. PLoS One 13: e0207438

Derory J, Scotti-Saintagne C, Bertocchi E, le Dantec L, Graignic N, Jauffres A, Casasoli M, Chancerel E, Bodenes C, Alberto F, Kremer A (2010) Relaciones contrastantes entre la diversidad de genes candidatos y la variación del brote de yemas en poblaciones naturales y segregantes de encinas europeas. Herencia 105: 401–411

Diskin M, Steiner KC, Hebard FV (2006) Recuperación de las características del castaño americano después de la hibridación y el retrocruzamiento para restaurar el tizón devastado Castanea dentata. Para Ecol Manag 223: 439–447

Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, ​​Chaisson M, Gingeras TR (2013) STAR: alineador de secuencia de ARN universal ultrarrápido. Bioinformática 29: 15-21

Eddy SR (2011) Búsquedas aceleradas de perfiles HMM. PLoS Comput Biol 7: e1002195

Emms DM, Kelly S (2015) OrthoFinder: resolver los sesgos fundamentales en las comparaciones del genoma completo mejora drásticamente la precisión de la inferencia de ortogrupos. Biol del genoma 16: 157

Endelman JB, Plomion C (2014) LPmerge: un paquete R para fusionar mapas genéticos mediante programación lineal. Bioinformática 30: 1623–1624

Engelbrecht J, van den Berg N (2013) Expresión de genes relacionados con la defensa contra Phytophthora cinnamomi en cinco portainjertos de aguacate. S Afr J Sci 109: 1–8

Fan S, Bielenberg DG, Zhebentyayeva TN, Reighard GL, Okie WR, Holland D, Abbott AG (2010) Mapeo de los loci de rasgos cuantitativos asociados con el requisito de enfriamiento, el requisito de calor y la fecha de floración en melocotón (Prunus persica). Nuevo Phytol 185: 917–930

Fan S, Georgi L, Hebard FV, et al (2020) Mapeo de QTL para resistencia al tizón y rasgos morfológicos y fenológicos en castaños (Castanea spp.). (en preparación)

Fang GC, Blackmon BP, Staton ME, Nelson CD, Kubisiak TL, Olukolu BA, Henry D, Zhebentyayeva T, Saski CA, Cheng CH, Monsanto M, Ficklin S, Atkins M, Georgi LL, Barakat A, Wheeler N, Carlson JE , Sederoff R, Abbott AG (2013) Un mapa físico del castaño chino (Castanea mollissima) genoma y su integración con el mapa genético. Tree Genet Genomes 9: 525–537

Freinkel S (2009) Castaño americano: la vida, la muerte y el renacimiento de un árbol perfecto. Prensa de la Universidad de California

Gabay G, Dahan Y, Izhaki Y, Faigenboim A, Ben-Ari G, Elkind Y, Flaishman MA (2018) Mapa de ligamiento genético de alta resolución de la pera europea (Pyrus communis) y mapeo fino de QTL del tiempo de brotación vegetativa. BMC Plant Biol 18: 175

Goodstein DM, Shu S, Howson R, Neupane R, Hayes RD, Fazo J, Mitros T, Dirks W, Hellsten U, Putnam N, Rokhsar DS (2012) Phytozome: una plataforma comparativa para la genómica de plantas verdes. Ácidos nucleicos Res 40: D1178 – D1186

Gremme G, Brendel V, Sparks ME, Kurtz S (2005) Ingeniería de una herramienta de software para la predicción de la estructura genética en organismos superiores. Inf Softw Technol 47: 965–978

Groover A, Cronk Q (eds) (2017) Genómica comparativa y evolutiva de árboles de angiospermas. Springer, Cham

Hamann T (2015) El mecanismo de mantenimiento de la integridad de la pared celular vegetal: conceptos de organización y modo de acción. Plant Cell Physiol 56: 215-223

Hebard FV (1994) Herencia de rasgos morfológicos juveniles de hojas y tallos en cruces de castaño chino y americano. J Hered 85: 440–446

Hebard FV (2005) El programa de retrocruzamiento de la American Chestnut Foundation. En Proc. de la Conferencia sobre Restauración de Castaño Americano a Tierras Forestales. Steiner, K.C. y J.E. Carlson (eds.)

Hoff KJ, Lange S, Lomsadze A, Borodovsky M, Stanke M (2016) BRAKER1: anotación del genoma no supervisada basada en RNA-Seq con GeneMark-ET y AUGUSTUS. Bioinformática 32: 767–769

Hung C-Y, Aspesi P Jr, Hunter MR et al (2014) La señalización de fosfoinosítidos es un componente de una sólida respuesta de defensa de las plantas. Front Plant Sci 5: 267

Iniciativa Internacional del Genoma del Melocotón, Verde I, Abbott AG et al (2013) El borrador del genoma de alta calidad del melocotón (Prunus persica) identifica patrones únicos de diversidad genética, domesticación y evolución del genoma. Nat Genet 45: 487–494

Islam-Faridi MN, Childs KL, Klein PE, Hodnett G, Menz MA, Klein RR, Rooney WL, Mullet JE, Stelly DM, Price HJ (2002) Un mapa citogenético molecular del cromosoma 1 del sorgo. Fluorescencia en el lugar análisis de hibridación con cromosomas artificiales bacterianos mapeados. Genética 161: 345–353

Islam-Faridi MN, Nelson CD, DiFazio SP et al (2009) Análisis citogenético de Populus trichocarpa- ADN ribosómico, secuencia de repetición de telómeros y BAC seleccionados por marcadores. Cytogenet Genome Res 125: 74–80

Jewell DC, Islam-Faridi N (1994) Una técnica para la preparación de cromosomas somáticos y bandas C del maíz. The Maize Handbook: 484–493

Jiang H, Lei R, Ding S-W, Zhu S (2014) Skewer: un recortador de adaptador rápido y preciso para lecturas de extremo emparejado de secuenciación de próxima generación. BMC Bioinformática 15: 182

Jiao W-B, Schneeberger K (2017) El impacto de las tecnologías genómicas de tercera generación en el ensamblaje del genoma vegetal. Curr Opin Plant Biol 36: 64–70

Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat S, Quinn AF, Sangrador-Vegas A, Scheremetjew M, Yong SY, Lopez R, Hunter S (2014) InterProScan 5: clasificación de la función de proteínas a escala del genoma. Bioinformática 30: 1236-1240

Kanehisa M, Sato Y, Morishima K (2016) BlastKOALA y GhostKOALA: herramientas KEGG para la caracterización funcional de secuencias del genoma y metagenoma. J Mol Biol 428: 726–731

Kang J, Park J, Choi H, Burla B, Kretzschmar T, Lee Y, Martinoia E (2011) Plant ABC transporters. Libro de Arabidopsis 9: e0153

Kaye Y, Golani Y, Singer Y, Leshem Y, Cohen G, Ercetin M, Gillaspy G, Levine A (2011) El polifosfato de inositol 5-fosfatasa7 regula la producción de especies reactivas de oxígeno y la tolerancia a la sal en Arabidopsis. Plant Physiol 157: 229–241

Korneliussen TS, Albrechtsen A, Nielsen R (2014) ANGSD: análisis de datos de secuenciación de próxima generación. BMC Bioinformática 15: 356

Kremer A, Casasoli M, Barreneche T et al (2007) Mapeo genético comparativo en Fagaceae. En: Kole CR (ed) Genome Mapping & amp Molecular Breeding in plants, vol. 7: Árboles forestales. Springer, Heidelberg, págs. 161–187

Krzywinski M, Schein J, Birol I, Connors J, Gascoyne R, Horsman D, Jones SJ, Marra MA (2009) Circos: una estética de la información para la genómica comparada. Genoma Res 19: 1639–1645

Kubisiak TL, Hebard FV, Nelson CD, Zhang J, Bernatzky R, Huang H, Anagnostakis SL, Doudrick RL (1997) Mapeo molecular de la resistencia al tizón en un cruce interespecífico del género castanea. Fitopatología 87: 751–759

Kubisiak TL, Nelson CD, Staton ME, Zhebentyayeva T, Smith C, Olukolu BA, Fang GC, Hebard FV, Anagnostakis S, Wheeler N, Sisco PH, Abbott AG, Sederoff RR (2013) Un mapa genético del castaño chino basado en transcriptomas (Castanea mollissima) e identificación de regiones de homología segmentaria con melocotón (Prunus persica). Tree Genet Genomes 9: 557–571

LaBonte NR, Zhao P, Woeste K (2018) Firmas de selección en los genomas del castaño chino (Castanea mollissima Blume): las raíces de la domesticación del árbol de nueces. Planta delantera Sci 9

Labuschagné IF, Louw JH, Schmidt K, Sadie A (2003) Número de brotes en plántulas de manzana como criterio de selección para mejorar la adaptabilidad a climas templados de invierno. HortScience 38: 1186–1190

Lamesch P, Berardini TZ, Li D, Swarbreck D, Wilks C, Sasidharan R, Muller R, Dreher K, Alexander DL, Garcia-Hernandez M, Karthikeyan AS, Lee CH, Nelson WD, Ploetz L, Singh S, Wensel A, Huala E (2012) El recurso de información de Arabidopsis (TAIR): anotación genética mejorada y nuevas herramientas. Ácidos nucleicos Res 40: D1202 – D1210

Lang P, Dane F, Kubisiak TL, Huang H (2007) Evidencia molecular de un origen asiático y una migración única hacia el oeste de especies del género Castanea a través de Europa a América del Norte. Mol Phylogenet Evol 43: 49–59

Lee DS, Kim YC, Kwon SJ, Ryu CM, Park OK (2017) La quinasa CRK36 de tipo receptor rico en cisteína de Arabidopsis regula la inmunidad a través de la interacción con la quinasa citoplasmática BIK1. Planta delantera Sci 8: 1856

Li H, Durbin R (2009) Alineación de lectura corta rápida y precisa con la transformada de Burrows-Wheeler. Bioinformática 25: 1754-1760

Liu Z, Zhu H, Abbott A (2015) Comportamientos de latencia y mecanismos reguladores subyacentes: desde la perspectiva de las vías hacia la regulación epigenética. Avances en la inactividad de las plantas 75-105

Luo MC, You FM, Li P, Wang JR, Zhu T, Dandekar AM, Leslie CA, Aradhya M, McGuire PE, Dvorak J (2015) El análisis de Synteny en Rosids con un mapa físico de nuez revela una lenta evolución del genoma en leñosos de larga vida perennes. BMC Genomics 16: 707

Madoui M-A, Engelen S, Cruaud C, Belser C, Bertrand L, Alberti A, Lemainque A, Wincker P, Aury JM (2015) Ensamblaje del genoma utilizando lecturas de ADN largas y sin errores guiadas por nanoporos. BMC Genomics 16: 327

McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA (2010) El kit de herramientas de análisis del genoma: un marco MapReduce para analizar la secuenciación de ADN de próxima generación datos. Genome Res 20: 1297–1303

Miedes E, Vanholme R, Boerjan W, Molina A (2014) El papel de la pared celular secundaria en la resistencia de las plantas a los patógenos. Front Plant Sci 5: 358

Naveed ZA, Huguet-Tapia JC, Ali GS (2019) Perfil de transcriptoma de raíces de citrange Carrizo en respuesta a Phytophthora parasitica infección. J Plant Interact 14: 187-204

Nielsen R, Korneliussen T, Albrechtsen A, Li Y, Wang J (2012) Llamada de SNP, llamada de genotipo y estimación de frecuencia de alelos de muestra a partir de datos de secuenciación de nueva generación. PLoS One 7: e37558

Olukolu BA, Nelson CD, Abbott AG (2012) Mapeo de la resistencia a Phytophthora cinnamomi en castaños (Castanea sp.). En: En: Sniezko, Richard A. Yanchuk, Alvin D. Kliejunas, John T. Palmieri, Katharine M. Alexander, Janice M. Frankel, Susan J., técnico. coords. Actas del cuarto taller internacional sobre la genética de las interacciones huésped-parásito en la silvicultura: resistencia a enfermedades e insectos en árboles forestales. Gen. Tech. Representante PSW-GTR-240. Albany, CA: Estación de Investigación del Pacífico Sudoeste, Servicio Forestal, Departamento de Agricultura de EE. UU. pag. 177. pág. 177

Pereira-Lorenzo S, Costa R, Anagnostakis S, et al (2016) Hibridación interespecífica de castaño. Poliploidía e hibridación para la mejora de cultivos Boca Raton 377–407

Plomion C, Aury JM, Amselem J, Leroy T, Murat F, Duplessis S, Faye S, Francillonne N, Labadie K, le Provost G, Lesur I, Bartholomé J, Faivre-Rampant P, Kohler A, Leplé JC, Chantret N , Chen J, Diévart A, Alaeitabar T, Barbe V, Belser C, Bergès H, Bodénès C, Bogeat-Triboulot MB, Bouffaud ML, Brachi B, Chancerel E, Cohen D, Couloux A, da Silva C, Dossat C, Ehrenmann F, Gaspin C, Grima-Pettenati J, Guichoux E, Hecker A, Herrmann S, Hugueney P, Hummel I, Klopp C, Lalanne C, Lascoux M, Lasserre E, Lemainque A, Desprez-Loustau ML, Luyten I, Madoui MA , Mangenot S, Marchal C, Maumus F, Mercier J, Michotey C, Panaud O, Picault N, Rouhier N, Rué O, Rustenholz C, Salin F, Soler M, Tarkka M, Velt A, Zanne AE, Martin F, Wincker P, Quesneville H, Kremer A, Salse J (2018) El genoma del roble revela facetas de una larga vida útil. Nat Plants 4: 440–452

Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MAR, Bender D, Maller J, Sklar P, de Bakker PIW, Daly MJ, Sham PC (2007) PLINK: un conjunto de herramientas para la asociación y población de genoma completo análisis de vinculación basados ​​en Am J Hum Genet 81: 559–575

Raaymakers TM, Van den Ackerveken G (2016) Reconocimiento extracelular de Oomycetes durante la infección biotrófica de plantas. Front Plant Sci 7: 906

Raes J, Rohde A, Christensen JH, van de Peer Y, Boerjan W (2003) Caracterización de todo el genoma de la caja de herramientas de lignificación en Arabidopsis. Plant Physiol 133: 1051–1071

Ramos AM, Usié A, Barbosa P, Barros PM, Capote T, Chaves I, Simões F, Abreu I, Carrasquinho I, Faro C, Guimarães JB, Mendonça D, Nóbrega F, Rodrigues L, Saibo NJM, Varela MC, Egas C , Matos J, Miguel CM, Oliveira MM, Ricardo CP, Gonçalves S (2018) El borrador de la secuencia del genoma del alcornoque. Datos de ciencia 5: 180069

Ribeiro T, Loureiro J, Santos C, Morais-Cecílio L (2011) Evolución de los patrones de ADNr FISH en Fagaceae. Tree Genet Genomes 7: 1113–1122

Robinson SM, Bostock RM (2014) β-glucanos y ácidos eicosapolienóicos como MAMP en interacciones planta-oomiceto: pasado y presente. Parte delantera. Plant Sci 5: 797

Santos C, Nelson CD, Zhebentyayeva T, Machado H, Gomes-Laranjo J, Costa RL (2017) Primer mapa de ligamiento genético interespecífico para Castanea sativa X Castanea crenata QTL revelados para la resistencia a Phytophthora cinnamomi. PLoS One 12: e0184381

Scotti-Saintagne C, Bodénès C, Barreneche T et al (2004) Detección de loci de rasgos cuantitativos que controlan el brote de yemas y el crecimiento en altura en Quercus robur L. Theor Appl Genet 109: 1648–1659

Serrazina S, Santos C, Machado H, Pesquita C, Vicentini R, Pais MS, Sebastiana M, Costa R (2015) Transcriptoma de raíz de Castanea en respuesta a Phytophthora cinnamomi desafío. Genomas de genes de árboles 11

Shi R, Sun Y-H, Li Q, Heber S, Sederoff R, Chiang VL (2010) Hacia un enfoque de sistemas para la biosíntesis de lignina en Populus trichocarpa: abundancia de transcripciones y especificidad de los genes biosintéticos de monolignol. Plant Cell Physiol 51: 144-163

Shim D, Ko J-H, Kim W-C, Wang Q, Keathley DE, Han KH (2014) Un marco molecular para la regulación de la latencia del crecimiento estacional en plantas perennes. Res. Hórtica 1: 14059

Simão FA, Waterhouse RM, Ioannidis P, Kriventseva EV, Zdobnov EM (2015) BUSCO: evaluación del ensamblaje del genoma y la completitud de la anotación con ortólogos de copia única. Bioinformática 31: 3210–3212

Smit AFA, Hubley R, Green P (2015) RepeatMasker Open-4.0. 2013-2015

Solovyev V (2004) Enfoques estadísticos en la predicción de genes eucariotas. Manual de genética estadística

Staton M, Zhebentyayeva T, Olukolu B, Fang GC, Nelson D, Carlson JE, Abbott AG (2015) Preservación sustancial de la sintencia del genoma entre las especies de angiospermas leñosas: genómica comparativa del castaño chino (Castanea mollissima) y genomas de referencia de plantas. BMC Genomics 16: 744

Steiner KC, Westbrook JW, Hebard FV, Georgi LL, Powell WA, Fitzsimmons SF (2017) Rescate de castaño americano con genes extraespecíficos tras su destrucción por un patógeno naturalizado. Nuevo para 48: 317–336

Tajima F (1989) Método estadístico para probar la hipótesis de la mutación neutra por polimorfismo de ADN. Genética 123: 585–595

Tauzin AS, Giardina T (2014) Sacarosa e invertasas, una parte de la respuesta de defensa de las plantas al estrés biótico. Front Plant Sci 5: 293

Teixeira MA, Rajewski A, He J, Castaneda OG, Litt A, Kaloshian I (2018) Clasificación y análisis filogenéticos de la Arabidopsis y quinasas receptoras de lectina de tipo G de tomate. BMC Genomics 19: 239

Tennessen JA, Madeoy J, Akey JM (2010) Firmas de selección positiva aparentes en una pequeña muestra de exomas humanos. Genome Res 20: 1327-1334

Toljamo A, Blande D, Kärenlampi S, Kokko H (2016) Reprogramación de fresa (Fragaria vesca) transcriptoma raíz en respuesta a Phytophthora cactorum. PLoS One 11: e0161078

Tuskan GA, Difazio S, Jansson S et al (2006) El genoma del álamo negro, Populus trichocarpa (Torr. & Amp gris). Science 313: 1596–1604

Tuskan GA, Groover AT, Schmutz J, DiFazio SP, Myburg A, Grattapaglia D, Smart LB, Yin T, Aury JM, Kremer A, Leroy T, le Provost G, Plomion C, Carlson JE, Randall J, Westbrook J, Grimwood J, Muchero W, Jacobson D, Michener JK (2018) Genómica de árboles de madera dura: desbloqueando la biología de las plantas leñosas. Planta delantera Sci 9: 1799

Vaattovaara A, Brandt B, Rajaraman S, Safronov O, Veidenberg A, Luklová M, Kangasjärvi J, Löytynoja A, Hothorn M, Salojärvi J, Wrzaczek M (2019) Conocimientos mecanicistas sobre la evolución de proteínas que contienen DUF26 en plantas terrestres. Commun Biol 2:56

van den Berg N, Christie JB, Aveling TAS, Engelbrecht J (2018) Inhibidores de callosa y β-1,3-glucanasa Phytophthora cinnamomi en un patrón de aguacate resistente. Plant Pathol 67: 1150–1160

Veillet F, Gaillard C, Coutos-Thévenot P, La Camera S (2016) Dirigido al gen AtCWIN1 para explorar el papel de las invertasas en el transporte de sacarosa en las raíces y durante la infección por Botrytis cinerea. Planta delantera Sci 7

Verde I, Jenkins J, Dondini L, et al (2017) La versión de peach v2.0: el mapeo de ligamiento de alta resolución y la resecuenciación profunda mejoran el ensamblaje y la contigüidad a escala cromosómica. BMC Genomics 18

Westbrook JW, Zhang Q, Mandal MK, et al (2019) Los análisis de selección genómica revelan un compromiso entre la tolerancia al tizón del castaño y la herencia del genoma del castaño americano (Castanea dentata) en (C. dentatax Prunus) x C. dentata poblaciones retrocruzadas

Wilkinson L (2011) ggplot2: gráficos elegantes para el análisis de datos de WICKHAM, H. Biometrics 67: 678–679

Williams SP, Gillaspy GE, Perera IY (2015) Biosíntesis y posibles funciones de pirofosfatos de inositol en plantas. Planta delantera Sci 6:67

Xing Y, Liu Y, Zhang Q, Nie X, Sun Y, Zhang Z, Li H, Fang K, Wang G, Huang H, Bisseling T, Cao Q, Qin L (2019) Ensamblaje híbrido de novo del genoma de castaño chino (Castanea mollissima). Gigascience 8. https://doi.org/10.1093/gigascience/giz112

Zentmyer GA (1988) Origen y distribución de cuatro especies de Phytophthora. Trans Br Mycol Soc 91: 367–378

Zhebentyayeva T, Chandra A, Abbott AG, et al (2012) Recursos genéticos y genómicos para mapear la resistencia a Phytophthora cinnamomi en castaño. En: V Simposio Internacional de la Castaña 1019. págs. 263–270

Zhebentyayeva TN, Sisco PH, Georgi LL, Jeffers SN, Perkins MT, James JB, Hebard FV, Saski C, Nelson CD, Abbott AG (2019) Diseccionando la resistencia a Phytophthora cinnamomi en cruces de castaños híbridos interespecíficos utilizando genotipado basado en secuencia y mapeo QTL. Fitopatología 109: 1594–1604


Como ocurre con cualquier tipo de mapa, un mapa genético debe mostrar las posiciones de las características distintivas. En un mapa geográfico, estos marcadores son componentes reconocibles del paisaje, como ríos, carreteras y edificios. ¿Qué marcadores podemos usar en un paisaje genético?

5.2.1. Los genes fueron los primeros marcadores que se utilizaron

Los primeros mapas genéticos, construidos en las primeras décadas del siglo XX para organismos como la mosca de la fruta, utilizaron genes como marcadores. Esto fue muchos años antes de que se entendiera que los genes son segmentos de moléculas de ADN. En cambio, se consideró a los genes como entidades abstractas responsables de la transmisión de características hereditarias de padres a hijos. Para ser útil en el análisis genético, una característica hereditaria debe existir en al menos dos formas o fenotipos alternativos, un ejemplo son los tallos altos o cortos en las plantas de guisantes originalmente estudiadas por Mendel. Cada fenotipo está especificado por un alelo diferente del gen correspondiente. Para empezar, los únicos genes que podían estudiarse eran los que especificaban fenotipos que eran distinguibles mediante un examen visual. Entonces, por ejemplo, los primeros mapas de moscas de la fruta mostraron las posiciones de los genes para el color del cuerpo, el color de los ojos, la forma de las alas, etc. . Este enfoque estuvo bien en los primeros días, pero los genetistas pronto se dieron cuenta de que solo había un número limitado de fenotipos visuales cuya herencia podía estudiarse y, en muchos casos, su análisis fue complicado porque un solo fenotipo podría verse afectado por más de un gen. Por ejemplo, en 1922 se habían mapeado más de 50 genes en los cuatro cromosomas de la mosca de la fruta, pero nueve de estos eran para el color de los ojos en una investigación posterior, los genetistas que estudiaban las moscas de la fruta tuvieron que aprender a distinguir entre los ojos de las moscas que eran de color rojo, rojo claro. , bermellón, granate, clavel, cinabrio, rubí, sepia, escarlata, rosa, cardenal, burdeos, morado o marrón. Para hacer que los mapas genéticos sean más completos, sería necesario encontrar características que fueran más distintivas y menos complejas que las visuales.

La respuesta fue utilizar la bioquímica para distinguir fenotipos. Esto ha sido particularmente importante con dos tipos de organismos: microbios y humanos. Los microbios, como las bacterias y las levaduras, tienen muy pocas características visuales, por lo que el mapeo de genes con estos organismos debe basarse en fenotipos bioquímicos como los que se enumeran en la Tabla 5.1. Con los seres humanos es posible utilizar características visuales, pero desde la década de 1920 los estudios de la variación genética humana se han basado en gran medida en fenotipos bioquímicos que pueden puntuarse mediante la tipificación sanguínea. Estos fenotipos incluyen no solo los grupos sanguíneos estándar como la serie ABO (Yamamoto et al., 1990), sino también variantes de proteínas del suero sanguíneo y de proteínas inmunológicas como los antígenos leucocitarios humanos (el sistema HLA). Una gran ventaja de estos marcadores es que muchos de los genes relevantes tienen múltiples alelos. Por ejemplo, el gen llamado HLA-DRB1 tiene al menos 290 alelos y HLA-B tiene más de 400. Esto es relevante debido a la forma en que se lleva a cabo el mapeo de genes con humanos (Sección 5.2.4). En lugar de establecer muchos experimentos de reproducción, que es el procedimiento con organismos experimentales como moscas de la fruta o ratones, los datos sobre la herencia de genes humanos deben obtenerse examinando los fenotipos que muestran los miembros de una sola familia. Si todos los miembros de la familia tienen el mismo alelo para el gen que se está estudiando, no se puede obtener información útil. Por tanto, es necesario que los matrimonios relevantes hayan ocurrido, por casualidad, entre individuos con diferentes alelos. Esto es mucho más probable si el gen que se está estudiando tiene 290 en lugar de dos alelos.

Cuadro 5.1

Marcadores bioquímicos típicos utilizados para el análisis genético de Saccharomyces cerevisiae.

5.2.2. Marcadores de ADN para mapeo genético

Los genes son marcadores muy útiles, pero de ninguna manera son ideales. Un problema, especialmente con genomas más grandes como los de vertebrados y plantas con flores, es que un mapa basado completamente en genes no es muy detallado. Esto sería cierto incluso si todos los genes pudieran mapearse porque, como vimos en el Capítulo 2, en la mayoría de los genomas eucariotas los genes están muy espaciados con grandes espacios entre ellos (ver Figura 2.2). El problema se agrava por el hecho de que solo una fracción del número total de genes existe en formas alélicas que pueden distinguirse convenientemente. Por tanto, los mapas genéticos no son muy completos. Necesitamos otros tipos de marcadores.

Las características mapeadas que no son genes se denominan marcadores de ADN. Al igual que con los marcadores genéticos, un marcador de ADN debe tener al menos dos alelos para ser útil. Hay tres tipos de características de secuencia de ADN que satisfacen este requisito: polimorfismos de longitud de fragmentos de restricción (RFLP), polimorfismos de longitud de secuencia simple (SSLP) y polimorfismos de un solo nucleótido (SNP).

Polimorfismos de longitud de los fragmentos de restricción (RFLP)

Los RFLP fueron el primer tipo de marcador de ADN que se estudió. Recuerde que las enzimas de restricción cortan moléculas de ADN en secuencias de reconocimiento específicas (Sección 4.1.2). Esta especificidad de secuencia significa que el tratamiento de una molécula de ADN con una enzima de restricción debería producir siempre el mismo conjunto de fragmentos. Este no es siempre el caso de las moléculas de ADN genómico porque algunos sitios de restricción son polimórficos, existen como dos alelos, un alelo muestra la secuencia correcta para el sitio de restricción y, por lo tanto, se corta cuando el ADN se trata con la enzima, y ​​el segundo alelo tiene una alteración de la secuencia por lo que el sitio de restricción ya no se reconoce. El resultado de la alteración de la secuencia es que los dos fragmentos de restricción adyacentes permanecen unidos después del tratamiento con la enzima, lo que conduce a un polimorfismo de longitud (Figura 5.4). Este es un RFLP y su posición en un mapa del genoma puede calcularse siguiendo la herencia de sus alelos, tal como se hace cuando los genes se utilizan como marcadores. Se cree que hay alrededor de 105 RFLP en el genoma humano, pero, por supuesto, para cada RFLP solo puede haber dos alelos (con y sin el sitio). Por lo tanto, el valor de los RFLP en el mapeo de genes humanos está limitado por la alta posibilidad de que el RFLP que se está estudiando no muestre variabilidad entre los miembros de una familia interesante.

Figura 5.4

Un polimorfismo de longitud de fragmentos de restricción (RFLP). La molécula de ADN de la izquierda tiene un sitio de restricción polimórfico (marcado con un asterisco) que no está presente en la molécula de la derecha. El RFLP se revela después del tratamiento con la enzima de restricción (más.)

Para puntuar un RFLP, es necesario determinar el tamaño de solo uno o dos fragmentos de restricción individuales en un contexto de muchos fragmentos irrelevantes. Este no es un problema trivial: una enzima como EcoRI, con una secuencia de reconocimiento de 6 pb, debería cortar aproximadamente una vez cada 4 6 = 4096 pb y, por lo tanto, daría casi 800 000 fragmentos cuando se usa con ADN humano. Después de la separación por electroforesis en gel de agarosa (véase la nota técnica 2.1), estos 800 000 fragmentos producen un frotis y el RFLP no se puede distinguir. La hibridación Southern, utilizando una sonda que se extiende por el sitio de restricción polimórfica, proporciona una forma de visualizar el RFLP (Figura 5.5A), pero hoy en día la PCR se usa con más frecuencia. Los cebadores para la PCR están diseñados de modo que aparezcan a ambos lados del sitio polimórfico, y el RFLP se tipifica tratando el fragmento amplificado con la enzima de restricción y luego procesando una muestra en un gel de agarosa (Figura 5.5B).

Figura 5.5

Dos métodos para calificar un RFLP. (A) Los RFLP pueden puntuarse mediante hibridación Southern. El ADN se digiere con la enzima de restricción apropiada y se separa en un gel de agarosa. El frotis de fragmentos de restricción se transfiere a una membrana de nailon y (más.)

Polimorfismos de longitud de secuencia simple (SSLP)

Los SSLP son conjuntos de secuencias repetidas que muestran variaciones de longitud, diferentes alelos que contienen diferentes números de unidades repetidas (Figura 5.6A). A diferencia de los RFLP, los SSLP pueden ser multialélicos, ya que cada SSLP puede tener varias variantes de longitud diferentes. Hay dos tipos de SSLP, ambos descritos en la Sección 2.4.1:

Figura 5.6

SSLP y cómo se escriben. (A) Dos alelos de un microsatélite SSLP. En el alelo 1, el motivo & # x02018GA & # x02019 se repite tres veces y en el alelo 2 se repite cinco veces. (B) Cómo se podría escribir el SSLP mediante PCR. La región que rodea al SSLP (más.)

Los microsatélites son más populares que los minisatélites como marcadores de ADN, por dos razones. Primero, los minisatélites no se distribuyen uniformemente por el genoma, pero tienden a encontrarse con mayor frecuencia en las regiones teloméricas en los extremos de los cromosomas. En términos geográficos, esto equivale a intentar utilizar un mapa de faros para orientarse por el centro de una isla. Los microsatélites están más convenientemente espaciados por todo el genoma. En segundo lugar, la forma más rápida de tipificar un polimorfismo de longitud es mediante PCR (figura 5.6B), pero la tipificación por PCR es mucho más rápida y precisa con secuencias de menos de 300 pb de longitud. La mayoría de los alelos de minisatélites son más largos porque las unidades repetidas son relativamente grandes y tienden a haber muchas de ellas en una sola matriz, por lo que se necesitan productos de PCR de varios kb para tipificarlos. Los microsatélites típicos consisten en 10 & # x0201330 copias de una repetición que generalmente no tiene más de 4 pb de longitud, por lo que son mucho más susceptibles de análisis por PCR. Hay 6.5 & # x000d7 10 5 microsatélites en el genoma humano (ver Tabla 1.3).

Polimorfismos de un solo nucleótido (SNP)

Estas son posiciones en un genoma donde algunos individuos tienen un nucleótido (por ejemplo, un G) y otros tienen un nucleótido diferente (por ejemplo, un C) (Figura 5.7). Hay una gran cantidad de SNP en cada genoma, algunos de los cuales también dan lugar a RFLP, pero muchos de los cuales no lo hacen porque la secuencia en la que se encuentran no es reconocida por ninguna enzima de restricción. En el genoma humano hay al menos 1,42 millones de SNP, de los cuales solo 100 000 dan lugar a un RFLP (SNP Group, 2001).

Figura 5.7

Un polimorfismo de un solo nucleótido (SNP).

Aunque cada SNP podría, potencialmente, tener cuatro alelos (porque hay cuatro nucleótidos), la mayoría existen en solo dos formas, por lo que estos marcadores adolecen del mismo inconveniente que los RFLP con respecto al mapeo genético humano: existe una alta posibilidad de que un SNP no presenta ninguna variabilidad en la familia que se está estudiando. Las ventajas de los SNP son su abundante número y el hecho de que pueden tipificarse mediante métodos que no implican electroforesis en gel. Esto es importante porque la electroforesis en gel ha resultado difícil de automatizar, por lo que cualquier método de detección que la utilice será relativamente lento y laborioso. La detección de SNP es más rápida porque se basa en el análisis de hibridación de oligonucleótidos. Un oligonucleótido es una pequeña molécula de ADN monocatenario, generalmente de menos de 50 nucleótidos de longitud, que se sintetiza en el tubo de ensayo. Si las condiciones son las adecuadas, entonces un oligonucleótido se hibridará con otra molécula de ADN solo si el oligonucleótido forma una estructura completamente emparejada de bases con la segunda molécula. Si hay un solo desajuste (una sola posición dentro del oligonucleótido que no forma un par de bases), la hibridación no ocurre (Figura 5.8). Por tanto, la hibridación de oligonucleótidos puede discriminar entre los dos alelos de un SNP. Se han ideado varias estrategias de detección (Mir y Southern, 2000), incluida la tecnología de chips de ADN (Nota técnica 5.1) y técnicas de hibridación de soluciones.

Figura 5.8

La hibridación de oligonucleótidos es muy específica. En condiciones de hibridación muy rigurosas, se produce un híbrido estable solo si el oligonucleótido es capaz de formar una estructura completamente emparejada de bases con el ADN diana. Si hay una sola discrepancia, entonces (más.)

Recuadro 5.1

Microarrays y chips de ADN. Matrices de alta densidad de moléculas de ADN para análisis de hibridación en paralelo. Los microarrays y chips de ADN están diseñados para permitir la realización de muchos experimentos de hibridación en paralelo. Sus principales aplicaciones han sido en el cribado (más.)

Figura 5.9

Una forma de detectar un SNP mediante hibridación de soluciones. La sonda de oligonucleótidos tiene dos marcadores terminales. Uno de ellos es un tinte fluorescente y el otro es un compuesto de extinción. Los dos extremos del par de bases de oligonucleótidos entre sí, por lo que el fluorescente (más.)

Recuadro 5.1

¿Por qué los SNP tienen solo dos alelos? Cualquiera de los cuatro nucleótidos podría estar presente en cualquier posición del genoma, por lo que podría imaginarse que cada polimorfismo de un solo nucleótido (SNP) debería tener cuatro alelos. Teóricamente esto es posible pero en la práctica (más.)

5.2.3. El análisis de ligamiento es la base del mapeo genético

Ahora que hemos reunido un conjunto de marcadores con los que construir un mapa genético, podemos pasar a ver las técnicas de mapeo en sí mismas. Todas estas técnicas se basan en el enlace genético, que a su vez se deriva de los descubrimientos fundamentales en genética realizados a mediados del siglo XIX por Gregor Mendel.

Los principios de la herencia y el descubrimiento del vínculo.

El mapeo genético se basa en los principios de la herencia descritos por primera vez por Gregor Mendel en 1865 (Orel, 1995). A partir de los resultados de sus experimentos de reproducción con guisantes, Mendel concluyó que cada planta de guisantes posee dos alelos para cada gen, pero muestra solo un fenotipo. Esto es fácil de entender si la planta es de reproducción pura u homocigótica para una característica particular, ya que luego posee dos alelos idénticos y muestra el fenotipo apropiado (Figura 5.10A). Sin embargo, Mendel demostró que si se cruzan dos plantas de reproducción pura con diferentes fenotipos, entonces toda la progenie (la F1 generación) muestran el mismo fenotipo. Estos F1 las plantas deben ser heterocigotas, lo que significa que poseen dos alelos diferentes, uno para cada fenotipo, un alelo heredado de la madre y otro del padre. Mendel postuló que en esta condición heterocigótica un alelo anula los efectos del otro alelo, por lo tanto, describió el fenotipo expresado en la F1 plantas dominantes sobre el segundo fenotipo recesivo (Figura 5.10B). Ésta es la interpretación perfectamente correcta de la interacción entre los pares de alelos estudiados por Mendel, pero ahora apreciamos que esta simple regla dominante-recesiva puede complicarse por situaciones que él no encontró. Uno de ellos es la dominancia incompleta, donde el fenotipo heterocigoto es intermedio entre las dos formas homocigotas. Un ejemplo es cuando los claveles rojos se cruzan con los blancos, la F1 los heterocigotos son de color rosa. Otra complicación es la codominancia, cuando ambos alelos son detectables en el heterocigoto. La codominancia es la situación típica de los marcadores de ADN.

Figura 5.10

Homocigosidad y heterocigosidad. Mendel estudió siete pares de características contrastantes en sus plantas de guisantes, uno de los cuales era de color violeta y flor blanca, como se muestra aquí. (A) Las plantas de reproducción pura siempre dan lugar a flores con el color de los padres. (más. )

Además de descubrir la dominancia y la recesión, Mendel llevó a cabo cruces adicionales que le permitieron establecer dos leyes de la genética. La Primera Ley establece que los alelos se segregan aleatoriamente. En otras palabras, si los alelos de los padres son A y a, luego miembro de la F1 generación tiene la misma posibilidad de heredar A como tiene de heredar a (Figura 5.11A). La Segunda Ley es que pares de alelos se segregan independientemente, de modo que la herencia de los alelos del gen A es independiente de la herencia de los alelos del gen B (Figura 5.11B). Debido a estas leyes, los resultados de los cruces genéticos son predecibles (Figura 5.11C).

Figura 5.11

Las leyes de Mendel permiten predecir el resultado de los cruces genéticos. (A) La Primera Ley de Mendel establece que los alelos se segregan al azar. El ejemplo muestra la herencia de alelos. A y a en un cruce que involucra a dos padres heterocigotos. Cada miembro de la F1 generación (más.)

Cuando se redescubrió el trabajo de Mendel en 1900, su Segunda Ley preocupó a los primeros genetistas porque pronto se estableció que los genes residen en los cromosomas y se comprendió que todos los organismos tienen muchos más genes que cromosomas. Los cromosomas se heredan como unidades intactas, por lo que se pensó que los alelos de algunos pares de genes se heredarían juntos porque están en el mismo cromosoma (figura 5.12). Este es el principio del vínculo genético, y rápidamente se demostró que era correcto, aunque los resultados no resultaron exactamente como se esperaba. El enlace completo que se había anticipado entre muchos pares de genes no se materializó. Los pares de genes se heredaban de forma independiente, como se esperaba para los genes de diferentes cromosomas, o, si mostraban ligamiento, era sólo un ligamiento parcial: a veces se heredaban juntos y otras no (figura 5.13). La resolución de esta contradicción entre teoría y observación fue el paso crítico en el desarrollo de técnicas de mapeo genético.

Figura 5.12

Los genes del mismo cromosoma deberían mostrar ligamiento. Los genes A y B están en el mismo cromosoma y, por lo tanto, deben heredarse juntos. Por lo tanto, la Segunda Ley de Mendel no debería aplicarse a la herencia de A y B, sino que se aplica a la herencia de A y C, (más.)

Figura 5.13

Vinculación parcial. La vinculación parcial se descubrió a principios del siglo XX. La cruz que se muestra aquí fue realizada por Bateson, Saunders y Punnett en 1905 con guisantes de olor. El cruce parental da el resultado dihíbrido típico (ver Figura 5.11C), con todos (más.)

El ligamiento parcial se explica por el comportamiento de los cromosomas durante la meiosis.

El avance crítico lo logró Thomas Hunt Morgan, quien dio el salto conceptual entre el enlace parcial y el comportamiento de los cromosomas cuando el núcleo de una célula se divide. Los citólogos a finales del siglo XIX habían distinguido dos tipos de división nuclear: mitosis y meiosis. La mitosis es más común, ya que es el proceso mediante el cual el núcleo diploide de una célula somática se divide para producir dos núcleos hijos, ambos diploides (Figura 5.14). Se necesitan aproximadamente 10 17 mitosis para producir todas las células necesarias durante la vida humana. Antes de que comience la mitosis, cada cromosoma en el núcleo se replica, pero los cromosomas hijos resultantes no se separan inmediatamente entre sí. Para empezar, permanecen unidos en sus centrómeros y por proteínas cohesinas que actúan como & # x02018 pegamento molecular & # x02019 uniendo los brazos de los cromosomas replicados (ver Figura 13.23). Las hijas no se separan hasta más tarde en la mitosis cuando los cromosomas se distribuyen entre los dos nuevos núcleos. Obviamente, es importante que cada uno de los nuevos núcleos reciba un juego completo de cromosomas, y la mayoría de las complejidades de la mitosis parecen estar dedicadas a lograr este fin.

Figura 5.14

Mitosis. Durante la interfase (el período entre las divisiones nucleares), los cromosomas están en su forma extendida (Sección 2.2.1). Al comienzo de la mitosis, los cromosomas se condensan y para la profase tardía han formado estructuras que son visibles con la luz (más.)

La mitosis ilustra los eventos básicos que ocurren durante la división nuclear, pero no es directamente relevante para el mapeo genético. En cambio, son las características distintivas de la meiosis las que nos interesan. La meiosis ocurre solo en las células reproductoras y da como resultado una célula diploide que da lugar a cuatro gametos haploides, cada uno de los cuales puede fusionarse posteriormente con un gameto del sexo opuesto durante la reproducción sexual. El hecho de que la meiosis dé como resultado cuatro células haploides mientras que la mitosis da lugar a dos células diploides es fácil de explicar: la meiosis implica dos divisiones nucleares, una tras otra, mientras que la mitosis es solo una división nuclear única. Esta es una distinción importante, pero la diferencia crítica entre mitosis y meiosis es más sutil. Recuerde que en una célula diploide hay dos copias separadas de cada cromosoma (Capítulo 1). Nos referimos a estos como pares de cromosomas homólogos. Durante la mitosis, los cromosomas homólogos permanecen separados entre sí, cada miembro del par se replica y pasa a un núcleo hijo independientemente de su homólogo. En la meiosis, sin embargo, los pares de cromosomas homólogos no son de ninguna manera independientes. Durante la meiosis I, cada cromosoma se alinea con su homólogo para formar un bivalente (Figura 5.15). Esto ocurre después de que cada cromosoma se ha replicado, pero antes de que las estructuras replicadas se dividan, por lo que el bivalente de hecho contiene cuatro copias cromosómicas, cada una de las cuales está destinada a encontrar su camino hacia uno de los cuatro gametos que se producirán al final de la meiosis. . Dentro del bivalente, los brazos del cromosoma (las cromátidas) pueden sufrir rotura física e intercambio de segmentos de ADN. El proceso se llama cruce o recombinación y fue descubierto por el citólogo belga Janssens en 1909. Esto fue solo 2 años antes de que Morgan comenzara a pensar en el enlace parcial.

Figura 5.15

Mitosis. Los eventos que involucran un par de cromosomas homólogos se muestran: un miembro del par es rojo y el otro es azul. Al comienzo de la meiosis, los cromosomas se condensan y cada par homólogo se alinea para formar un bivalente. Dentro de lo bivalente, cruzado (más.)

¿Cómo ayudó el descubrimiento del cruce a Morgan a explicar el vínculo parcial? Para comprender esto, debemos pensar en el efecto que puede tener el cruzamiento sobre la herencia de genes. Consideremos dos genes, cada uno de los cuales tiene dos alelos. Llamaremos al primer gen A y sus alelos A y a, y el segundo gen B con alelos B y B. Imagine que los dos genes están ubicados en el cromosoma número 2 de Drosophila melanogaster, la especie de mosca de la fruta estudiada por Morgan. Vamos a seguir la meiosis de un núcleo diploide en el que una copia del cromosoma 2 tiene alelos. A y B, y el segundo tiene a y B. Esta situación se ilustra en la Figura 5.16. Considere los dos escenarios alternativos:

Figura 5.16

El efecto de un cruce en genes ligados. El dibujo muestra un par de cromosomas homólogos, uno rojo y el otro azul. A y B son genes relacionados con alelos. A, a, B y B. A la izquierda hay una meiosis sin cruce entre A y B: dos de los resultantes (más.)

No ocurre un cruce entre los genes A y B. Si esto es lo que sucede, dos de los gametos resultantes contendrán copias de cromosomas con alelos. A y B, y los otros dos contendrán a y B. En otras palabras, dos de los gametos tienen el genotipo AB y dos tienen el genotipo ab.

Se produce un cruce entre los genes A y B. Esto conduce a que los segmentos de ADN que contienen el gen B se intercambien entre cromosomas homólogos. El resultado final es que cada gameto tiene un genotipo diferente: 1 AB, 1 aB, 1 Ab, 1 ab.

Ahora piense en lo que sucedería si analizáramos los resultados de la meiosis en cien células idénticas. Si los cruces nunca ocurren, los gametos resultantes tendrán los siguientes genotipos:

Este es el enlace completo: los genes A y B se comportan como una sola unidad durante la meiosis. Pero si (como es más probable) se producen cruces entre A y B en algunos de los núcleos, los pares de alelos no se heredarán como unidades individuales. Digamos que los cruces ocurren durante 40 de las 100 meiosis. Se producirán los siguientes gametos:

La vinculación no es completa, es solo parcial. Así como los dos de los padres los genotiposAB, ab) vemos gametos con genotipos recombinantes (Ab, aB).

De la vinculación parcial al mapeo genético

Una vez que Morgan comprendió cómo se podía explicar el enlace parcial mediante el cruce durante la meiosis, pudo idear una forma de cartografiar las posiciones relativas de los genes en un cromosoma. De hecho, el trabajo más importante no lo realizó el propio Morgan, sino un estudiante universitario en su laboratorio, Arthur Sturtevant (Sturtevant, 1913). Sturtevant asumió que el cruce era un evento aleatorio, existiendo la misma probabilidad de que ocurriera en cualquier posición a lo largo de un par de cromátidas alineadas. Si esta suposición es correcta, dos genes que están muy juntos se separarán por cruces con menos frecuencia que dos genes que están más distantes entre sí. Además, la frecuencia con la que los genes se desvinculan de los cruces será directamente proporcional a la distancia entre ellos en su cromosoma. Por tanto, la frecuencia de recombinación es una medida de la distancia entre dos genes. Si calcula las frecuencias de recombinación para diferentes pares de genes, puede construir un mapa de sus posiciones relativas en el cromosoma (Figura 5.17).

Figura 5.17

Elaboración de un mapa genético a partir de frecuencias de recombinación. El ejemplo está tomado de los experimentos originales realizados con moscas de la fruta por Arthur Sturtevant. Los cuatro genes están en el cromosoma X de la mosca de la fruta. Frecuencias de recombinación entre (más.)

Resulta que la suposición de Sturtevant sobre la aleatoriedad de los cruces no estaba del todo justificada. Las comparaciones entre los mapas genéticos y las posiciones reales de los genes en las moléculas de ADN, según lo revelado por el mapeo físico y la secuenciación del ADN, han demostrado que algunas regiones de los cromosomas, llamadas hotspots de recombinación, tienen más probabilidades de estar involucradas en cruces que otras. Esto significa que la distancia de un mapa genético no indica necesariamente la distancia física entre dos marcadores (ver Figura 5.22). Además, ahora nos damos cuenta de que una sola cromátida puede participar en más de un cruzamiento al mismo tiempo, pero que existen limitaciones sobre qué tan cerca pueden estar estos cruces, lo que conduce a más imprecisiones en el procedimiento de mapeo. A pesar de estas calificaciones, el análisis de ligamiento generalmente hace deducciones correctas sobre el orden de los genes, y las estimaciones de distancia son lo suficientemente precisas para generar mapas genéticos que son valiosos como marcos para proyectos de secuenciación del genoma.

Figura 5.22

Comparación entre los mapas genéticos y físicos de Saccharomyces cerevisiae cromosoma III. La comparación muestra las discrepancias entre los mapas genéticos y físicos, este último determinado por secuenciación de ADN. Tenga en cuenta que el orden de los dos marcadores superiores (más.)

5.2.4. Análisis de vinculación con diferentes tipos de organismos.

Para ver cómo se lleva a cabo realmente el análisis de vinculación, debemos considerar tres situaciones bastante diferentes:

Análisis de vinculación cuando es posible realizar experimentos de reproducción planificados

El primer tipo de análisis de vínculos es la contraparte moderna del método desarrollado por Morgan y sus colegas. El método se basa en el análisis de la progenie de cruces experimentales establecidos entre padres de genotipos conocidos y es, al menos en teoría, aplicable a todos los eucariotas. Las consideraciones éticas excluyen este enfoque en humanos, y problemas prácticos como la duración del período de gestación y el tiempo que tarda el recién nacido en alcanzar la madurez (y, por tanto, participar en cruces posteriores) limitan la eficacia del método con algunos animales y plantas.

Si volvemos a la Figura 5.16, vemos que la clave para el mapeo de genes es poder determinar los genotipos de los gametos resultantes de la meiosis. En algunas situaciones, esto es posible examinando directamente los gametos. Por ejemplo, los gametos producidos por algunos eucariotas microbianos, incluida la levadura Saccharomyces cerevisiae, se puede cultivar en colonias de células haploides, cuyos genotipos se pueden determinar mediante pruebas bioquímicas. La genotipificación directa de gametos también es posible con eucariotas superiores si se utilizan marcadores de ADN, ya que la PCR se puede llevar a cabo con el ADN de espermatozoides individuales, lo que permite la tipificación de RFLP, SSLP y SNP. Desafortunadamente, la tipificación de los espermatozoides es laboriosa. Por tanto, el análisis de ligamiento de rutina con eucariotas superiores no se lleva a cabo examinando los gametos directamente, sino determinando los genotipos de la progenie diploide que resultan de la fusión de dos gametos, uno de cada uno de un par de padres. En otras palabras, se realiza un cruzamiento genético.

La complicación con un cruce genético es que la progenie diploide resultante es el producto no de una meiosis sino de dos (una en cada padre), y en la mayoría de los organismos es igualmente probable que ocurran eventos de cruzamiento durante la producción de gametos masculinos y femeninos. De alguna manera tenemos que poder desenredar de los genotipos de la progenie diploide los eventos cruzados que ocurrieron en cada una de estas dos meiosis. Esto significa que la cruz debe colocarse con cuidado. El procedimiento estándar es utilizar una cruz de prueba. Esto se ilustra en la Figura 5.18, Escenario 1, donde hemos establecido un cruce de prueba para mapear los dos genes que conocimos anteriormente: el gen A (alelos A y a) y gen B (alelos B y B), ambos en el cromosoma 2 de la mosca de la fruta. La característica crítica de un cruce de prueba son los genotipos de los dos padres:

Figura 5.18

Dos ejemplos del cruce de prueba. En el escenario 1, A y B son marcadores genéticos con alelos A, a, B y B. La progenie resultante se puntúa examinando sus fenotipos. Debido a que el padre doble homocigoto (Padre 2) tiene ambos alelos recesivos: a y más. )

El heterocigoto doble tiene el mismo genotipo que la célula cuya meiosis seguimos en la figura 5.16. Por tanto, nuestro objetivo es inferir los genotipos de los gametos producidos por este padre y calcular la fracción que son recombinantes. Tenga en cuenta que todos los gametos producidos por el segundo padre (el homocigoto doble) tendrán el genotipo ab independientemente de que sean gametos parentales o recombinantes. Alelos a y B Ambos son recesivos, por lo que la meiosis en este padre es, de hecho, invisible cuando se examinan los genotipos de la progenie. Esto significa que, como se muestra en el Escenario 1 en la Figura 5.18, los genotipos de la progenie diploide pueden convertirse sin ambigüedades en los genotipos de los gametos del progenitor doble heterocigoto. Por lo tanto, el cruce de prueba nos permite hacer un examen directo de una sola meiosis y, por lo tanto, calcular una frecuencia de recombinación y un mapa de distancia para los dos genes que se están estudiando.

Solo es necesario considerar un punto adicional. Si, como en el Escenario 1 en la Figura 5.18, se utilizan marcadores genéticos que muestran dominancia y recesividad, entonces el padre homocigoto doble debe tener alelos para los dos fenotipos recesivos; sin embargo, si se utilizan marcadores de ADN codominante, entonces el padre homocigoto doble puede tener cualquier combinación de alelos homocigotos (es decir AB/AB, Ab/Ab, aB/aB y ab/ab). El escenario 2 en la figura 5.18 muestra la razón de esto.

Recuadro 5.2

Cruces multipunto. El poder del análisis de vinculación aumenta si se siguen más de dos marcadores en un solo cruce. Esto no solo genera frecuencias de recombinación más rápidamente, sino que también permite el orden relativo de los marcadores en un cromosoma (más).

Mapeo de genes mediante análisis de pedigrí humano

Con los seres humanos, por supuesto, es imposible preseleccionar los genotipos de los padres y establecer cruces diseñados específicamente para fines de mapeo. En cambio, los datos para el cálculo de las frecuencias de recombinación deben obtenerse examinando los genotipos de los miembros de generaciones sucesivas de familias existentes. Esto significa que solo se dispone de datos limitados, y su interpretación a menudo es difícil porque un matrimonio humano rara vez da como resultado un cruce de prueba conveniente y, a menudo, los genotipos de uno o más miembros de la familia no se pueden obtener porque esos individuos están muertos o no están dispuestos a cooperar.

Los problemas se ilustran en la Figura 5.19. En este ejemplo estamos estudiando una enfermedad genética presente en una familia de dos padres y seis hijos. Las enfermedades genéticas se utilizan con frecuencia como marcadores genéticos en humanos, siendo el estado patológico un alelo y el estado saludable un segundo alelo. El árbol genealógico de la figura 5.19A nos muestra que la madre está afectada por la enfermedad, al igual que cuatro de sus hijos. Sabemos por relatos familiares que la abuela materna también padecía esta enfermedad, pero tanto ella como su esposo, el abuelo materno, ahora están muertos. Podemos incluirlos en el pedigrí, con barras que indican que están muertos, pero no podemos obtener más información sobre sus genotipos. Nuestro objetivo es mapear la posición del gen de la enfermedad genética. Para ello estamos estudiando su vinculación con un marcador microsatélite M, cuatro alelos de los cuales: METRO1, METRO2, METRO3 y METRO4 - están presentes en los miembros vivos de la familia. La pregunta es, ¿cuántos de los niños son recombinantes?

Figura 5.19

Un ejemplo de análisis de pedigrí humano. (A) El árbol genealógico muestra la herencia de una enfermedad genética en una familia de dos padres vivos y seis hijos, con información sobre los abuelos maternos disponible en los registros familiares. El alelo de la enfermedad (cerrado (más.)

Si miramos los genotipos de los seis niños, vemos que los números 1, 3 y 4 tienen el alelo de la enfermedad y el alelo de microsatélites. METRO1. Los números 2 y 5 tienen el alelo sano y METRO2. Por tanto, podemos construir dos hipótesis alternativas. La primera es que las dos copias de los cromosomas homólogos relevantes en la madre tienen los genotipos Enfermedad-METRO1 y Saludable-METRO2 por lo tanto, los niños 1, 2, 3, 4 y 5 tienen genotipos parentales y el niño 6 es el único recombinante (Figura 5.19B). Esto sugeriría que el gen de la enfermedad y el microsatélite están relativamente estrechamente relacionados y que los cruces entre ellos ocurren con poca frecuencia. La hipótesis alternativa es que los cromosomas de la madre tienen los genotipos Saludable-METRO1 y Enfermedad-METRO2 esto significaría que los niños 1 & # x020135 son recombinantes y el niño 6 tiene el genotipo paterno. Esto significaría que el gen y el microsatélite están relativamente separados en el cromosoma. No podemos determinar cuál de estas hipótesis es correcta: los datos son frustrantemente ambiguos.

La solución más satisfactoria al problema planteado por el pedigrí de la figura 5.19 sería conocer el genotipo de la abuela. Hagamos como que se trata de una familia de telenovelas y que la abuela no está realmente muerta. Para sorpresa de todos, ella reaparece justo a tiempo para salvar los índices de audiencia en declive. Su genotipo del microsatélite M resulta ser METRO1METRO5 (Figura 5.19C). Esto nos dice que el alelo de la enfermedad está en el mismo cromosoma que METRO1. Por lo tanto, podemos concluir con certeza que la Hipótesis 1 es correcta y que solo el hijo 6 es un recombinante.

La resurrección de individuos clave no suele ser una opción abierta a los genetistas de la vida real, aunque se puede obtener ADN de muestras patológicas antiguas, como diapositivas y tarjetas de Guthrie. Los pedigríes imperfectos se analizan estadísticamente mediante una medida llamada puntuación lod (Morton, 1955). Esto significa logaritmo del sobredosisds que los genes están vinculados y se utiliza principalmente para determinar si los dos marcadores que se están estudiando se encuentran en el mismo cromosoma, en otras palabras, si los genes están vinculados o no. Si el análisis de lod establece un vínculo, también puede proporcionar una medida de la frecuencia de recombinación más probable. Idealmente, los datos disponibles se derivarán de más de un pedigrí, lo que aumentará la confianza en el resultado.El análisis es menos ambiguo para familias con mayor número de hijos y, como vimos en la Figura 5.19, es importante que los miembros de al menos tres generaciones puedan genotiparse. Por este motivo, se han creado colecciones familiares, como la que mantiene el Centre d '& # x000c9tudes du Polymorphisme Humaine (CEPH) en París (Dausset et al., 1990). La colección CEPH contiene líneas celulares cultivadas de familias en las que se pudieron muestrear los cuatro abuelos, así como al menos ocho niños de segunda generación. Esta colección está disponible para el mapeo de marcadores de ADN por cualquier investigador que acepte enviar los datos resultantes a la base de datos central de CEPH.

Mapeo genético en bacterias

El último tipo de mapeo genético que debemos considerar es la estrategia utilizada con bacterias. La principal dificultad a la que se enfrentan los genetistas cuando intentan desarrollar técnicas de mapeo genético para bacterias es que estos organismos son normalmente haploides y, por lo tanto, no sufren meiosis. Por lo tanto, tuvo que idearse alguna otra forma para inducir cruces entre segmentos homólogos de ADN bacteriano. La respuesta fue utilizar tres métodos naturales que existen para transferir fragmentos de ADN de una bacteria a otra (Figura 5.20):

Figura 5.20

Tres formas de lograr la transferencia de ADN entre bacterias. (A) La conjugación puede resultar en la transferencia de ADN plásmido o cromosómico de la bacteria donante al receptor. La conjugación implica el contacto físico entre las dos bacterias, con pensamiento de transferencia (más.)

Después de la transferencia, debe producirse un doble cruce para que el ADN de la bacteria donante se integre en el cromosoma de la célula receptora (figura 5.21A). Si esto no ocurre, el ADN transferido se pierde cuando la célula receptora se divide. La única excepción es después de la transferencia del episoma, ya que los plásmidos pueden propagarse independientemente del cromosoma del huésped.

Figura 5.21

La base del mapeo de genes en bacterias. (A) Transferencia de un gen funcional para la biosíntesis de triptófano de una bacteria de tipo salvaje (genotipo descrito como trp +) a un receptor que carece de una copia funcional de este gen (trp -). El receptor se llama triptófano (más.)

Los marcadores bioquímicos se utilizan invariablemente, los dominantes o tipo salvaje el fenotipo es posesión de una característica bioquímica (por ejemplo, la capacidad de sintetizar triptófano) y el fenotipo recesivo es la característica complementaria (por ejemplo, la incapacidad para sintetizar triptófano). La transferencia de genes generalmente se establece entre una cepa donante que posee los alelos de tipo salvaje y un receptor con los alelos recesivos, la transferencia a la cepa receptora se monitorea buscando la adquisición de las funciones bioquímicas especificadas por los genes que se están estudiando. . Los detalles precisos del procedimiento de mapeo dependen del tipo de transferencia de genes que se esté utilizando. En el mapeo de conjugación, el ADN del donante se transfiere como un hilo continuo al receptor, y las posiciones de los genes se mapean cronometrando la entrada de los alelos de tipo salvaje en el receptor (Figura 5.21B). El mapeo de transducción y transformación permite mapear genes que están relativamente cerca entre sí, porque el segmento de ADN transferido es corto (& # x0003c 50 kb), por lo que la probabilidad de que dos genes se transfieran juntos depende de qué tan cerca estén en el cromosoma bacteriano. (Figura 5.21C).


Afiliaciones

Inria Grenoble Rhône-Alpes, Montbonnot, Francia

Alex Di Genova y el amperio Marie-France Sagot

Université de Lyon, Université Lyon 1, CNRS, Laboratoire de Biométrie et Biologie Evolutive UMR 5558, Villeurbanne, Francia

Alex Di Genova y Marie-France Sagot

Instituto de Genética Médica y Genómica Aplicada, Universidad de Tübingen, Tübingen, Alemania

Elena Buena-Atienza y Stephan Ossowski

NGS Competence Center Tübingen (NCCT), Universidad de Tübingen, Tübingen, Alemania


Ver el vídeo: Clase estructura del genoma y gen- Clase 1- Unidad 5 (Julio 2022).


Comentarios:

  1. Cidro

    Bien hecho, tu idea será útil

  2. Edmondo

    Soy finito, pido disculpas, pero no se me acerca. ¿Pueden existir todavía las variantes?

  3. Inachus

    Respuesta autorizada, divertida ...

  4. Ceileachan

    talento...

  5. Natanael

    Similar hay algo?



Escribe un mensaje