Información

Simulando secuencias de ADN en R con un valor dado de $ theta = 4N_ {e} mu $

Simulando secuencias de ADN en R con un valor dado de $  theta = 4N_ {e}  mu $


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Puede que este no sea el sitio más apropiado para hacer tal pregunta, pero tal vez alguien tenga una solución.

Mi pregunta es: ¿Existe un paquete o función R para la simulación de secuencias de ADN de una longitud de par de bases dada generada de acuerdo con un valor preespecificado de la tasa de mutación de la población $ theta = 4N_ {e} mu $, donde $ N_ {e} $ es el tamaño efectivo de la población y $ mu $ es la tasa de mutación por generación

Tengo datos de secuencias reales de GenBank, pero también me gustaría simular algunas secuencias de ADN aleatorias de acuerdo con un proceso coalescente.

Esencialmente, la función generaría las secuencias de ADN alineadas generadas como un archivo FASTA.

No he tenido éxito en rastrear un paquete adecuado, ya que la mayoría solo genera filogenias.


Hay varias herramientas, pero no conozco ninguna que venga con una biblioteca R. Por lo general, todos se llaman desde la línea de comandos. Yo no tengo ninguno de los que producen archivo FASTA. SimBit (mi propio software) puede producirvcfarchivos que se pueden convertir fácilmente a FASTA con PGDspider.

Sin embargo, si sus simulaciones son tan fáciles, es posible que no necesite estos softwares individuales. Simplemente escriba el código usted mismo. Puede que solo sean unas pocas decenas de líneas. Aquí hay un ejemplo simple.

freq = 0.1 # frecuencia inicial N = 1000 # Tamaño de población constante mu = 1e-7 # tasa de mutación para (generación en 1: nbGenerations) {# Drift freq = rbinom (1, N, freq) / N # Mutations oneWayMutations = rbinom ( 1, N * freq, mu) / N otherWayMutations = rbinom (1, N * (1-freq), mu) / N freq = freq - oneWayMutations + otherWayMutations}

Si necesita algo más complejo (como varios loci), probablemente debería utilizar uno de los software existentes basados ​​en individuos. Ver la herramienta de simulación de evolución posterior a la secuencia


1 Modelos generativos para datos discretos

En biología molecular, muchas situaciones involucran eventos de conteo: cuántos codones usan una determinada ortografía, cuántas lecturas de ADN coinciden con una referencia, cuántos digramas CG se observan en una secuencia de ADN. Estos recuentos nos dan discreto variables, a diferencia de cantidades como la masa y la intensidad que se miden en continuo escamas.

Si conocemos las reglas que siguen los mecanismos en estudio, incluso si los resultados son aleatorios, podemos generar las probabilidades de cualquier evento que nos interese mediante cálculos y leyes de probabilidad estándar. Esto es un De arriba hacia abajo enfoque basado en la deducción y nuestro conocimiento de cómo manipular probabilidades. En el Capítulo 2, verá cómo combinar esto con datos (de abajo hacia arriba) modelado estadístico.


Fondo

Un desafío común que enfrentan los investigadores empíricos en los estudios de comunidades ecológicas es identificar individuos a nivel de especie a partir de información limitada recopilada de una amplia gama taxonómica de organismos. En muchos casos, no se encuentran disponibles claves taxonómicas útiles para grupos o regiones particulares. Esto se debe a que muchos grupos diversos son morfológicamente crípticos, contienen muchos taxones no descritos, o la literatura taxonómica existente es conflictiva, un tema conocido como el “impedimento taxonómico” [1]. En estos casos, las etiquetas de secuencia de ADN cortas (la región de código de barras de ADN del gen COI mitocondrial, o una región hipervariable del gen microbiano del ARNr 16S) se examinan con frecuencia porque pueden recolectarse rápida y económicamente [2, 3]. Las iniciativas de códigos de barras de ADN tienen como objetivo conectar estas etiquetas de secuencia a taxones validados por taxónomos expertos [4, 5], pero en la actualidad esto no es posible para la mayoría de los grupos. Como resultado, la diversidad debe cuantificarse con frecuencia en ausencia de un marco taxonómico de bajo nivel. Para lograr esto, las secuencias de ADN observadas deben agruparse en especies putativas. Si bien la delimitación de especies es un problema filosófico y biológico complejo [6], los conceptos de especies comparten ampliamente la idea de que las especies son linajes de metapoblaciones en evolución independiente [7]. Esto proporciona una justificación para utilizar datos genéticos (como códigos de barras de ADN) como datos primarios para el diagnóstico de estos linajes, ya que contienen la señal de los procesos históricos implicados en la divergencia de linajes [8]. Como advertencia, los linajes identificados de esta manera no necesariamente cumplirán los criterios para el estado de especie bajo cualquier concepto de especie dado, como el aislamiento reproductivo de otros linajes similares, o exhibirán divergencia morfológica, ecológica o de comportamiento.

Los métodos utilizados para la delimitación de especies a partir de datos de códigos de barras son un subconjunto de los desarrollados para el problema más amplio de la delimitación de especies. Pueden considerarse métodos de descubrimiento de especies porque deben ser funcionales en ausencia de buenas a priori información taxonómica [9-11]. Esto contrasta con los métodos de validación (por ejemplo, [9, 12]), que prueban hipótesis específicas del estado de la especie, y los métodos de asignación, que asignan individuos desconocidos a especies existentes (por ejemplo, [13-16]). Del puñado de enfoques que se suelen utilizar para descubrir límites de especies utilizando datos genéticos, los umbrales basados ​​en distancias de secuencia por pares entre individuos quizás se apliquen más comúnmente a las secuencias de grupos en especies putativas [5, 17]. Estos métodos identifican algún nivel de divergencia de secuencia más allá del cual dos individuos no pueden considerarse la misma especie. Los métodos de umbral de distancia han sido criticados porque no tienen en cuenta los procesos evolutivos [18] y la incertidumbre en la selección de un umbral apropiado [15], que se basa en una "brecha de código de barras" observable entre distancias de secuencia de ADN intraespecíficas e interespecíficas por pares ([19 –22] pero ver [23]).

Pons y col. [24] introdujo una alternativa basada en modelos a los métodos de umbral de distancia. El modelo, el coalescente de Yule general mixto (GMYC), toma un árbol filogenético estimado a partir de los datos de la secuencia de ADN y asume que los puntos de ramificación en el árbol corresponden a uno de dos eventos: eventos de divergencia entre taxones a nivel de especie (modelado por un proceso de Yule [25]), o eventos coalescentes entre linajes muestreados dentro de las especies (modelados por el coalescente [26]). Debido a que se espera que la tasa de coalescencia dentro de las especies sea dramáticamente mayor que la tasa de cladogénesis, el GMYC tiene como objetivo encontrar la demarcación entre estos tipos de ramificaciones. Este modelo ha demostrado ser útil en varios estudios empíricos [24, 27-31]. Debido a que se basa en una función de probabilidad que modela directamente los procesos evolutivos de interés, proporciona un medio para mejorar algunas de las críticas dirigidas a los métodos de umbral. En particular, ha permitido la cuantificación de la incertidumbre en la delimitación de especies [32] y evita el uso de distancias de secuencia por pares no independientes (por ejemplo, en [23]) como datos.

Sin embargo, el modelo GMYC, tal como se implementa actualmente, no tiene en cuenta tres fuentes de error potencialmente importantes. Primero, es ampliamente reconocido que una variedad de factores pueden causar que la genealogía de un locus particular sea discordante con la verdadera historia de la especiación [33], y el GMYC, como todos los métodos basados ​​en un solo locus, puede ser engañado por esto. discordancia. En segundo lugar, puede haber errores en las estimaciones del modelo. Bajo ciertas circunstancias, la transición de eventos de especiación a eventos coalescentes puede ser indistinta (por ejemplo, una combinación de eventos de especiación rápida y grandes tamaños de población efectivos), lo que hace que el modelo tenga un intervalo de confianza amplio. Una implementación reciente de Powell [32] tiene en cuenta la incertidumbre en el parámetro de umbral y produce límites de especies promediados por el modelo, pero utiliza estimaciones puntuales para los otros parámetros. Finalmente, el error filogenético puede disminuir la precisión de los resultados de la delimitación. El modelo GMYC requiere que el usuario ingrese una estimación puntual del árbol filogenético y la inferencia se basa en la precisión de esta estimación puntual. Sin embargo, los estudios de diversidad que utilizan etiquetas de secuencia suelen utilizar loci relativamente cortos que producen estimaciones de la topología y las longitudes de las ramas que pueden tener altos niveles de incertidumbre. Esta incertidumbre podría influir en la precisión del modelo.

Con el fin de abordar la segunda y tercera fuentes potenciales de error, presentamos una implementación bayesiana de este modelo con distribuciones previas flexibles en el lenguaje de programación estadística R [34]. Explica el error en la estimación filogenética y la incertidumbre en los parámetros del modelo al integrar sobre la incertidumbre en la topología del árbol y las longitudes de las ramas y en los parámetros del modelo a través de la simulación de Markov Chain Monte Carlo (MCMC) [35]. Produce probabilidades posteriores marginales para las especies que son independientes de estos factores junto con un resultado que caracteriza la distribución posterior que es adecuada para los análisis posteriores de la estructura de la comunidad que tienen en cuenta la incertidumbre en los límites de las especies y la filogenia utilizando paquetes R como Picante [36], Vegan [37 ] y APE [38]. También realizamos pruebas de simulación para evaluar el rendimiento del modelo y volver a analizar un conjunto de datos previamente analizado con la versión de probabilidad del modelo.


2.2 La diferencia entre modelos estadísticos y probabilísticos

Un análisis probabilístico es posible cuando conocemos un buen modelo generativo para la aleatoriedad de los datos, y se nos proporcionan los valores reales de los parámetros.

Figura 2.1: El modelo probabilístico que obtuvimos en el Capítulo 1. Los datos se representan como (x ) en verde. Podemos usar los datos observados para calcular la probabilidad si observamos (x ) cuando conocemos el valor verdadero de ( theta ).

En el ejemplo del epítopo, sabiendo que ocurrieron falsos positivos como Bernoulli (0.01) por posición, el número de pacientes analizados y la longitud de la proteína aseguraron que hubiera sin parámetros desconocidos.

En tal caso, podemos usar matemática deducción para calcular la probabilidad de un evento como se esquematiza en la Figura 2.1. En los ejemplos de epítopos, usamos la probabilidad de Poisson como nuestro modelo nulo con el parámetro dado ( lambda = 0.5 ). Pudimos concluir a través de la deducción matemática que las posibilidades de ver un valor máximo de 7 o más eran alrededor de (10 ​​^ <-4> ) y, por lo tanto, que de hecho los datos observados eran altamente improbables bajo ese modelo (o "nulo hipótesis").

Supongamos ahora que conocemos el número de pacientes y la longitud de las proteínas (que vienen dadas por el diseño experimental) pero no la distribución en sí ni la tasa de falsos positivos. Una vez que observamos los datos, tenemos que ir hasta a partir de los datos para estimar tanto un modelo de probabilidad (F ) (Poisson, normal, binomial) como eventualmente los parámetros faltantes para ese modelo. Este es el tipo de estadística inferencia explicaremos en este capítulo.


Conclusión

En este trabajo, presentamos un modelo molecular de grano grueso que puede reproducir simultáneamente las energías libres de la formación de nucleosomas dependientes de secuencia, desenvolvimiento de nucleosomas y reposicionamiento de nucleosomas. Con este modelo, proporcionamos evidencia in silico de que tanto la propagación del bucle como los mecanismos de difusión por torsión pueden ocurrir dentro del nucleosoma. Nuestros resultados indican que tales mecanismos dependen de la secuencia de ADN y que la energía libre de unión de una secuencia de ADN dada es un excelente predictor de cuál es el mecanismo de reposicionamiento dominante. La energía libre también se correlaciona con la escala de tiempo característica correspondiente a un evento de reposicionamiento particular. Se ha encontrado que para la mayoría de las secuencias de ADN de origen natural, que exhiben una energía de unión moderada, coexisten mecanismos de reposicionamiento tanto en bucle como en torsión. Es importante destacar que se han identificado una serie de características previamente desconocidas dentro del nucleosoma a medida que se reposiciona. Estos incluyen una distribución asimétrica de los bucles de ADN, una fuerte influencia de la cola H4 en su formación y el efecto dominante de los momentos de torsión en la movilización de nucleosomas.

Uno de los hallazgos centrales de este trabajo es que la secuencia de ADN puede conducir a una amplia gama de mecanismos y dinámicas de posicionamiento de nucleosomas. Sin embargo, también hemos demostrado que ciertas características no están influenciadas por la secuencia de ADN, incluidas las ubicaciones de los bucles de ADN y el efecto del torque en la movilidad de los nucleosomas. Sobre la base de estos hallazgos, será importante llevar a cabo estudios experimentales que vayan más allá de la secuencia de posicionamiento 601 y hacia secuencias de ADN de unión moderada que se producen de forma natural. Para los casos en los que no es posible realizar experimentos de una sola molécula con secuencias de ADN genómico, el modelo 3SPN-AICG que se presenta aquí puede servir como una herramienta complementaria para predecir situaciones en las que la dependencia de la secuencia podría ser importante.


Conclusiones

Estas simulaciones indican que cuando todas las especies están adecuadamente representadas en los conjuntos de datos de referencia, los métodos genéticos pueden proporcionar identificaciones fiables de las especies. El grado en que las especies se diferencian genéticamente parece ser un determinante crítico del éxito. Cuando todas las especies están representadas en el conjunto de datos de referencia, los métodos BLAST, distancia y liberales basados ​​en árboles serán igualmente exitosos y realizarán identificaciones más correctas que el método estricto basado en árboles, que requiere que la secuencia de consulta debe estar dentro y no hermana de, un clado de una sola especie. El método estricto basado en árboles es conservador, haciendo identificaciones ambiguas o falsas negativas a una tasa inversamente proporcional al número de secuencias de referencia por especie.

Cuando no se ha incluido la especie correcta en el conjunto de datos de referencia, solo los métodos basados ​​en árboles, especialmente el método estricto, junto con un umbral de distancia protegerán contra los falsos positivos. Los otros métodos son omnipresentemente pobres o tienen una tasa de error determinada por umbrales empíricos.

Una de las principales motivaciones para el desarrollo de métodos genéticos es su aplicación a gran escala para la identificación de especies. Una de las principales críticas a estos métodos ha sido que no serán fiables debido al muestreo inadecuado de la variación genética y la taxonomía incorrecta. Estas preocupaciones se pueden mitigar aplicando un enfoque conservador, utilizando el método estricto basado en árboles. Sin embargo, una vez que se comprende bien el grupo taxonómico específico y se muestrea completamente su diversidad genética, este enfoque conservador ya no está justificado. Sería apropiado cambiar a cualquiera de los otros métodos, BLAST, distancia o un enfoque más liberal basado en árboles, que sea computacionalmente más eficiente y proporcione la mayor velocidad. El requisito de especies bien diferenciadas y secuencias de referencia múltiples por especie, a fin de lograr un nivel aceptable de identificaciones exitosas, puede hacer que estas técnicas sean inapropiadas en algunas circunstancias. En un mundo finito, siempre habrá un equilibrio entre la precisión y el costo, medido tanto en tiempo como en dinero, de la identificación de especies. Es importante que se comprenda completamente la confiabilidad de los diferentes enfoques para que se pueda tomar una decisión informada.


RESUMEN: DIFERENCIAS Y SIMILITUDES EN LOS MECANISMOS DE REPLICACIÓN DEL PLÁSMIDO

A pesar de los avances que se han realizado en el estudio de la replicación de plásmidos y su control, existen importantes lagunas en nuestro conocimiento de los distintos sistemas de replicación. El inicio de la replicación exige la fusión del origen y las interacciones entre los factores codificados por el plásmido y los codificados por el hospedador, que en general son poco conocidos. La fusión del origen se puede estabilizar manifestando la actividad críptica de unión al ssDNA de las proteínas de iniciación (DnaA y R6K - & # x003c0) o mediante la formación de estructuras secundarias intramoleculares (por ejemplo, extrusión cruciforme). La configuración de los orígenes del plásmido indica que la curvatura del ADN y la curvatura del origen potenciada por Rep parecen ser una característica común pero aún no explorada por completo (81, 156c, 205, 206, 283). Las deformaciones del ADN en el origen pueden proporcionar una configuración apropiada para el evento de iniciación: extrusión cruciforme y corte por parte del iniciador para plásmidos que replican RC versus ensamblaje del complejo de iniciación y síntesis de un cebador de ARN para los otros replicones. El papel de las proteínas codificadas por el huésped en la generación del complejo de iniciación está relativamente bien definido para varios plásmidos que se replican mediante el mecanismo theta, pero se sabe poco sobre los plásmidos que utilizan el modo RC (aparte de la helicasa PcrA de S. aureus en replicación pT181) (135 & # x02013138). La definición de la especificidad de las interacciones entre las proteínas Rep y los factores de replicación del huésped es relevante para nuestra comprensión de la capacidad de los plásmidos para colonizar diferentes huéspedes. La convergencia de los estudios estructurales con el análisis funcional de iniciadores e inhibidores de la replicación del ADN es un área importante de desarrollo futuro. Los factores de replicación del hospedador y los iniciadores de plásmidos forman parte del complejo de nucleoproteínas que inicia la replicación del plásmido. La definición estructural de estos conjuntos macromoleculares proporcionará información mecanicista relevante para nuestra comprensión del inicio de la replicación del plásmido y las interrelaciones entre los plásmidos y sus huéspedes. Dado que la continuidad de las hebras de ADN parentales se mantiene en plásmidos que se replican mediante los mecanismos de desplazamiento de hebras y theta, las tensiones superhelicales se acumulan durante la etapa de elongación. Se ha documentado un papel de las topoisomerasas en el alargamiento de la síntesis de ADN y en la separación de ambas moléculas hijas catenadas (8, 9, 117, 245, 246, 327). Tal función puede no ser necesaria para los plásmidos que se replican por el mecanismo RC, aunque las moléculas de ADN relajadas (que son los productos de la replicación RC) deben ser superenrolladas por la ADN girasa antes de que se conviertan en un sustrato para una nueva ronda de replicación. Finalmente, la información es escasa sobre tres eventos importantes de replicación de plásmidos: (i) el papel de la transcripción a través de los orígenes para crear ondas de superenrollamiento, (ii) los cambios estructurales introducidos por las chaperonas que resultan en la activación de proteínas Rep, y (iii) los mecanismos de posible inactivación de Rep, a excepción de varios plásmidos que replican RC (255, 256).

El estudio de señales específicas implicadas en la terminación de la replicación de replicones de plásmidos de tipo theta es un tema de creciente interés. La elucidación de la estructura de las proteínas de terminación (RTP y Tus) que actúan en sitios de terminación específicos ha abierto nuevas vías para realizar un análisis mecanicista detallado de esta etapa de replicación (19).

Con respecto a la síntesis de hebras retrasadas, se cree que solo se requieren factores del huésped en los plásmidos que se replican mediante los modos RC y theta. Esto contrasta con la situación de los plásmidos que se replican por el mecanismo de desplazamiento de hebras, en el que las mismas proteínas primasa y helicasa codificadas por plásmidos están involucradas en la replicación de ambas hebras, en un proceso continuo que comienza en dos orígenes simétricos y avanza en direcciones opuestas (263 , 266). En esta última categoría de plásmidos, puede ocurrir la síntesis de desacoplamiento de ambas cadenas de ADN, lo que lleva a la generación de intermedios de plásmidos de ADNss. Sin embargo, a diferencia de los plásmidos que se replican mediante el mecanismo RC, no hay especificidad de hebra en los intermedios de ssDNA generados durante la replicación por desplazamiento de hebra.

El control de la replicación del plásmido es una de las características clave de estos elementos extracromosómicos. Este control siempre se ejerce en la etapa de iniciación, quizás porque los eventos de iniciación, a diferencia de los pasos de elongación y terminación, son invariablemente específicos del replicón. El papel de los inhibidores de ARN en el control de la replicación se conoce relativamente bien (226, 309). Sin embargo, el control de la replicación modulado por iterones es menos conocido y es objeto de intensa investigación (51, 155). Muchos de los iniciadores que se unen a los iterones autorregulan su propia síntesis. La forma en que esta autorregulación influye en la frecuencia de iniciación es importante para una comprensión completa del control de la replicación en estos plásmidos. Curiosamente, las estrategias utilizadas para controlar la replicación del plásmido no se correlacionan con el mecanismo por el cual se inicia la replicación del plásmido: el inicio de la replicación por diferentes mecanismos puede tener similitudes en los circuitos de control (pIP501 y pMV158, pIP501 y pT181 y R1162 y pMV158). Finalmente, aunque los elementos que controlan la replicación se han identificado en muchos casos y se han descrito sus modos de acción, no se han realizado muchos esfuerzos para comprender el control en términos de cinética, excepto en unos pocos casos (12, 223).


MATERIALES Y MÉTODOS

Selección y clonación de ADN de tractos A del C. elegans genoma

Para estudiar las propiedades mecánicas de los tractos A a nivel de una sola molécula, se consideró una secuencia hiperperiódica de 856 pb del C. elegans genoma (4). Este segmento corresponde al cuarto intrón del gen F54C4.1 que codifica el C. elegans ortólogo de la proteína ribosómica mitocondrial humana L40. Nos referiremos a esta secuencia como intrón (Figura 1A). El intrón se amplificó por PCR a partir del plásmido pPD167.57, con los oligonucleótidos 58.F Bam-Xho-Psi intrón4 y 59.R Apa-Eco-Sal intrón4 (Tabla complementaria S1). Después de la digestión, el producto de PCR se sometió a electroforesis en un gel de agarosa al 1%, se extrajo (QIAGEN Gel Extraction Kit) y se clonó en el plásmido pNLrep. Este proceso se realizó varias veces para obtener plásmidos con una a seis copias del intrón, y constituye la base para construir las moléculas necesarias para los estudios de una sola molécula (Figura 1B, C). Todos los plásmidos se comprobaron mediante análisis de secuencia de ADN.

Secuencia y organización general de las moléculas de ADN en estudio. (A) Secuencia del tracto A en fase (intrón) estudiada en este trabajo como se informa en (34) y en la sección de Métodos. Los tractos A (regiones de cuatro o más A y T consecutivas sin un paso TA) están marcados en azul. La secuencia se escribió desde el extremo 5 ′ hasta el 3 ′ en columnas de 10 letras para resaltar la periodicidad de ∼10 pb. (B) Arriba, el sustrato del tracto A para la obtención de imágenes AFM consistió en tres repeticiones del intrón, representado por pequeños bloques azules. Se utilizó como control (rojo) una molécula de ADN de secuencia heterogénea y un número similar de pb. Abajo, el contenido de GC del tracto A y los sustratos de control se calculó usando un software de construcción casera y seleccionando una ventana de ejecución de 300 pb. (C) Arriba, los sustratos de ADN para MT y OT contenían seis repeticiones del intrón y estaban flanqueados por dos oligonucleótidos marcados con biotina y digoxigenina. Como control, se consideró una molécula de ADN de secuencia heterogénea y número similar de pb (rojo). Abajo, el contenido de GC del tracto A y las moléculas de control para experimentos con pinzas se calcularon como se describe en (B).

Secuencia y organización general de las moléculas de ADN en estudio. (A) Secuencia del tracto A en fase (intrón) estudiada en este trabajo como se informa en (34) y en la sección de Métodos. Los tractos A (regiones de cuatro o más A y T consecutivas sin un paso TA) están marcados en azul. La secuencia se escribió desde el extremo 5 ′ hasta el 3 ′ en columnas de 10 letras para resaltar la periodicidad de ∼10 pb. (B) Arriba, el sustrato del tracto A para la obtención de imágenes AFM consistió en tres repeticiones del intrón, representado por pequeños bloques azules. Se utilizó como control (rojo) una molécula de ADN de secuencia heterogénea y un número similar de pb. Abajo, el contenido de GC del tracto A y los sustratos de control se calculó utilizando un software de construcción casera y seleccionando una ventana de ejecución de 300 pb. (C) Arriba, los sustratos de ADN para MT y OT contenían seis repeticiones del intrón y estaban flanqueados por dos oligonucleótidos marcados con biotina y digoxigenina. Como control, se consideró una molécula de ADN de secuencia heterogénea y similar número de pb (rojo). Abajo, el contenido de GC del tracto A y las moléculas de control para experimentos con pinzas se calcularon como se describe en (B).

Síntesis de moléculas de ADN para experimentos AFM

El sustrato del tracto A para las mediciones de AFM se hizo a partir de tres copias del intrón, lo que dio como resultado una molécula de 2636 pb (sustrato de AFM del tracto A, Tabla complementaria S2). Este fragmento se obtuvo por digestión del plásmido respectivo con las enzimas XhoI y EcoRV. Como control, se obtuvo un fragmento de ADN de 2645 pb (sustrato AFM control, Cuadro complementario S2) con un contenido del 54% de GC (Figura 1B) mediante digestión del plásmido del sitio pNLrep-0BspQI (previamente clonado en el laboratorio a partir del plásmido pNLrep ) con enzimas SalI y ScaI. Los fragmentos procedentes de la digestión o PCR se sometieron a electroforesis en un gel de agarosa al 1% y se extrajeron. Los ADN nunca se expusieron a colorantes intercalantes o radiación UV durante su producción y se almacenaron a 4 ° C.

Síntesis de moléculas de ADN para experimentos MT y OT

Fabricamos moléculas de ADN de 5316 pb que contenían seis copias del intrón (sustrato de pinzas del tracto A, tabla complementaria S2). El fragmento central de la molécula está flanqueado por oligonucleótidos marcados con digoxigenina (extremo 3 ') o biotina (extremo 5') que se unen específicamente a una superficie de vidrio cubierta con Anti-digoxigenina (Roche) oa perlas superparamagnéticas (MyOne, Dynabeads). ) cubierto con estreptavidina (Figura 1C). Los oligonucleótidos marcados se fabricaron basándose en un método previamente publicado (33). Brevemente, los oligonucleótidos 27P-XhoI-A y XbaI-A (Tabla complementaria S1) tenían colas de biotina o digoxigenina usando Terminal Transferasa (NEB) y BIO-dUTP o DIG-dUTP, respectivamente. Los oligonucleótidos modificados se purificaron usando un kit de eliminación de nucleótidos Qiaquick (Qiagen) y se hibridaron respectivamente con 26XhoI-B o 88.XbaI C ApaI (Tabla complementaria S1). El fragmento central se digirió con las enzimas XhoI y ApaI y se ligó durante la noche a los dos oligonucleótidos con cola hibridada usando ADN ligasa de T4 (NEB). El exceso de oligonucleótidos se eliminó utilizando columnas Microspin S-400. Como molécula de control (Tabla complementaria S2), elegimos un fragmento de ADN con un contenido de GC homogéneo con la misma longitud (Figura 1C). Este fragmento se amplificó por PCR con los oligonucleótidos 89.F lambda 40002 XhoI y 90.R lambda 45263 ApaI usando ADN Lambda (NEB) como molde. Esta región se seleccionó ejecutando un software casero que calcula el contenido de GC de una secuencia determinada y seleccionando una ventana de ejecución de 300 pb. El producto de la PCR se digirió, se sometió a electroforesis en un gel de agarosa al 1%, se extrajo y se ligó con los mismos oligonucleótidos de cola utilizados para producir la molécula de tractos A.

Las moléculas del tracto A presentaron un bajo contenido de GC (∼20%) con patrones periódicos que surgen de las tres y seis repeticiones del intrón presente en los sustratos de AFM y Tweezers, respectivamente. Por el contrario, el contenido de GC de las moléculas de control es ~ 50% (Figura 1B, C). Es importante destacar que todas las construcciones de los tractos A mostraron una migración de gel anómala (Figura complementaria S1), como se esperaba para los tractos A en fase (34).

Medidas de microscopía de fuerza atómica

Imágenes de aire

Una solución de 20 μl que contiene 0,3 nM de ADN en NaCl 100 mM, Tris-HCl 10 mM pH 8 y MgCl 15 mM2 se depositó sobre mica recién escindida (mica de grado V-4 de SPI) y se incubó durante 30 s. Luego, la muestra se lavó con 4 ml de agua Milli-Q y se secó bajo un flujo de aire de nitrógeno. Las condiciones de imagen fueron similares a las descritas en un trabajo anterior (35). Las imágenes fueron tomadas con un AFM de Nanotec Electronica S.L. con puntas PointProbePlus (nanosensores PPP-NCH, rigidez de la punta 42 N / m, radio de la punta ∼10 nm) utilizando el modo de imágenes de modulación de amplitud en el aire con una amplitud libre de ∼4,2 nm y un punto de ajuste de ∼3,6 nm. Experimentos adicionales en aire a bajo MgCl2 se realizaron utilizando 0,3 nM de ADN en NaCl 100 mM, Tris-HCl 10 mM pH 8, MgAc 2,5 mM y NiCl 1,5 mM2 (Tabla 1).

Parámetros mecánicos de los tractos A y moléculas de control obtenidos en este trabajo. Los parámetros mecánicos de los datos de AFM se calcularon a partir de los ajustes al | $ langle >> rangle $ | datos presentados en la Figura 2D y la Figura complementaria S5. Los errores son el error del ajuste. Las condiciones de las imágenes de AFM se describen en la sección Materiales y métodos. Los parámetros mecánicos de los datos de MT y OT son el promedio de los parámetros obtenidos para cada molécula y los errores son la desviación estándar de la media. Para medidas de MT, | $$ | y | $<>> $ | se obtuvieron ajustando los datos a la Ecuación (7) en el F & lt régimen de 1 pN. Para medidas de TO, | $$ | y | $<>> $ | se extrajeron ajustando los datos a la Ecuación (8) en el 1 pN & lt | $ F $ | & lt rango de fuerza de 10 pN. | $<>> $ | y | $ S $ | se calcularon ajustando los datos de OT a la Ecuación (9) en el rango de fuerza de 10 a 45 pN. norte denota el número de moléculas

Fuerza atómica microscópica .
Condiciones de imagen . Molécula . |$$ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . | $ a $ | (μm −1) . # Rastros .
Imágenes de aire Mg 2+ Tracto A 871 ± 27 (norte = 43) 23 ± 1 55 ± 1 17 ± 1 178
Control 898 ± 21 (norte = 44) 54 ± 1 122
Imágenes de aire Mg 2+ y amp Ni 2+ Tracto A 889 ± 28 (norte = 41) 24 ± 1 53 ± 1 17 ± 1 141
Control 902 ± 24 (norte = 38) 47 ± 1 89
Imágenes líquidas Mg 2+ y amp Ni 2+ Tracto A 858 ± 46 (norte = 40) 18 ± 4 47 ± 3 18 ± 1 180
Control 886 ± 53 (norte = 43) 50 ± 1 163
Pinzas magnéticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
1 Tracto A 1921 ± 31 22 ± 1 14
Control 1945 ± 31 49 ± 1 15
10 Tracto A 1910 ± 14 19 ± 1 25
Control 1940 ± 22 45 ± 1 18
100 Tracto A 1946 ± 16 15 ± 1 28
Control 1866 ± 20 44 ± 1 20
500 Tracto A 2039 ± 20 12 ± 1 29
Control 1923 ± 19 41 ± 1 19
Pinzas ópticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
50 Tracto A 1890 ± 7 20 ±1 38 ± 3 2560 ± 260 9
Control 1833 ± 7 42 ± 2 49 ± 5 1680 ± 80 10
100 Tracto A 1872 ± 16 20 ± 2 44 ± 3 2400 ± 220 15
Control 1836 ± 3 42 ± 2 47 ± 4 1540 ± 90 17
500 Tracto A 1839 ± 3 21 ± 1 37 ± 3 2390 ± 190 17
Control 1830 ± 3 41 ± 3 49 ± 4 1560 ± 100 13
Fuerza atómica microscópica .
Condiciones de imagen . Molécula . |$$ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . | $ a $ | (μm −1) . # Rastros .
Imágenes de aire Mg 2+ Tracto A 871 ± 27 (norte = 43) 23 ± 1 55 ± 1 17 ± 1 178
Control 898 ± 21 (norte = 44) 54 ± 1 122
Imágenes de aire Mg 2+ y amp Ni 2+ Tracto A 889 ± 28 (norte = 41) 24 ± 1 53 ± 1 17 ± 1 141
Control 902 ± 24 (norte = 38) 47 ± 1 89
Imágenes líquidas Mg 2+ y amp Ni 2+ Tracto A 858 ± 46 (norte = 40) 18 ± 4 47 ± 3 18 ± 1 180
Control 886 ± 53 (norte = 43) 50 ± 1 163
Pinzas magnéticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
1 Tracto A 1921 ± 31 22 ± 1 14
Control 1945 ± 31 49 ± 1 15
10 Tracto A 1910 ± 14 19 ± 1 25
Control 1940 ± 22 45 ± 1 18
100 Tracto A 1946 ± 16 15 ± 1 28
Control 1866 ± 20 44 ± 1 20
500 Tracto A 2039 ± 20 12 ± 1 29
Control 1923 ± 19 41 ± 1 19
Pinzas ópticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
50 Tracto A 1890 ± 7 20 ±1 38 ± 3 2560 ± 260 9
Control 1833 ± 7 42 ± 2 49 ± 5 1680 ± 80 10
100 Tracto A 1872 ± 16 20 ± 2 44 ± 3 2400 ± 220 15
Control 1836 ± 3 42 ± 2 47 ± 4 1540 ± 90 17
500 Tracto A 1839 ± 3 21 ± 1 37 ± 3 2390 ± 190 17
Control 1830 ± 3 41 ± 3 49 ± 4 1560 ± 100 13

Parámetros mecánicos de los tractos A y moléculas de control obtenidos en este trabajo. Los parámetros mecánicos de los datos de AFM se calcularon a partir de los ajustes al | $ langle >> rangle $ | datos presentados en la Figura 2D y la Figura complementaria S5. Los errores son el error del ajuste. Las condiciones de las imágenes de AFM se describen en la sección Materiales y métodos. Los parámetros mecánicos de los datos de MT y OT son el promedio de los parámetros obtenidos para cada molécula y los errores son la desviación estándar de la media. Para medidas de MT, | $$ | y | $<>> $ | se obtuvieron ajustando los datos a la Ecuación (7) en el F & lt régimen de 1 pN. Para medidas de TO, | $$ | y | $<>> $ | se extrajeron ajustando los datos a la Ecuación (8) en el 1 pN & lt | $ F $ | & lt rango de fuerza de 10 pN. | $<>> $ | y | $ S $ | se calcularon ajustando los datos de OT a la Ecuación (9) en el rango de fuerza de 10 a 45 pN. norte denota el número de moléculas

Fuerza atómica microscópica .
Condiciones de imagen . Molécula . |$$ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . | $ a $ | (μm −1) . # Rastros .
Imágenes de aire Mg 2+ Tracto A 871 ± 27 (norte = 43) 23 ± 1 55 ± 1 17 ± 1 178
Control 898 ± 21 (norte = 44) 54 ± 1 122
Imágenes de aire Mg 2+ y amp Ni 2+ Tracto A 889 ± 28 (norte = 41) 24 ± 1 53 ± 1 17 ± 1 141
Control 902 ± 24 (norte = 38) 47 ± 1 89
Imágenes líquidas Mg 2+ y amp Ni 2+ Tracto A 858 ± 46 (norte = 40) 18 ± 4 47 ± 3 18 ± 1 180
Control 886 ± 53 (norte = 43) 50 ± 1 163
Pinzas magnéticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
1 Tracto A 1921 ± 31 22 ± 1 14
Control 1945 ± 31 49 ± 1 15
10 Tracto A 1910 ± 14 19 ± 1 25
Control 1940 ± 22 45 ± 1 18
100 Tracto A 1946 ± 16 15 ± 1 28
Control 1866 ± 20 44 ± 1 20
500 Tracto A 2039 ± 20 12 ± 1 29
Control 1923 ± 19 41 ± 1 19
Pinzas ópticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
50 Tracto A 1890 ± 7 20 ±1 38 ± 3 2560 ± 260 9
Control 1833 ± 7 42 ± 2 49 ± 5 1680 ± 80 10
100 Tracto A 1872 ± 16 20 ± 2 44 ± 3 2400 ± 220 15
Control 1836 ± 3 42 ± 2 47 ± 4 1540 ± 90 17
500 Tracto A 1839 ± 3 21 ± 1 37 ± 3 2390 ± 190 17
Control 1830 ± 3 41 ± 3 49 ± 4 1560 ± 100 13
Fuerza atómica microscópica .
Condiciones de imagen . Molécula . |$$ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . |$<>> $ | (Nuevo Méjico) . | $ a $ | (μm −1) . # Rastros .
Imágenes de aire Mg 2+ Tracto A 871 ± 27 (norte = 43) 23 ± 1 55 ± 1 17 ± 1 178
Control 898 ± 21 (norte = 44) 54 ± 1 122
Imágenes de aire Mg 2+ y amp Ni 2+ Tracto A 889 ± 28 (norte = 41) 24 ± 1 53 ± 1 17 ± 1 141
Control 902 ± 24 (norte = 38) 47 ± 1 89
Imágenes líquidas Mg 2+ y amp Ni 2+ Tracto A 858 ± 46 (norte = 40) 18 ± 4 47 ± 3 18 ± 1 180
Control 886 ± 53 (norte = 43) 50 ± 1 163
Pinzas magnéticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
1 Tracto A 1921 ± 31 22 ± 1 14
Control 1945 ± 31 49 ± 1 15
10 Tracto A 1910 ± 14 19 ± 1 25
Control 1940 ± 22 45 ± 1 18
100 Tracto A 1946 ± 16 15 ± 1 28
Control 1866 ± 20 44 ± 1 20
500 Tracto A 2039 ± 20 12 ± 1 29
Control 1923 ± 19 41 ± 1 19
Pinzas ópticas
[NaCl] (mM)Molécula |$$ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) |$<>> $ | (Nuevo Méjico) | $ S $ | (pN)norte
50 Tracto A 1890 ± 7 20 ±1 38 ± 3 2560 ± 260 9
Control 1833 ± 7 42 ± 2 49 ± 5 1680 ± 80 10
100 Tracto A 1872 ± 16 20 ± 2 44 ± 3 2400 ± 220 15
Control 1836 ± 3 42 ± 2 47 ± 4 1540 ± 90 17
500 Tracto A 1839 ± 3 21 ± 1 37 ± 3 2390 ± 190 17
Control 1830 ± 3 41 ± 3 49 ± 4 1560 ± 100 13

Imágenes líquidas

Las moléculas de ADN se inmovilizaron para la obtención de imágenes líquidas utilizando Ni 2+ como se informó anteriormente (36, 37). Una solución de 20 μl que contiene 0,3 nM de ADN en NaCl 100 mM, Tris-HCl 10 mM pH 8 y MgCl 7,5 mM2 se depositó primero en mica recién escindida (mica de grado V-4 de SPI) y se incubó durante 60 s para permitir que las moléculas se equilibraran. Luego, 2 μl de NiCl 2,5 mM2 se agregaron a la solución y se incubaron durante 60 s adicionales para fijar las moléculas a la superficie de la mica. The sample was then rinsed four times with 80 μl imaging buffer 10 mM Tris–HCl pH 8 and 10 mM KCl. Images were obtained in a final volume of 80 μl. Images were taken with an AFM from Nanotec Electronica S.L. with Biolever mini tips (AC-40TS Olympus, tip stiffness 0.02–0.1 N/m, tip radius ∼10 nm) using amplitude modulation imaging mode with a free amplitude of 1–2 nm and a set point of ∼0.8 nm.

Images obtained in air and in liquid were taken at a resolution of 1.46 nm/pixel and processed using the ‘Flatten plus’ utility of the WSxM freeware ( 38, 39). Contour lengths were computed by manually tracing the molecules using WSxM. Persistence length of molecules imaged in air were calculated using the tracing routine described in ( 34, 40) by taking 290 nm traces with 2.5 nm point-to-point (l) separation. Persistence length of molecules imaged in liquid were obtained by taking 292 nm traces with l = 4.0 nm.

Magnetic tweezers measurements

We used a magnetic tweezers setup based on an inverted optical microscope illuminated by nearly monochromatic LED light to track micrometer-sized superparamagnetic beads tethered to the surface by the DNA molecule of interest ( 41, 42). The spatial coordinates of the beads are extracted by videomicroscopy analysis of 2D correlation (xy coordinates) and by the analysis of the pattern of diffraction rings (z coordinate). Forces in the range of 0.03–6.5 pN are applied by approximating two vertically-aligned magnets (Supermagnete, W-05-N50-G) separated by a gap of 1 mm. The force applied at a given magnet position was determined from the average extension of the molecule and from the analysis of the Brownian excursions in Fourier space. In addition, motion blur and the ensuing overrating of the force was minimized by tracking at high frequencies (400 Hz). Force-extension curves were obtained by sampling the average extension at a constant force. Molecular extensions were corrected by subtracting the extension at zero force. Double-tethered beads were discarded from our measurement attending to their characteristic rotations-extension response. In addition, we discarded DNA-beads showing large off-center attachment to prevent underrating the persistence length, an artifact previously reported ( 43, 44). Beads with large off-center attachment were identified from the projected circle in the xy plane when magnet turns are applied. All the experiments were performed in a buffer composed of 10 mM Tris–HCl pH 8.0, 1 mM EDTA and supplemented with NaCl at the quoted concentration. The 10 mM Tris–HCl pH 8.0 buffer was prepared from a 1 M Tris–HCl pH 8.0 stock using Trizma ® base and adjusting the pH with HCl. The ionic strength (c) was calculated attending to the concentrations of all the ionic species in the solution, assuming ideal conditions. The concentration of ionized Tris was determined from the Henderson-Hasselbalch equation, whereas EDTA was assumed to possess charge –3 at pH 8. In addition to the Tris, HCl and EDTA species, we considered the sodium ions from the EDTA disodium salt employed to prepare the EDTA stock solution as well as the NaOH added to correct its pH. We obtained C0 = 11.67 mM for the EDTA–Tris buffer. Quoted concentrations of supplemented NaCl were added to C0 for each different experiment.

Optical tweezers measurements

Optical tweezers experiments were performed with a highly stable miniaturized counter-propagating dual-beam setup that operates by direct measurement of light momentum ( 45). Force was determined directly by measuring the deflection of the scattered laser beam with a position sensitive detector using an under-filled microscope objective. Individual DNA constructs labeled with biotin at one end and digoxigenin at the other (see above) were attached between a streptavidin-covered bead (2.1 μm diameter, Kisker Biotech PC-S-2.0) held by suction on top of a micropipette and an anti-digoxigenin-covered bead located at the optical trap (force sensor). Anti-digoxigenin antibody (Roche 11 333 089 001) was immobilized by crosslinking on protein G covered beads with nominal size 3.0 μm (Kisker Biotech PC-PG-3.0). Axial forces were applied to single DNA molecules by displacing the pipette relative to the optical trap. Force–extension curves were obtained at 500 Hz of sampling frequency by moving the optical trap at a pulling rate of 200 nm s −1 with a spatial and force resolution of 1 nm and 1 pN respectively. Our optical tweezers setup controls the distance between the trap center and the pipette (Xtotal), which is different from the end-to-end distance of the DNA molecule (Xend-end). The end-to-end distance was calculated as Xend−end = XTot − (F/k), where F is the force applied to the system, k the stiffness of the trap, and F/k corresponds to the distance (nm) moved by the bead out of the trap center (bead position). The trap stiffness was calibrated by measuring the displacement of the optical trap, while a bead fixed on top of the micropipette is gradually moved in/out of the trap ( 45). The trap stiffness calibrated for 3.0 μm beads was |$k =$| 0.135 ± 0.0043 pN nm −1 , with a linear spring restoring force up to 80 pN (data not shown). Experiments were done in a buffer of 10 mM Tris–HCl pH 8.0, 1 mM EDTA with the concentration of NaCl specified in the text. Raw data was processed by computing a running average in windows of 100 points. WLC and eWLC fitting parameters were obtained for each molecule and were then averaged. The errors in the parameters are the standard error of this mean.


Part 1 [15 pts]: git Remotes¶

Problem 1 [15 pts]: Understanding Remotes¶

Remotes are an important concept in git . Being a decentralized version control system, git allows each user to have the entire history of the project locally. This means that you can develop anywhere you want (e.g. an airplane over the ocean!). It also means that you have to be comfortable working with repos from other people not just a central repository.

The key idea here is that of remote repositories. You have probably noticed by now that git has names such as origin and master . The name origin refers to the name of the remote repository while the name master refers to the name of the branch . Repositories can have many branches. You can create references to other repositories (called remotes) within your current repository and customize the names.

You will complete this problem in your course repo in the HW2/ directory on the HW2-dev branch.

Complete the following steps:

  1. Type git remote -v and take a screenshot. Save it as P1_1.png , put it in your HW2-final/ directory, commit the changes to your local repo, and push the changes to origin .
  2. Add your playground repository as a remote. Use the command git remote add remote_name remote_url where remote_name should be replaced with the alias of the remote repo and remote_url should be replaced with the url to the remote repo. You can name the remote whatever you want. In the rest of this exercise, we will refer to the playground remote name as my_name .
  3. Type git remote -v and take a screenshot. Save it as P1_3.png and put it in your HW2-final/ directory, commit the changes to your local repo, and push the changes to origin .
  4. Now create a remote to the course playground ( cs107-sys-dev/playground ). No need to take a screenshot this time.
  5. Next fetch the changes from the remote course playground.
  6. Try out the git remote show my_name command. How useful! This is a good thing to check before blindly merging.
  7. Now merge the changes into your local cs107 repo on the HW2-dev branch (this should go smoothly because you shouldn't have any of the files yet so there's really nothing to merge).
    • Note that Steps 5 and 7 could have been combined with a git pull remote_name branch_name command, where branch_name should be replaced with the branch that you want to pull from. It's good to get in the habit of first fetching and then merging this helps enforce good practices.
    • Hint: Because your playground and course repos are not related, they have different git histories. git automatically rejects merges of repos with different histories. However, for this problem we will override that behavior. Try using the option --allow-unrelated-histories .
    • Hint: usted may need to resolve a merge conflict. In case you do, it's best to retain whatever was in your course repo (instead of what was in the playground).
  8. Show the status of your repo with the appropriate git command. Take a screenshot, save it as P1_8.png , and put it in your HW2-final/ directory.
  9. Move the files and directories that were merged from the playground repo into your HW2-final/ directory.
  10. Commit the changes to your local repo.
  11. Push the changes to your remote course repo (probably named origin ).
  12. Optional Rename the remote with the command git remote rename my_name new_name , where new_name should be replaced by the new alias that you want to use. Remove the remote with git remote remove my_name .

Final Deliverables (expected in your HW2-final/ directory)¶

  • P1_1.png
  • P1_3.png
  • P1_8.png
  • From playground merge
    • src/
    • tests/
    • README.md
    • environment.yml

    PrioriTree: Setting up BEAST Discrete-Biogeographic Analyses with Visualized Priors and Assessing Their Impact

    BEAST provides two options to infer biogeographic history. By default in BEAST, when users choose to estimate the overall number of dispersal events and/or between each pair of areas, a “fast stochastic mapping” algorithm (Minin and Suchard 2008a, 2008b O’Brien, Minin, and Suchard 2009) will be used to compute the expected number of events on each branch by analytical integration over the branch. This is the first option in the dropdown menu of PrioriTree, Fast stochastic mapping (incomplete history, simulation-free) .

    Figure 2.3: Biogeographic History Inference

    Note that as only the expected numbers of events are computed under this algorithm, we won’t be able to estimate the full biogeographic history (es decir., no estimates on when exactly the dispersal event occurred) using it.

    Alternatively, if users are interested in estimating the entire biogeographic history, simulation-based “stochastic mapping” algorithm should be used (Nielsen 2002 Rodrigue, Philippe, and Lartillot 2007 Hobolth and Stone 2009) . BEAST also allows us to pursue this approach it will be used when users select the second option in the dropdown menu of PrioriTree, Stochastic mapping (complete history, simulation-based) .

    Under either approach, users may choose to estimate the overall number of dispersal events and/or the number of dispersal events between each pair of areas. If none of them are chosen and the fast stochastic mapping algorithm (first option) is selected, PrioriTree won’t do anything (es decir., the part of XML script that tells BEAST to perform the computation for the expected number of dispersal events won’t be produced) if the stochastic mapping algorithm (second option) is selected, PrioriTree will still produce an XML script that tells BEAST to infer the full biogeographic history (which will be recorded in the output tree file the number of dispersal events won’t be written to the parameter log file, but they can still be retrieved from the tree log file).

    2.4.2 Evaluate Model and Priors

    Figure 2.4: Model Exploration Analyses

    2.4.2.1 Run Under Prior

    PrioriTree visualizes the prior distributions specified on the two focal parameters, as well as the resulting prior distribution on the expected number of dispersal events across the entire biogeographic history. Users may run MCMC simulations in BEAST to confirm that the induced prior distributions are consistent with expectation by selecting the Under prior option in the dropdown menu in the further model exploration analysis panel. (PrioriTree achieve this type of analysis by setting all the geographic-area data to "?" in the XML script.)

    2.4.2.2 Marginal Likelihood Estimation

    Users can choose to estimate marginal likelihood of their specified (prior)models. PrioriTree sets up the analysis in BEAST by appending a marginalLikelihoodEstimator section in the XML, after the analysis configuration section of the MCMC that approximates the joint posterior distribution. This will allow us to estimate marginal likelihood through both thermodynamic integration (Lartillot and Philippe 2006) and stepping-stone sampling (Xie et al. 2011 Baele et al. 2012) .

    The workhorse of marginal likelihood estimation is a sequence of power-posterior inferences, where for each individual inference (i) , the likelihood is raised to a power, (eta_i) , between 0 and 1. The allocation of (eta) values may affect the accuracy of the estimates. Following the BEAST default, PrioriTree specifies the sequence of (eta) values following evenly-spaced quantiles of a Beta ((0.3, 1.0)) distribution, so that more values of (eta) are put near 0 than near 1 (originally recommended by Xie et al. 2011) .

    Figure 2.5: Marginal Likelihood Estimation Analyses

    The number of powers and how many MCMC generations under each power may also strongly impact the accuracy of the estimates. Default values are probably enough for most empirical datasets and models. However, the most straightforward way to check the convergence of marginal likelihood estimates is to run multiple replicates of the analyses to see if we get stable estimates across replicates. If the estimates differ significantly among replicates (say greater than a few log-likelihood units), users may consider to increase the number of powers and/or the MCMC chain length under each power.

    2.4.2.3 Robust Bayesian

    Robust Bayesian inference can be used to explore the impact of prior specification on posterior estimates it assesses the “robustness” of our posterior estimates to prior specification. To achieve this, we need to run multiple Bayesian analyses using identical model but different priors, and then we can compare the estimated joint posterior distribution to assess the robustness. If the posterior distributions are (mostly) identical across prior models, then we may conclude that the posterior estimates are rather robust to alternative priors. Conversely, if the estimated posterior distributions differ drastically (es decir., largely non-overlapping) among the priors, and so do the corresponding prior distributions (especially when the posteriors exhibit similar non-overlapping patterns as the priors), then we may conclude that the posterior estimates are sensitive to the specified prior (es decir., the prior is relatively too informative comparing with the data).

    2.4.2.4 Data Cloning

    A computational technique called data cloning may help us understand the sensitivity of posterior estimates to the choice of prior. Originally developed as a tool for using MCMC to perform maximum-likelihood inference (Robert 1993) , and later used as a tool for understanding model identifiability for complex Bayesian models (Lele, Dennis, and Lutscher 2007 Ponciano et al. 2009, 2012) , data cloning involves performing a sequence of MCMC analyses with an increasing number of duplicates of the observed data. A particular MCMC in the sequence is defined by the number of duplicated datasets, (<eta_i geq 1>) , with the resulting posterior distribution being: [egin P( heta mid X)_ <eta_i>propto P(X mid heta)^ <eta_i>P( heta). end] As (eta_i ightarrow infty) (and assuming the model is identifiable), the joint posterior distribution should converge to a point that is identical to the joint maximum-likelihood estimate (MLE) if the joint posterior distribution does not converge to a point, then the model is nonidentifiable (es decir., the MLE may not be unique). When the model is identifiable, the rate at which the joint posterior distribution converges to the MLE is related to the amount of information available in the data relative to the strength of the prior, es decir., when the prior is strong, convergence to the MLE will be slow.

    Figure 2.6: Data Cloning Analyses

    You can specify the number of clones to use in PrioriTree. Effectively, PrioriTree duplicates the geographic-area data into an alignment, where all the sites in the alignment are identical and the number of sites is the number clones. To assess how the posterior estimates may change under more information in the data, you may generate a sequence of data-cloning analyses with increasing number of clones (p.ej. 5, 10, 20).

    2.4.2.5 Posterior-Predictive Checking

    Posterior-predictive simulations can be used to evaluate the absolute fit of model to the data (Gelman, Meng, and Stern 1996 Bollback 2002) . Each individual simulation is performed by drawing a vector of parameters, (< heta_i = , oldsymbol, mu_i >>) , at random from the MCMC samples approximating the joint posterior distribution, and then simulating a predictive dataset, (G^ ext_i) , conditional on those parameters using the sim.history() function in the R (R Core Team 2020) package phytools (Revell 2012) . Repeating this simulation procedure (m) times, we obtain (m) predictive datasets.

    A difference statistic can then be calculated for the (i^ ext) simulated dataset as: [egin D_i = T(G^ ext_i mid heta_i) - T(G^ ext mid heta_i), end] where (G^ ext) is the observed biogeographic dataset, and (T( cdot mid heta_i)) is a summary statistic (detailed below).

    For the (m) predictive datasets, the posterior-predictive (p) -value is calculated as: [egin P = frac<1> sum_^m D_i geq 0, end] with values between (0.025) and (0.975) indicating that the model is adequate and cannot be rejected (es decir., the observed statistic is within the 95% posterior-predictive interval).

    Two summary statistics can be used to assess model adequacy: (1) the parsimony statistic, and (2) the tip-wise multinomial statistic. For the parsimony statistic, we simply calculated the parsimony score for the given simulated or observed dataset, conditional on the sampled tree, (Psi_i) , using the parsimony() function in R package phangorn (Schliep 2010) .

    The tip-wise multinomial statistic is similar to the multinomial statistic introduced by Goldman (1993) and used in posterior-predictive simulation by Bollback (2002) , which treats the sites (columns) in a molecular alignment as outcomes of a multinomial trial. The tip-wise statistic is similar, but treats the states at the tips of the tree for the single geographic character (es decir., site) as the outcomes of the multinomial trial. For the tip-wise multinomial statistic, we calculated: [egin T(G mid heta_i) = sum_^k n_i ln(n_i / n), end] where (n) is the number of tips, and (n_i) is the number of tips in state (i) .

    Referencias

    Baele, Guy, Philippe Lemey, Trevor Bedford, Andrew Rambaut, Marc A Suchard, and Alexander V Alekseyenko. 2012. “Improving the Accuracy of Demographic and Molecular Clock Model Comparison While Accommodating Phylogenetic Uncertainty.” Molecular Biology and Evolution 29 (9): 2157–67.

    Bollback, Jonathan P. 2002. “Bayesian Model Adequacy and Choice in Phylogenetics.” Molecular Biology and Evolution 19 (7): 1171–80.

    Gelman, Andrew, Xiao-Li Meng, and Hal Stern. 1996. “Posterior Predictive Assessment of Model Fitness via Realized Discrepancies.” Statistica Sinica, 733–60.

    Goldman, Nick. 1993. “Statistical tests of models of DNA substitution.” Journal of Molecular Evolution 36 (2): 182–98.

    Hobolth, Asger, and Eric A Stone. 2009. “Simulation from Endpoint-Conditioned, Continuous-Time Markov Chains on a Finite State Space, with Applications to Molecular Evolution.” The Annals of Applied Statistics 3 (3): 1204.

    Lartillot, N., and H. Philippe. 2006. “Computing Bayes Factors Using Theromodynamic Integration.” Biología sistemática 55: 195–207.

    Lele, Subhash R, Brian Dennis, and Frithjof Lutscher. 2007. “Data Cloning: Easy Maximum Likelihood Estimation for Complex Ecological Models Using Bayesian Markov Chain Monte Carlo Methods.” Ecology Letters 10 (7): 551–63.

    Minin, Vladimir N, and Marc A Suchard. 2008a. “Counting labeled transitions in continuous-time Markov models of evolution.” Journal of Mathematical Biology 56 (3): 391–412.

    Minin, Vladimir N, and Marc A Suchard. 2008b. “Fast, Accurate and Simulation-Free Stochastic Mapping.” Philosophical Transactions of the Royal Society B: Biological Sciences 363 (1512): 3985–95.

    Nielsen, Rasmus. 2002. “Mapping Mutations on Phylogenies.” Biología sistemática 51 (5): 729–39.

    O’Brien, John D, Vladimir N Minin, and Marc A Suchard. 2009. “Learning to Count: Robust Estimates for Labeled Distances Between Molecular Sequences.” Molecular Biology and Evolution 26 (4): 801–14.

    Ponciano, Jose Miguel, Mark L Taper, Brian Dennis, and Subhash R Lele. 2009. “Hierarchical Models in Ecology: Confidence Intervals, Hypothesis Testing, and Model Selection Using Data Cloning.” Ecología 90 (2): 356–62.

    Ponciano, José Miguel, J Gordon Burleigh, Edward L Braun, and Mark L Taper. 2012. “Assessing Parameter Identifiability in Phylogenetic Models Using Data Cloning.” Biología sistemática 61 (6): 955–72.

    R Core Team. 2020. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.R-project.org/.

    Revell, Liam J. 2012. “Phytools: An R Package for Phylogenetic Comparative Biology (and Other Things).” Methods in Ecology and Evolution 3 (2): 217–23.

    Robert, Christian P. 1993. “Prior Feedback: A Bayesian Approach to Maximum Likelihood Estimation.” Computational Statistics 8: 279–94.

    Rodrigue, Nicolas, Hervé Philippe, and Nicolas Lartillot. 2007. “Uniformization for Sampling Realizations of Markov Processes: Applications to Bayesian Implementations of Codon Substitution Models.” Bioinformática 24 (1): 56–62.

    Schliep, Klaus Peter. 2010. “Phangorn: Phylogenetic Analysis in R.” Bioinformática 27 (4): 592–93.

    Xie, W., P. O. Lewis, Y. Fan, L. Kuo, and M.-H. Chen. 2011. “Improving Marginal Likelihood Estimation for Bayesian Phylogenetic Model Selection.” Biología sistemática 60: 150—160.


    Ver el vídeo: Secuencia de datos - R (Mayo 2022).