Información

2.3: Máxima probabilidad - Biología

2.3: Máxima probabilidad - Biología


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Sección 2.3a: ¿Qué es una probabilidad?

Dado que todos los enfoques descritos en el resto de este capítulo implican el cálculo de probabilidades, primero describiré brevemente este concepto. Una buena revisión general de la probabilidad es Edwards (1992). La probabilidad se define como la probabilidad, dado un modelo y un conjunto de valores de parámetros, de obtener un conjunto particular de datos. Es decir, dada una descripción matemática del mundo, ¿cuál es la probabilidad de que veamos los datos reales que hemos recopilado?

Para calcular una probabilidad, tenemos que considerar un modelo particular que puede haber generado los datos. Ese modelo casi siempre tendrá valores de parámetros que deben especificarse. Podemos referirnos a este modelo especificado (con valores de parámetros particulares) como una hipótesis, H. La probabilidad es entonces:

[L (H | D) = Pr (D | H) etiqueta {2.1} ]

Aquí, L y Pr representan verosimilitud y probabilidad, D para los datos y H para la hipótesis, que nuevamente incluye tanto el modelo que se está considerando como un conjunto de valores de parámetros. El | símbolo significa "dado", por lo que la ecuación 2.1 se puede leer como "la probabilidad de la hipótesis dada la información es igual a la probabilidad de la información dada la hipótesis". En otras palabras, la probabilidad representa la probabilidad bajo un modelo dado y valores de parámetro de que obtendríamos los datos que realmente vemos.

Para cualquier modelo dado, el uso de diferentes valores de parámetros generalmente cambiará la probabilidad. Como puede adivinar, favorecemos los valores de los parámetros que nos dan la mayor probabilidad de obtener los datos que vemos. Entonces, una forma de estimar los parámetros a partir de los datos es encontrar los valores de los parámetros que maximizan la probabilidad; es decir, los valores de los parámetros que dan la mayor probabilidad y la mayor probabilidad de obtener los datos. Estas estimaciones se denominan estimaciones de máxima verosimilitud (ML). En un marco de ML, suponemos que la hipótesis que mejor se ajusta a los datos es la que tiene mayor probabilidad de haber generado esos datos.

Para el ejemplo anterior, necesitamos calcular la probabilidad como la probabilidad de obtener cabezas 63 de cada 100 volteretas de lagarto, dado algún modelo de voltereta de lagarto. En general, podemos escribir la probabilidad de cualquier combinación de H "éxitos" (volteretas que dan cara) de n intentos. También tendremos un parámetro, pagH, que representará la probabilidad de "éxito", es decir, la probabilidad de que cualquier lanzamiento salga cara. Podemos calcular la probabilidad de nuestros datos usando el teorema del binomio:

$$ L (H | D) = Pr (D | p) = {n elija H} p_H ^ H (1-p_H) ^ {n-H} label {2.2} $$

En el ejemplo dado, n = 100 y H = 63, entonces:

$$ L (H | D) = {100 elija 63} p_H ^ {63} (1-p_H) ^ {37} label {2.3} $$

Figura 2.2. Superficie de verosimilitud para el parámetro pH, dada una moneda que ha sido lanzada como cara 63 de cada 100 veces. Imagen del autor, se puede reutilizar bajo una licencia CC-BY-4.0.

Podemos hacer una gráfica de la probabilidad, L, como una función de pagH (Figura 2.2). Cuando hacemos esto, vemos que el valor de probabilidad máxima de pagH, que podemos llamar $ hat {p} _H $, está en $ hat {p} _H = 0.63 $. Este es el enfoque de "fuerza bruta" para encontrar la máxima probabilidad: pruebe muchos valores diferentes de los parámetros y elija el que tenga la mayor probabilidad. Podemos hacer esto de manera mucho más eficiente utilizando métodos numéricos como se describe en capítulos posteriores de este libro.

También podríamos haber obtenido la estimación de máxima verosimilitud para pagH a través de la diferenciación. Este problema es mucho más fácil si trabajamos con la n-verosimilitud en lugar de la probabilidad en sí misma (tenga en cuenta que cualquier valor de pagH que maximiza la probabilidad también maximizará la probabilidad ln, porque la función logarítmica aumenta estrictamente). Entonces:

$$ ln {L} = ln {n elija H} + H ln {p_H} + (n-H) ln {(1-p_H)} label {2.4} $$

Tenga en cuenta que la transformación logarítmica natural (ln) cambia nuestra ecuación de una función de potencia a una función lineal que es fácil de resolver. Podemos diferenciar:

$$ frac {d ln {L}} {dp_H} = frac {H} {p_H} - frac {(n-H)} {(1-p_H)} label {2.5} $$

El máximo de probabilidad representa un pico, que podemos encontrar estableciendo la derivada $ frac {d ln {L}} {dp_H} $ en cero. Luego encontramos el valor de pagH eso resuelve esa ecuación, que será nuestra estimación $ hat {p} _H $. Entonces tenemos:

$$ begin {array} {lcl} frac {H} { hat {p} _H} - frac {nH} {1- hat {p} _H} & = & 0 frac {H} { hat {p} _H} & = & frac {nH} {1- hat {p} _H} H (1- hat {p} _H) & = & hat {p} _H (nH ) HH hat {p} _H & = & n hat {p} _H-H hat {p} _H H & = & n hat {p} _H hat {p} _H & = & H / n end {matriz} etiqueta {2.6} $$

Observe que, para nuestro ejemplo simple, H/norte = 63/100 = 0,63, que es exactamente igual a la probabilidad máxima de la figura 2.2.

Las estimaciones de máxima verosimilitud tienen muchas propiedades estadísticas deseables. Sin embargo, vale la pena señalar que no siempre devolverán estimaciones precisas de los parámetros, incluso cuando los datos se generen con el modelo real que estamos considerando. De hecho, los parámetros de AA a veces pueden estar sesgados. Para comprender lo que esto significa, necesitamos presentar formalmente dos nuevos conceptos: sesgo y precisión. Imagina que tuviéramos que simular conjuntos de datos bajo algún modelo A con el parámetro a. Para cada simulación, usamos ML para estimar el parámetro $ hat {a} $ para los datos simulados. La precisión de nuestra estimación de ML nos dice cuán diferentes, en promedio, son cada uno de nuestros parámetros estimados $ hat {a} _i $ entre sí. Las estimaciones precisas se estiman con menos incertidumbre. El sesgo, por otro lado, mide qué tan cerca están nuestras estimaciones $ hat {a} _i $ del valor real a. Si nuestra estimación del parámetro ML está sesgada, entonces el promedio de $ hat {a} _i $ diferirá del valor real a. No es raro que las estimaciones de ML estén sesgadas de una manera que dependa del tamaño de la muestra, de modo que las estimaciones se acerquen más a la verdad a medida que aumenta el tamaño de la muestra, pero pueden estar bastante alejadas en una dirección particular cuando el número de puntos de datos es menor. pequeño en comparación con el número de parámetros que se están estimando.

En nuestro ejemplo de voltear lagartos, estimamos un valor de parámetro de $ hat {p} _H = 0.63 $. Para el caso particular de estimar el parámetro de una distribución binomial, se sabe que nuestra estimación de ML es insesgada. Y esta estimación es diferente de 0.5, que era nuestra expectativa bajo la hipótesis nula. Entonces, ¿este lagarto es justo? O, alternativamente, ¿podemos rechazar la hipótesis nula de que pagH = 0,5? Para evaluar esto, necesitamos utilizar la selección de modelos.

Sección 2.3b: La prueba de razón de verosimilitud

La selección de modelos implica comparar un conjunto de modelos potenciales y utilizar algún criterio para seleccionar el que proporcione la "mejor" explicación de los datos. Los diferentes enfoques definen lo "mejor" de diferentes maneras. Primero discutiré la más simple, pero también la más limitada, de estas técnicas, la prueba de razón de verosimilitud. Las pruebas de razón de verosimilitud solo se pueden usar en una situación particular: para comparar dos modelos donde uno de los modelos es un caso especial del otro. Esto significa que el modelo A es exactamente equivalente al modelo B más complejo con parámetros restringidos a ciertos valores. Siempre podemos identificar el modelo más simple como el modelo con menos parámetros. Por ejemplo, quizás el modelo B tenga parámetros x, y y z que pueden tomar cualquier valor. El modelo A es el mismo que el modelo B pero con el parámetro z fijo en 0. Es decir, A es el caso especial de B cuando el parámetro z = 0. Esto a veces se describe como el modelo A está anidado dentro del modelo B, ya que todas las versiones posibles de el modelo A es igual a un caso determinado del modelo B, pero el modelo B también incluye más posibilidades.

Para las pruebas de razón de verosimilitud, la hipótesis nula es siempre el más simple de los dos modelos. Comparamos los datos con lo que esperaríamos si el modelo más simple (nulo) fuera correcto.

Por ejemplo, considere nuevamente nuestro ejemplo de voltear un lagarto. Un modelo es que el lagarto es "justo": es decir, que la probabilidad de que salga cara es igual a 1/2. Un modelo diferente podría ser que la probabilidad de caras sea algún otro valor p, que podría ser 1/2, 1/3 o cualquier otro valor entre 0 y 1. Aquí, el último modelo (complejo) tiene un parámetro adicional, pagH, en comparación con el modelo anterior (simple); el modelo simple es un caso especial del modelo complejo cuando pagH = 1/2.

Para tales modelos anidados, se puede calcular el estadístico de prueba de razón de verosimilitud como

$$ Delta = 2 cdot ln { frac {L_1} {L_2}} = 2 cdot ( ln {L_1} - ln {L_2}) label {2.7} $$

Aquí, Δ es el estadístico de prueba de razón de verosimilitud, L2 la probabilidad del modelo más complejo (rico en parámetros), y L1 la probabilidad del modelo más simple. Dado que los modelos están anidados, la probabilidad del modelo complejo siempre será mayor o igual que la probabilidad del modelo simple. Esta es una consecuencia directa del hecho de que los modelos están anidados. Si encontramos una probabilidad particular para el modelo más simple, siempre podemos encontrar una probabilidad igual a la del modelo complejo estableciendo los parámetros de modo que el modelo complejo sea equivalente al modelo simple. Entonces, la probabilidad máxima para el modelo complejo será ese valor o algún valor más alto que podamos encontrar buscando en el espacio de parámetros. Esto significa que la estadística de prueba Δ nunca será negativo. De hecho, si alguna vez obtiene una estadística de prueba de razón de verosimilitud negativa, algo ha salido mal: o sus cálculos son incorrectos, o no ha encontrado soluciones de AA, o los modelos no están realmente anidados.

Para realizar una prueba estadística comparando los dos modelos, comparamos la estadística de prueba Δ a su expectativa bajo la hipótesis nula. Cuando los tamaños de muestra son grandes, la distribución nula del estadístico de prueba de razón de verosimilitud sigue una chi-cuadrado (χ2) distribución con grados de libertad iguales a la diferencia en el número de parámetros entre los dos modelos. Esto significa que si la hipótesis más simple fuera cierta, y uno llevara a cabo esta prueba muchas veces en grandes conjuntos de datos independientes, la estadística de prueba seguiría aproximadamente a esta χ2 distribución. Entonces, para rechazar el modelo más simple (nulo), se compara el estadístico de prueba con un valor crítico derivado de la χ2 distribución. Si el estadístico de prueba es mayor que el valor crítico, se rechaza la hipótesis nula. De lo contrario, no rechazamos la hipótesis nula. En este caso, solo necesitamos considerar una cola de la χ2 prueba, ya que cada desviación del modelo nulo nos empujará hacia una mayor Δ valores y hacia la cola derecha de la distribución.

Para el ejemplo de volteo de lagarto anterior, podemos calcular la probabilidad ln bajo una hipótesis de pagH = 0.5 como:

$$ begin {array} {lcl} ln {L_1} & = & ln { left ( frac {100} {63} right)} + 63 cdot ln {0.5} + (100-63 ) cdot ln {(1-0.5)} nonumber ln {L_1} & = & -5.92 nonumber end {array} label {2.8} $$

Podemos comparar esto con la probabilidad de nuestra estimación de máxima verosimilitud:

$$ begin {array} {lcl} ln {L_2} & = & ln { left ( frac {100} {63} right)} + 63 cdot ln {0,63} + (100-63 ) cdot ln {(1-0.63)} nonumber ln {L_2} & = & -2.50 nonumber end {array} label {2.9} $$

Luego calculamos el estadístico de prueba de razón de verosimilitud:

$$ begin {matriz} {lcl} Delta & = & 2 cdot ( ln {L_2} - ln {L_1}) nonumber Delta & = & 2 cdot (-2,50 - -5,92) nonumber Delta & = & 6.84 nonumber end {matriz} etiqueta {2.10} $$

Si comparamos esto con un χ2 distribución con un d.f., encontramos que PAG = 0,009. Debido a que este valor P es menor que el umbral de 0.05, rechazamos la hipótesis nula y apoyamos la alternativa. Concluimos que este no es un lagarto justo. Como era de esperar, este resultado es coherente con nuestra respuesta de la prueba binomial de la sección anterior. Sin embargo, los enfoques son matemáticamente diferentes, por lo que los dos valores P no son idénticos.

Aunque se describió anteriormente en términos de dos hipótesis en competencia, las pruebas de razón de verosimilitud se pueden aplicar a situaciones más complejas con más de dos modelos en competencia. Por ejemplo, si todos los modelos forman una secuencia de complejidad creciente, con cada modelo un caso especial del siguiente modelo más complejo, se puede comparar cada par de hipótesis en secuencia, deteniéndose la primera vez que la estadística de prueba no es significativa. Alternativamente, en algunos casos, las hipótesis se pueden colocar en un árbol de elección bifurcado, y se puede pasar de modelos simples a complejos siguiendo un camino particular de comparaciones pareadas de modelos anidados. Este enfoque se usa comúnmente para seleccionar modelos de evolución de secuencias de ADN (Posada y Crandall 1998).

Sección 2.3c: El criterio de información de Akaike (AIC)

Es posible que haya notado que la prueba de razón de verosimilitud descrita anteriormente tiene algunas limitaciones. Especialmente para los modelos que involucran más de un parámetro, los enfoques basados ​​en pruebas de razón de verosimilitud solo pueden hacer mucho. Por ejemplo, se puede comparar una serie de modelos, algunos de los cuales están anidados dentro de otros, utilizando una serie ordenada de pruebas de razón de verosimilitud. Sin embargo, los resultados a menudo dependerán en gran medida del orden en que se lleven a cabo las pruebas. Además, a menudo queremos comparar modelos que no están anidados, como lo requieren las pruebas de razón de verosimilitud. Por estos motivos, puede resultar útil otro enfoque, basado en el Criterio de información de Akaike (AIC).

El valor de AIC para un modelo en particular es una función simple de la probabilidad L y el número de parámetros k:

[AIC = 2k - 2 ln L label {2.11} ]

Esta función equilibra la probabilidad del modelo y el número de parámetros estimados en el proceso de ajuste del modelo a los datos. Se puede pensar en el criterio AIC como la identificación del modelo que proporciona la forma más eficiente de describir patrones en los datos con pocos parámetros. Sin embargo, esta descripción abreviada de AIC no captura la justificación matemática y filosófica real de la ecuación (2.11). De hecho, esta ecuación no es arbitraria; en cambio, su compensación exacta entre los números de parámetros y la diferencia logarítmica de verosimilitud proviene de la teoría de la información (para más información, ver Burnham y Anderson 2003, Akaike (1998)).

La ecuación AIC (2.11) anterior solo es válida para tamaños de muestra bastante grandes en relación con el número de parámetros que se están estimando (para n muestras yk parámetros, norte/k > 40). La mayoría de los conjuntos de datos empíricos incluyen menos de 40 puntos de datos independientes por parámetro, por lo que se debe emplear una pequeña corrección de tamaño de muestra:

$$ AIC_C = AIC + frac {2k (k + 1)} {n-k-1} label {2.12} $$

Esta corrección penaliza a los modelos que tienen tamaños de muestra pequeños en relación con el número de parámetros; es decir, modelos en los que hay casi tantos parámetros como puntos de datos. Como señalaron Burnham y Anderson (2003), esta corrección tiene poco efecto si los tamaños de muestra son grandes y, por lo tanto, proporciona una forma sólida de corregir posibles sesgos en conjuntos de datos de cualquier tamaño. Recomiendo siempre usar la corrección de tamaño de muestra pequeño al calcular los valores de AIC.

Para seleccionar entre modelos, uno puede comparar sus AICC puntuaciones y elija el modelo con el valor más pequeño. Es más fácil hacer comparaciones en AICC puntuaciones entre modelos calculando la diferencia, ΔAICC. Por ejemplo, si está comparando un conjunto de modelos, puede calcular ΔAICC para el modelo i como:

[ΔAIC_ {c_i} = AIC_ {c_i} - AIC_ {c_ {min}} label {2.13} ]

dónde AICCI es el AICC puntuación para el modelo i y AICCmetroInorte es el mínimo AICC puntuación en todos los modelos.

Como regla general para comparar AIC valores, cualquier modelo con un ΔAICCI de menos de cuatro es aproximadamente equivalente al modelo con el menor AICC valor. Modelos con ΔAICCI entre 4 y 8 tienen poco soporte en los datos, mientras que cualquier modelo con un ΔAICCI mayor que 10 se puede ignorar con seguridad.

Además, se puede calcular el soporte relativo para cada modelo usando pesos de Akaike. El peso por modelo I en comparación con un conjunto de modelos de la competencia se calcula como:

$$ w_i = frac {e ^ {- Delta AIC_ {c_i} / 2}} { sum_i {e ^ {- Delta AIC_ {c_i} / 2}}} label {2.14} $$

Los pesos de todos los modelos considerados suman 1, por lo que wI para cada modelo se puede ver como una estimación del nivel de soporte para ese modelo en los datos en comparación con los otros modelos que se están considerando.

Volviendo a nuestro ejemplo de voltear lagartos, podemos calcular AICC puntuaciones para nuestros dos modelos de la siguiente manera:

$$ begin {array} {lcl} AIC_1 & = & 2 k_1 - 2 ln {L_1} = 2 cdot 0 - 2 cdot -5.92 AIC_1 & = & 11.8 AIC_2 & = & 2 k_2 - 2 ln {L_2} = 2 cdot 1-2 cdot -2.50 AIC_2 & = & 7.0 end {matriz} etiqueta {2.15} $$

Nuestro ejemplo es un poco inusual en ese modelo uno no tiene parámetros estimados; esto sucede a veces, pero no es típico de las aplicaciones biológicas. Podemos corregir estos valores para nuestro tamaño de muestra, que en este caso es norte = 100 volteretas de lagarto:

$$ begin {array} {lcl} AIC_ {c_1} & = & AIC_1 + frac {2 k_1 (k_1 + 1)} {n - k_1 - 1} AIC_ {c_1} & = & 11.8 + frac {2 cdot 0 (0 + 1)} {100-0-1} AIC_ {c_1} & = & 11.8 AIC_ {c_2} & = & AIC_2 + frac {2 k_2 (k_2 + 1)} {n - k_2 - 1} AIC_ {c_2} & = & 7.0 + frac {2 cdot 1 (1 + 1)} {100-1-1} AIC_ {c_2} & = & 7.0 end {matriz} etiqueta {2.16} $$

Nótese que, en este caso particular, la corrección no afectó nuestra AIC valores, al menos hasta un decimal. Esto se debe a que el tamaño de la muestra es grande en relación con el número de parámetros. Tenga en cuenta que el modelo 2 tiene el más pequeño AICC puntuación y, por lo tanto, es el modelo que mejor se apoya en los datos. Teniendo en cuenta esto, ahora podemos convertir estos AICC puntuaciones a una escala relativa:

$$ begin {array} {lcl} Delta AIC_ {c_1} & = & AIC_ {c_1} -AIC {c_ {min}} & = & 11.8-7.0 & = & 4.8 end {matriz} etiqueta {2.17} $$

$$ begin {array} {lcl} Delta AIC_ {c_2} & = & AIC_ {c_2} -AIC {c_ {min}} & = & 7.0-7.0 & = & 0 end {matriz} $$

Tenga en cuenta que el ΔAICCI para el modelo 1 es mayor que cuatro, lo que sugiere que este modelo (el lagarto "justo") tiene poco apoyo en los datos. De nuevo, esto es consistente con todos los resultados que hemos obtenido hasta ahora utilizando tanto la prueba binomial como la prueba de razón de verosimilitud. Finalmente, podemos usar las puntuaciones relativas de AICc para calcular los pesos de Akaike:

$$ begin {array} {lcl} sum_i {e ^ {- Delta_i / 2}} & = & e ^ {- Delta_1 / 2} + e ^ {- Delta_2 / 2} & = & e ^ {- 4.8 / 2} + e ^ {- 0/2} & = & 0.09 + 1 & = & 1.09 end {matriz} etiqueta {2.18} $$

$$ begin {array} {lcl} w_1 & = & frac {e ^ {- Delta AIC_ {c_1} / 2}} { sum_i {e ^ {- Delta AIC_ {c_i} / 2}}} & = & frac {0.09} {1.09} & = & 0.08 end {array} $$

$$ begin {array} {lcl} w_2 & = & frac {e ^ {- Delta AIC_ {c_2} / 2}} { sum_i {e ^ {- Delta AIC_ {c_i} / 2}}} & = & frac {1.00} {1.09} & = & 0.92 end {array} $$

Nuestros resultados son nuevamente consistentes con los resultados de la prueba de razón de verosimilitud. La probabilidad relativa de un lagarto injusto es 0,92, y podemos estar bastante seguros de que nuestro lagarto no es una aleta justa.

Las ponderaciones AIC también son útiles para otro propósito: podemos usarlas para obtener estimaciones de parámetros promediadas por el modelo. Se trata de estimaciones de parámetros que se combinan en diferentes modelos de forma proporcional al soporte de esos modelos. Como ejemplo de pensamiento, imagine que estamos considerando dos modelos, A y B, para un conjunto de datos en particular. Tanto el modelo A como el modelo B tienen el mismo parámetro pag, y este es el parámetro que nos interesa especialmente. En otras palabras, no sabemos qué modelo es el mejor para nuestros datos, pero lo que realmente necesitamos es una buena estimación de pag. Podemos hacer eso usando el modelo de promediado. Si el modelo A tiene un peso AIC alto, entonces la estimación del parámetro promediado del modelo para pag estará muy cerca de nuestra estimación de pag bajo el modelo A; sin embargo, si ambos modelos tienen aproximadamente el mismo apoyo, la estimación del parámetro estará cerca del promedio de las dos estimaciones diferentes. El promedio del modelo puede ser muy útil en los casos en que existe mucha incertidumbre en la elección del modelo para modelos que comparten parámetros de interés. A veces, los modelos en sí mismos no son de interés, pero deben considerarse como posibilidades; en este caso, el promedio del modelo nos permite estimar los parámetros de una manera que no depende en gran medida de nuestra elección de modelos.


El método

Supongamos de nuevo que tenemos una variable aleatoria observable ( bs) para un experimento, que toma valores en un conjunto (S ). Supongamos también que la distribución de ( bs) depende de un parámetro desconocido ( theta ), tomando valores en un espacio de parámetros ( Theta ). Por supuesto, nuestra variable de datos ( bs) casi siempre tendrá un valor vectorial. El parámetro ( theta ) también puede tener un valor vectorial. Denotaremos la función de densidad de probabilidad de ( bs) en (S ) por (f_ theta ) para ( theta in Theta ). La distribución de ( bs ) podría ser discreta o continua.

La función de verosimilitud es la función que se obtiene al invertir los roles de ( bs) y ( theta ) en la función de densidad de probabilidad, es decir, vemos ( theta ) como la variable y ( bs) como la información dada (que es precisamente el punto de vista en la estimación).

El en ( bs en S ) es la función (L _ < bs>: Theta to [0, infty) ) dado por [L_ bs( theta) = f_ theta ( bs), quad theta in Theta ]

En el método de, intentamos encontrar el valor del parámetro que maximiza la función de verosimilitud para cada valor del vector de datos.

Suponga que el valor máximo de (L _ < bs> ) ocurre en (u ( bs) in Theta ) para cada ( bs En s ). Entonces la estadística (u ( bs) ) es una de ( theta ).

El método de máxima verosimilitud es intuitivamente atractivo y mdash intentamos encontrar el valor del parámetro que probablemente habría producido los datos que de hecho observamos.

Dado que la función logaritmo natural aumenta estrictamente en ((0, infty) ), el valor máximo de la función de verosimilitud, si existe, ocurrirá en los mismos puntos que el valor máximo del logaritmo de la función de verosimilitud.

El en ( bs in S ) es la función ( ln L _ < bs> ): [ ln L _ < bs> ( theta) = ln f_ theta ( bs), quad theta in Theta ] Si el valor máximo de ( ln L _ < bs> ) ocurre en (u ( bs) in Theta ) para cada ( bs En s ). Entonces la estadística (u ( bs) ) es un estimador de máxima verosimilitud de ( theta )

La función logarítmica de verosimilitud es a menudo más fácil de trabajar que la función de verosimilitud (normalmente porque la función de densidad de probabilidad (f_ theta ( bs) ) tiene una estructura de producto).

Vector de parámetros

Un caso especial importante es cuando ( bs < theta> = ( theta_1, theta_2, ldots, theta_k) ) es un vector de (k ) parámetros reales, de modo que ( Theta subseteq R ^ k ). En este caso, el problema de máxima verosimilitud es maximizar una función de varias variables. Si ( Theta ) es un conjunto continuo, se pueden usar los métodos de cálculo. Si el valor máximo de (L_ bs) ocurre en un punto ( bs < theta> ) en el interior de ( Theta ), entonces (L_ bs) tiene un máximo local en ( bs < theta> ). Por lo tanto, asumiendo que la función de verosimilitud es diferenciable, podemos encontrar este punto resolviendo [ frac < parcial> < parcial theta_i> L_ bs( bs < theta>) = 0, quad i in <1, 2, ldots, k > ] o equivalentemente [ frac < parcial> < parcial theta_i> ln L_ bs( bs < theta>) = 0, quad i in <1, 2, ldots, k > ] Por otro lado, el valor máximo puede ocurrir en un punto límite de ( Theta ), o puede que no exista en absoluto.

Muestras aleatorias

El caso especial más importante es cuando las variables de datos forman una muestra aleatoria de una distribución.

Suponga que ( bs = (X_1, X_2, ldots, X_n) ) es una muestra aleatoria de tamaño (n ) de la distribución de una variable aleatoria (X ) tomando valores en (R ), con función de densidad de probabilidad (g_ theta ) para ( theta in Theta ). Entonces ( bs) toma valores en (S = R ^ n ), y las funciones de verosimilitud y log-verosimilitud para ( bs = (x_1, x_2, ldots, x_n) in S ) son begin L_ bs( theta) & amp = prod_^ n g_ theta (x_i), quad theta in Theta ln L_ bs( theta) & amp = sum_^ n ln g_ theta (x_i), quad theta in Theta end

Ampliación del método y la propiedad de invariancia

Volviendo a la configuración general, suponga ahora que (h ) es una función uno a uno desde el espacio de parámetros ( Theta ) en un conjunto ( Lambda ). Podemos ver ( lambda = h ( theta) ) como un nuevo parámetro que toma valores en el espacio ( Lambda ), y es fácil volver a parametrizar la función de densidad de probabilidad con el nuevo parámetro. Por lo tanto, dejemos ( hat_ lambda ( bs) = f_( lambda)> ( bs) ) para ( bs in S ) y ( lambda in Lambda ). La función de verosimilitud correspondiente para ( bs in S ) es [ hat_ bs( lambda) = L_ bs left [h ^ <-1> ( lambda) right], quad lambda in Lambda ] Claramente si (u ( bs) in Theta ) maximiza (L_ bs) para ( bs En s). Entonces (h left [u ( bs) right] in Lambda ) maximiza ( hat_ bs) para ( bs En s). De ello se deduce que si (U ) es un estimador de máxima verosimilitud para ( theta ), entonces (V = h (U) ) es un estimador de máxima verosimilitud para ( lambda = h ( theta) ).

Si la función (h ) no es uno a uno, la función de máxima verosimilitud para el nuevo parámetro ( lambda = h ( theta) ) no está bien definida, porque no podemos parametrizar la función de densidad de probabilidad en términos de ( lambda ). Sin embargo, existe una generalización natural del método.

Suponga que (h: Theta to Lambda ), y deje que ( lambda = h ( theta) ) denote el nuevo parámetro. Defina el para ( lambda ) en ( bs in S ) por [ hat_ bs( lambda) = max left <>( theta): theta in h ^ <-1> < lambda > right > quad lambda in Lambda ] If (v ( bs) in Lambda ) maximiza ( hat_ < bs> ) para cada ( bs in S ), luego (V = v ( bs) ) es una de ( lambda ).

Esta definición extiende el método de máxima verosimilitud a los casos en los que la función de densidad de probabilidad no está completamente parametrizada por el parámetro de interés. El siguiente teorema se conoce como: si podemos resolver el problema de máxima verosimilitud para ( theta ), entonces podemos resolver el problema de máxima verosimilitud para ( lambda = h ( theta) ).

En el marco del teorema anterior, si (U ) es un estimador de máxima verosimilitud de ( theta ), entonces (V = h (U) ) es un estimador de máxima verosimilitud de ( lambda ) .

Como antes, si (u ( bs) in Theta ) maximiza (L_ bs) para ( bs En s). Entonces (h left [u ( bs) right] in Lambda ) maximiza ( hat_ bs) para ( bs En s).


2. Instalación

Requisitos del sistema

Para ejecutar el kit de herramientas PhyloNet, debe tener Java 1.8.0 o posterior instalado en su sistema. Todas las referencias al comando java asumen que se está utilizando Java 1.7.

  • Para verificar su versión de Java, escriba & quotjava -version & quot en su línea de comando.
  • Para descargar Java 1.8, visite el sitio web http://www.java.com/en/download/.

Para vincular al nuevo Java 1.8 descargado, para mac, pruebe estos dos comandos desde la línea de comandos:

Descargando phylonet.jar

Adquiera la versión actual de PhyloNet descargando la versión más reciente del archivo PhyloNet JAR. Tendrá un archivo llamado PhyloNet_X.Y.Z.jar, donde X es el número de versión principal e Y y Z son los números de versión secundaria.

Instalando el archivo

Coloque el archivo jar en el directorio de instalación deseado. El resto de este documento asume que está ubicado en el directorio $ PHYLONET_DIRECTORY. La instalación ya está completa. Para ejecutar PhyloNet, debe ejecutar el archivo PhyloNet_X.Y.Z.jar, como se describe en la siguiente sección.


3.2 Análisis exploratorio

Ahora exploramos los datos disponibles y analizamos el número de recuentos de reclamaciones por asegurado.

3.2.1 Resumen de estadísticas sin tener en cuenta la exposición

Comenzamos nuestro análisis calculando la media y la varianza del número de afirmaciones observadas. Si denotamos por (n_i ) el número de reclamos observados para el asegurado (i ), podemos calcular la media y la varianza como

[ mu = E (X) = frac <1> cdot sum_^ m n_i ]

[ sigma ^ 2 = E ((X - mu) ^ 2) = frac <1> cdot sum_^ m (n_i - mu) ^ 2. ]

En estas fórmulas, (m ) denota el número de observaciones.

3.2.2 Resumen de estadísticas teniendo en cuenta la exposición

El cálculo anterior de la media y la varianza no considera la diferencia de exposición entre los asegurados. Sin embargo, es importante tener en cuenta la exposición. Sea (d_i ) la exposición del asegurado (i ), luego calculamos la media como

[ mu _ < texto> = sum_^ m frac< sum_^ m d_i> frac = frac < sum_^ m n_i> < sum_^ m d_i> ] y la varianza como [ sigma ^ 2 _ < text> = frac < sum_^ m (n_i- mu_ cdot d_i) ^ 2> < sum_^ m d_i>. ] Para obtener más intuición detrás de estos estimadores, consulte el blog de Arthur Charpentier y la Sección 15.6.6 de Klugman et al ..

Este es el número esperado de accidentes para un asegurado que está asegurado durante todo el año, es decir, (d_i = 1 ).

3.2.3 Distribución de probabilidad empírica

table nos permite construir fácilmente una tabla de contingencia de los recuentos.

La tabla prop. se puede utilizar para obtener la distribución de probabilidad empírica

Podemos crear un diagrama de barras mejor usando ggplot

  • ggplot (): inicia la construcción de una figura ggplot
  • geom_bar (.): crea un diagrama de barras
  • aes (& ltvar & gt): especifica las variables utilizadas para crear el gráfico.

Para especificar su propio tema, defina algunos parámetros de visualización y colores que se utilizarán en sus llamadas a ggplot.

En lugar de cambiar manualmente todos los detalles de la trama, ggplot también ofrece algunos esquemas de diseño generales. En este tutorial usamos el tema en blanco y negro theme_bw ().

El argumento de ponderación en aes le permite ponderar el número de asegurados que presentan 0 reclamaciones, 1 reclamación, etc. por exposición en lugar de simplemente contar el número de asegurados.

3.2.4 La clase de distribuciones (a, b, 0)

Probamos si los datos podrían provenir de una distribución en la clase de distribuciones (a, b, 0). Las distribuciones de esta familia satisfacen [ frac<>> = a cdot k + b, quad k = 1, ldots, infty ]

  • geom_point: agrega un diagrama de dispersión a ggplot. Se deben especificar dos variables en aes.
  • xlab: especifica el nombre de la etiqueta en el eje x.

Las observaciones ((k, frac<>>) ) parecen estar en línea recta con intersección positiva. Esto indica que la distribución binomial negativa podría ser una buena opción para los datos.


© 2015 Los Autores. Publicado por la Royal Society bajo los términos de la licencia de atribución Creative Commons http://creativecommons.org/licenses/by/4.0/, que permite el uso sin restricciones, siempre que se acredite el autor y la fuente originales.

Referencias

. 1921 Riesgo, incertidumbre y beneficio . Boston, MA: Riverside Press. Google Académico

. 1972 Costos de producción, información y organización económica. Soy. Econ. Rvdo. 62, 777–795. Google Académico

. 1988 La firma, el mercado y la ley . Chicago, IL: University of Chicago Press. Google Académico

. 1992 Dinámica de poblaciones organizacionales . Nueva York, NY: Oxford University Press. Google Académico

. 2000 La demografía de las empresas y las industrias. . Princeton, Nueva Jersey: Princeton University Press. Google Académico

. 2001 Aptitud y edad: revisión de la demografía de corporaciones e industrias de Carroll y Hannan. J. Econ. Iluminado. 39, 105-119. (doi: 10.1257 / jel.39.1.105). Crossref, académico de Google

. 1958 La distribución del tamaño de las empresas comerciales. Soy. Econ. Rvdo. 48, 607–617. Google Académico

Stanley MHR, Amaral LAN, Buldyrev SV, Havlin S, Leschhorn H, Maass P, Salinger MA y Stanley HE

. 1996 Comportamiento de escala en el crecimiento de las empresas. Naturaleza 379, 804–806. (doi: 10.1038 / 379804a0). Crossref, ISI, Google Académico

Amaral LAN, Buldyrev SV, Havlin S, Leschhorn H, Maass P, Salinger MA, Stanley HE y Stanley MHR

. 1997 Comportamiento de escala en economía. I. Resultados empíricos para el crecimiento de la empresa. J. Phys. Francia 7, 621–633. (doi: 10.1051 / jp1: 1997180). Crossref, académico de Google

Buldyrev SV, Amaral LAN, Havlin S, Leschhorn H, Maass P, Salinger MA, Stanley HE y Stanley MHR

. 1997 Comportamiento de escala en economía. II. Modelización del crecimiento de la empresa. J. Phys. Francia 7, 635–650. (doi: 10.1051 / jp1: 1997181). Crossref, académico de Google

. 2001 Distribución Zipf de tamaños de empresas estadounidenses. Ciencias 293, 1818-1820. (doi: 10.1126 / science.1062081). Crossref, PubMed, Google Académico

. 2010 Investigando la distribución exponencial por edades de las empresas. Documentos de debate sobre economía No. 2010–12, Instituto de Kiel para la Economía Mundial. Google Académico

. 1965 Estructura social y organizaciones. Manual de organizaciones (ed.

), págs. 153-193. Chicago, IL: Rand McNally. Google Académico

Dunne T, Roberts MJ y amp Samuelson L

. 1989 El crecimiento y el fracaso de las plantas de fabricación de EE. UU. Q. J. Econ. 104, 671–698. (doi:10.2307/2937862). Crossref, Google Scholar

. 1982 Organizational mortality in the newspaper industries of Argentina and Ireland: an ecological approach . Adm. Sci. Q. 27, 169–198. (doi:10.2307/2392299). Crossref, Google Scholar

. 1990 Organizational mortality: the liabilities of newness and adolescence . Adm. Sci. Q. 35, 530–547. (doi:10.2307/2393316). Crossref, Google Scholar

. 1937 The nature of the firm . Economica 4, 386–405. (doi:10.1111/j.1468-0335.1937.tb00002.x). Crossref, Google Scholar

. 1960 The problem of social cost . J. Law Econ. 3, 1–44. (doi:10.1086/466560). Crossref, Google Scholar

(eds) 1991 The nature of the firm, origins, evolution, and development . Oxford, UK : Oxford University Press . Google Académico

. 1985 Asset specificity and economic organization . Int. J. Ind. Organ. 3, 365–378. (doi:10.1016/0167-7187(85)90030-X). Crossref, Google Scholar

. 1969 The organization of economic activity: issues pertinent to the choice of market versus nonmarket allocation . The analysis and evaluation of public expenditure: the PPB system , vol. 1, US Joint Economic Committee, 91st Congress, 1st Session, 5973. Washington, DC : US Government Printing Office . Google Académico

. 1986 The costs and benefits of ownership: a theory of vertical and lateral integration . J. Political Econ. 94, 691–719. (doi:10.1086/261404). Crossref, Google Scholar

. 1990 Property rights and the nature of the firm . J. Political Econ. 98, 1119–1158. (doi:10.1086/261729). Crossref, Google Scholar

. 2002 Complexity, flexibility, and the make-or-buy decision . Soy. Econ. Rev. 92, 433–437. (doi:10.1257/000282802320191750). Crossref, Google Scholar

. 1947 Production, information costs, and economic organization . New York, NY : Macmillan . Google Académico

. 1959 The theory of the growth of the firm . New York, NY : Oxford University Press . Google Académico

. 1981 A dynamic model of voluntary affiliation . Soc. Forces 59, 705–728. (doi:10.1093/sf/59.3.705). Crossref, Google Scholar

. 1983 An ecology of affiliation . Soy. Sociol. Rev. 48, 519–532. (doi:10.2307/2117719). Crossref, Google Scholar

. 1998 Rethinking age dependence in organizational mortality . Soy. J. Sociol. 104, 126–164. (doi:10.1086/210004). Crossref, Google Scholar

Freeman J, Carroll GR& Hannan MT

. 1983 The liability of newness: age dependence in organizational death rates . Soy. Sociol. Rev. 48, 692–710. (doi:10.2307/2094928). Crossref, Google Scholar

. 2005 Is failure good? Strateg. Manag. J. 26, 617–641. (doi:10.1002/smj.470). Crossref, Google Scholar

. 1990 Generational innovation: the reconfiguration of existing systems and the failure of established firms . Adm. Sci. Q. 35, 9–30. (doi:10.2307/2393549). Crossref, Google Scholar

. 2000 Aging, obsolescence, and organizational innovation . Adm. Sci. Q. 45, 81–112. (doi:10.2307/2666980). Crossref, Google Scholar

Navaretti GB, Castellani D& Pieri F

. 2014 Age and firm growth: evidence from three European countries . Small Business Econ. 43, 823–837. (doi:10.1007/s11187-014-9564-6). Crossref, Google Scholar

. 2010 The exponential age distribution and the Pareto firm size distribution . J. Ind. Competition Trade 10, 389–395. (doi:10.1007/s10842-010-0071-4). Crossref, Google Scholar

. 2003 Statistical methods for survival data analysis , p. 534. New York, NY : Wiley Interscience . Google Académico

. 1958 Nonparametric estimation from incomplete observations . J. Am. Stat. Assoc. 53, 457–481. (doi:10.1080/01621459.1958.10501452). Crossref, ISI, Google Scholar

. 1972 Theory and applications of hazard plotting for censored failure data . Technometrics 14, 945–966. (doi:10.1080/00401706.1972.10488991). Crossref, Google Scholar

. 1978 Nonparametric inference for a family of counting processes . Ana. Stat. 6, 701–726. (doi:10.1214/aos/1176344247). Crossref, Google Scholar

. 2008 The births and deaths of business establishments in the United States . Mon. Labor Rev. , December 2008, pp. 3–18. See http://www.bls.gov/opub/mlr/2008/12/art1full.pdf. Google Académico

. 1979 Some additional evidence on survival biases . J. Finance 34, 197–206. (doi:10.1111/j.1540-6261.1979.tb02080.x). Crossref, Google Scholar


Mathematical Formulation

We present a mathematical formulation of the three-period life cycle model.

Colocar
P = set of periods =

Parámetros
(w_p) = wage income in period (p), (forall p in P)
(r) = interest rate
(eta) = discount factor

Decision Variables
(c_p) = consumption in period (p), (forall p in P)

Objective Function
Let (u()) be the utility function and let (u(c_p)) be the utility value associated with consuming (c_p). Utility in future periods is discounted by a factor of (eta). Then, the objective function is to maximize the total discounted utility:

maximize (u(c_1) + eta u(c_2) + eta^ <2>u(c_3))

Restricciones
The main constraint in the life cycle model is the lifetime budget constraint, which asserts that, over the life cycle, the present value of consumption equals the present value of wage income. From above, (r) is the interest rate therefore, (R = 1 + r) is the gross interest rate. If I invest one dollar in this period, then I receive (R) dollars in the next period. The expression for the present value of the consumption stream over the life cycle is

Similarly, the expression for the present value of the wage income stream over the life cycle is
[w_1 + frac + frac>.]

The lifetime budget constraint states that the present value of the two streams must be equal:
[c_1 + frac + frac> = w_1 + frac + frac>.]

To avoid numerical difficulties, we add constraints requiring the consumption variables to take a non-negative value:
(c_1 geq 0.0001, c_2 geq 0.0001, c_3 geq 0.0001)

Providing an initial starting point is helpful for some solvers as an example, one possible starting point for this example is
(c_1 approx 1, c_2 approx 1, c_3 approx 1)

To solve the three-period life cycle consumption problem, we need to specify a utility function and the values of the parameters. The solution specifies the amount that Joey should consume in each period to maximize his utility. Note that, in the next case study, the Life Cycle Consumption Problem, we generalize the model from three periods to (n) periods.

To solve your own three-period life cycle problems, check out the Three-Period Life Cycle Problem demo.


Collaborative Research Projects

Biostatistics Center researchers advance the center’s mission of collaborative research by developing and implementing innovative practical methods for the design, execution, data monitoring, analyses and reporting of clinical studies. Current Biostatistics Center research includes the design and analyses of studies that focus on patient-focused outcome measures that integrate efficacy and safety, personalized treatment, cost-effectiveness analyses, response-adaptive randomization, and pragmatic evaluation of diagnostic technologies.


Practical data analysis using real biological examples

Now available with Macmillan’s new online learning platform Achieve, Analysis of Biological Data provides a practical foundation of statistics for biology students. Every chapter has several biological or medical examples related to key statistics concepts, and each example is prefaced by a substantial description of the biological setting. The emphasis on real and interesting examples carries into the problem sets where students have a wealth of practice problems based on real data.

The third edition features over 200 new examples and problems. These include new calculation practice problems, which guide the student step by step through the methods, and a greater number of examples and topics that come from medical and human health research. Every chapter has been carefully edited for even greater clarity and ease of use, and is easier than ever to access through Achieve.

Achieve for Analysis of Biological Data connects the problem-solving approach and real world examples in the book to rich digital resources that foster further understanding and application of statistics. Assets in Achieve support learning before, during, and after class for students, while providing instructors with class performance analytics in an easy-to-use interface.

  • Over 3,000 homework questions of varying difficulty, Bloom’s level, and question type. Every homework question includes a hint, answer-specific feedback, and a fully worked solution. Question types in Achieve include
    • Multiple choice
    • Clasificación
    • Sorting
    • Numeric entry
    • Multi-part questions
    • Questions with algorithmically regenerating values
    • Whiteboard-style problem-solving videos
    • StatTutor video lessons
    • Animated lectures and documentary-style videos that illustrate real world scenarios involving statistics

    Statistical software options

    • CrunchIt!, Macmillan’s proprietary online statistical software powered by R, handles every computation and graphing function an introductory statistics student needs. CrunchIt! is preloaded with data sets, and it allows editing and importing additional data.
    • Students also receive access to JMP Student Edition (developed by SAS). With the student edition of JMP, students handle large data, visualizations, and analysis for which the professional version is renowned. Additionally, text-specific data sets are included for download.
    • For other statistical software, Achieve includes data sets, including those for
      • Sobresalir
      • Minitab
      • R & RCmdr
      • SPSS
      • TI Calculators
      • Mac-text & PC-text
      • CSV file export

      Achieve online homework. Based on research from Macmillan’s Learning Science team, Achieve marries the powerful, tutorial-style assessment of Sapling Learning with rich book-specific resources in one easy-to-use, accessible platform.

      New practice and assignment problems to every chapter covering all major concepts and skills.

      Integrated online activities with the text for learning the R statistical software environment.

      New chapter added on survival analysis , a vital topic in biostatistics.

      New instructor resources , including answers to assignment problems and R Code labs, are available at whitlockschluter3e.zoology.ubc.ca.

      Look Inside

      The Analysis of Biological Data

      Michael C. Whitlock Dolph Schluter


      3.1 MLE Regression

      Okay, so we have a method for calculating ML estimates in R, so now we want to apply that to some regression models. Let’s return to our formula for linear model. Let’s use the same data fom our least squares example to see if we can get similar results.

      Let’s return to our linear model. We will start by looking at only a single predictor, mpg so our system of linear equations looks like this:

      Recall from the video, we are assuming each datum is drawn from some distribution with a mean equal to (eta_0 + eta_1x_1) .

      So, this distribution, then becomes our distribution we are maximizing, where

      [ y_i sim mathcal(eta_0 + eta_1x_i, sigma) ]

      Let’s try plugging this distribution into our loglik function to calculate the likelihood of this distribution.

      ¡Fantástico! We have found similar parameter estimates to our least squares method! Lets see how this compares to what glm gives us.

      So what about applying this to multiple parameters? Bien, veamos. We will use the same model formula as our multiple parameter OLS:

      Which can be represented by the system of linear equations:

      This means each y value is drawn from some hypothetical distribution where:

      [ y_i sim mathcal(eta extbf, sigma) ]

      And we can compare these results to glm .

      3.1.1 Another tangent on optimizers

      So one thing you may notice is that I specified the values where the algorithm should start looking for our parameter estimates

      This is a result of us having at least a decent idea of where the idea minimum should be. What happens when we specify really bad starting values for the optimization algorithm?

      You see we find new optima. NOw what if we use a different optimization function

      This optimizer does actually find the global maxima despite the bad starting values.

      I firmly believe understanding optimizers will make anyone better at diagnosing the functionality of their linear models.


      5. Discusión

      5.1. Tensor Estimation

      Simulations demonstrate that tensor estimates may be considerably improved by exploiting the Rician noise distributions of MR data ( Fig. 1 ). However, using this information requires estimating two additional parameters (the intensity of the reference signal and noise level) which are not needed for LLMMSE. Thus, a minimum of seven diffusion weighted images and a reference image are required. At moderate and high SNR, DTEMRL improves the reliability of tensor estimation, and the magnitude of improvements is greater for tensors of high anisotropy. For very low SNR, simulations indicate that the DTEMRL method may reduce estimation performance, likely due to variability introduced with the additional parameters. These results suggest the need for regularization of DTEMRL when the SNR is very low or, similarly, when very few DW images are acquired. Experiments with clinical data demonstrate consistent improvements with DTEMRL. DTEMRL operates in the stable, “high SNR” regime for DTI studies using only one acquisition at 1.5T. Typically, 3 to 5 averages are acquired at 1.5T to improve SNR by 70 to 120 percent. Simulations indicate that improvement in SNR would reduce the likelihood that DTEMRL would continue to out perform LLMMSE without decreasing proportional improvement of DTEMRL over LLMMSE.

      Experiments with clinical data demonstrate that DTEMRL remains robust in spite of the approximate nature of the tensor model, presence of artifact, and spatially heterogeneous tissue. Reproducibilities of FA ( Fig. 3 E, F ), tensor coefficients ( Fig. 5 A ), and MD ( Fig. 5 B ) are greater (lower standard deviation) for DTEMRL than LLMMSE. The percent improvements are greatest for tensor coefficients in white matter. Negative impacts of reduced SNR are mitigated by high FA. Once data is of sufficient SNR for DTEMRL to offer improved reliability, the proportional benefits are essentially constant across SNR while the magnitude of the improvement increases with FA ( Fig. 1 B, E ). Although numeric optimization depends upon the initialization accuracy, DTEMRL tensor estimates remain stable in spite of a 20 percent mis-specification of initial noise level ( Fig. 1 C, F ).

      Without a valid ground truth, the full reliability cannot be assessed with en vivo datos. The “high SNR” estimates are not a suitable proxy because the estimates with LLMMSE and DTEMRL are different. In LLMMSE, including additional observations reduces the variability in the DW image intensity, but also reinforces bias on each DW image. With DTEMRL, additional observations enable refinement of the noise estimate, and reduce both variability and bias in the estimated DW image intensities during tensor estimation. Low SNR tends to positively bias FA in regions of low anisotropy and negatively bias FA in regions of high anisotropy with the LLMMSE method [12]. The systematic bias between FA estimated with LLMMSE and DTEMRL ( Fig. 4 ) is in the opposite direction, which suggests that DTEMRL would reduce bias in the estimated tensors. However, additional acquisitions using k-space averaging and/or complex-valued imaging data are required to generate unbiased, high SNR clinical data and verify potential DTEMRL bias correction properties.

      5.2. Noise Level Estimation

      The underlying noise estimation procedure ( Fig. 2 ) is stable, accurate, and does not depend on spatial correlations or the existence of a background region. It also avoids dealing with spatially correlated noise, which is common in DTI due to up-sampling and/or interpolation. With the widespread use of parallel imaging methods, this noise level estimator – while specifically developed for use in our improved tensor estimation procedure – could also have far wider utility beyond diffusion tensor imaging.

      5.3. Conclusión

      The bimodal performance of DTEMRL suggests an opportunity for a hybrid approach to tensor estimation even when SNR is unknown. Simulations indicate that DTEMRL either substantially improves tensor estimation or results in degraded reliability ( Fig. 1 ) which is influenced by initialization. The newly presented noise level estimation method provides a robust SNR estimate that does not depend on tensor estimation, while the LLMMSE method estimates FA. Together, these estimates may enable a decision framework to transition between DTEMRL and LLMSE based on expected performance.

      DTEMRL provides a platform on which to develop ML approaches for robust DW image analysis, regularization, and spatial filtering. MR images are often corrupted by artifacts which are not well modeled by additive or Rician noise. Detection and/or removal of these artifacts could be accomplished directly with likelihood measures. Alternatively, DTEMRL could be desensitized to outliers through use of a robust likelihood function. Furthermore, prior probabilities could be associated with spatial distribution for tensor field regularization or with the tensors themselves to transform this maximum likelihood approach into a Bayesian maximum a posteriori Acercarse. To facilitate clinical applications and further research, the DTEMRL research software may be optimized, as the current Matlab implementation requires 200 ms per voxel on a PC.


      Ver el vídeo: FILOGENIA - Inferencia bayesiana MrBayesFigTree (Mayo 2022).