logo NFI logo SMART Research BV
Elija su idioma: English Español Français Português 中文(简体) 日本語 Русский
logo
shadow
Este artículo está basado en un capítulo de un libro que escribimos
Wiegerinck W.A.J.J., Kappen H.J., Burgers W.G.
Bayesian networks for expert systems, theory and practical applications.
Interactive Collaborative Information Systems
Studies in Computational Intelligence, 2010, Volume 281/2010, 547-578
DOI: 10.1007/978-3-642-11688-9_20


Redes Bayesianas

Las redes bayesianas son muy adecuadas para modelar las relaciones estadísticas de material genético de familiares en un árbol genealógico. Se puede aplicar directamente en análisis de parentesco con cualquier tipo de genealogía de los familiares de las personas desaparecidas. Una ventaja adicional del método de la red Bayesiana reside en que es la herramienta de análisis más transparente y flexible, lo que permite incorporar otros factores que jueguen un cierto papel, como probabilidad de errores de medición, falta de datos, estadísticas de marcadores genéticos más avanzados, etc

El centro de cálculo de Bonaparte utiliza redes bayesianas generadas automáticamente y métodos bayesianos de conclusión, lo que permite analizar correctamente el parentesco basado en perfiles de ADN combinado con información genealógica. Está específicamente diseñado para manejar incidentes de gran escala, con miles de víctimas y personas desaparecidas.

En lo que resta de esta sección se describe la manera de utilizar el modelo bayesiano en el desarrollo de la aplicación. Formulamos la tarea de cálculo, que es el cálculo del coeficiente de probabilidad de dos hipótesis. El ingrediente principal es un modelo de probabilidad P de perfiles de ADN. Antes de hablar del modelo, primero daremos una breve introducción sobre los perfiles de ADN. En la última parte de la sección se describe la forma en que P es modelada como una red bayesiana, y cómo se calcula el coeficiente de probabilidad.

Cociente de Probabilidad  de dos hipótesis

Supongamos que tenemos un árbol genealógico de un MP (Persona Desaparecida). En esta genealogía, hay algunos miembros de la familia que han proporcionado material de ADN, obteniéndose así los perfiles. Además, existe un individuo no identificado (UI), cuyo ADN también está perfilado. La pregunta es, ¿UI = MP? Para continuar, asumimos que tenemos un modelo de probabilidad P para las pruebas de ADN de los familiares en un pedigree. Para calcular la probabilidad de este evento, necesitamos hipótesis para comparar. La elección común es formular dos hipótesis. La primera es la hipótesis H1 en que, efectivamente, UI = MP. La hipótesis alternativa H0 en que UI es una persona no relacionada U. En ambas hipótesis, tenemos dos genealogías: la primera tiene la genealogía de MP y de los miembros de familia FAM. La segunda tiene solamente U como miembro. Para comparar las hipótesis, se calculan las probabilidades de coincidencia con los perfiles de ADN en las dos hipótesis,

En el modelo P, el coeficiente de probabilidad (LR) de las dos hipótesis es

LR =P(E|Hp)/P(E|Hd)

Si, además, se parte de una probabilidad  previa de P (Hp) = P (Hd), la probabilidad final  P (Hp | E) = P (Hd | E) resulta directamente de la multiplicación de las probabilidades previas y el coeficiente de probabilidad,

P(Hp|E)/P(Hd|E)=( P(E|Hp)P(Hp) )/( P(E|Hd)P(Hd) )
Perfiles de DNA

En este apartado se proporciona una breve introducción sobre los perfiles de ADN para el análisis de parentesco. Un tratado completo se puede encontrar en la literatura. En los seres humanos, el ADN hallado en el núcleo de la célula está contenido en los cromosomas. Una célula humana normal tiene 46 cromosomas, que se organizan en 23 pares. De cada par de cromosomas, un ejemplar se hereda del padre y el otro ejemplar se hereda de la madre. Con 22 pares, los cromosomas se homologan, es decir, que tienen prácticamente la misma longitud y contienen, en general, los mismos genes (elementos funcionales de ADN). Éstos se llaman cromosomas autosómicos. El cromosoma restante es el cromosoma del sexo. Los hombres tienen un cromosoma X y un cromosoma Y. Las mujeres tienen dos cromosomas X.

Más del 99% del ADN de dos seres humanos de la población general es idéntica. La mayor parte del ADN por lo tanto no es útil para la identificación. Sin embargo, hay localizaciones bien especificadas en los cromosomas, donde existe una variación en el ADN entre individuos. Tal variación se denomina marcador genético. En genética, las ubicaciones  específicas se denominan loci. Una única ubicación es un locus.

En la investigación forense, los marcadores de "short tandem repeat" (STR) son actualmente  los más usados. La razón es que pueden ser determinados fiablemente a partir de pequeñas cantidades de tejido del organismo. Otra ventaja es que tienen una baja tasa de mutación, lo cual es importante para el análisis de parentesco. Los marcadores STR consisten en una clase de variaciones que se producen cuando un patrón de dos o más nucleótidos se repite. Por ejemplo

(CATG)3=CATGCATGCATG

El número de repeticiones x (que es 3 en el ejemplo) es la variación entre la población. A veces, se produce una repetición fraccional, por ejemplo, CATGCATGCATGCA, ésta sería codificada con el número de repetición de x = 3,2, ya que hay tres repeticiones y dos nucleótidos adicionales. Los posibles valores de x y sus frecuencias están bien documentados para los loci usados en la investigación forense. Estos rangos y frecuencias varían entre cada loci. En cierta medida varían entre las subpoblaciones de los seres humanos. Los loci STR son más o menos estandarizados. La colección de marcadores proporciona el perfil de ADN. Como los cromosomas existen a pares, un perfil consistirá en pares de marcadores. Por ejemplo (la siguiente notación no es frecuente)

x̄ =(1x1;1x2);(2x1;2x2);⋯;(nx1;nx2)

en el que cada μxs es un número de repeticiones en un locus m bien definido. Sin embargo, como los cromosomas existen a pares, habrá dos alelos μx1 y μx2 para cada ubicación, un paterno en el cromosoma heredado del padre y un materno. Desafortunadamente, los métodos actuales de análisis de ADN no pueden identificar el origen de los alelos, es decir, si un alelo es materno o paterno. Esto significa que (μx1, μx2) no puede ser distinguido de (μx2, μx1). Con el fin de convertir la notación en única, ordenamos los alelos observados de un locus de la siguiente manera μx1μx2. Los cromosomas se heredan de los padres. De cada padre pasa un ejemplar de cada par de cromosomas al niño. Para los cromosomas autosómicos no hay preferencia (conocida) con la cuál se transmita al niño. Tampoco existe ninguna correlación (conocida) entre la transmisión de los cromosomas de pares diferentes. Puesto que los cromosomas se heredan de los padres, también los alelos se heredan de los padres. Sin embargo, hay una pequeña probabilidad de que un alelo se cambie o mute. La probabilidad de esta mutación es de aproximadamente 0,1%. Finalmente, en el análisis de ADN, a veces se producen fallos en el método del análisis de ADN y un alelo en un locus determinado se queda fuera. En este caso, la observación es (μx1;F), donde "F" es un comodín.


Una red bayesiana para el análisis de parentesco

En este apartado vamos a describir los elementos fundamentales de una red bayesiana para modelar probabilidades de perfiles de ADN de los individuos en un pedigrí. En primer lugar vemos que la herencia y la observación de los alelos en diferentes loci son independientes. Así que para cada locus podemos hacer un modelo independiente de Pμde. En el modelo descrito más abajo, vamos a considerar un modelo para un único locus y vamos a suprimir la dependencia μ por conveniencia de notación.

Probabilidades de Alelos

Consideraremos las genealogías con personas i . En un pedigrí, cada persona i tiene dos padres, un padre f (i) y una madre m (i) . Una excepción es cuando un individuo es un fundador. En ese caso, no tiene padres en el árbol genealógico.

A partir de la genealogía, pueden ser construidas relaciones estadísticas entre los perfiles de ADN y los alelos de los miembros de la familia en combinación con modelos de transmisión de alelo. En el locus determinado, cada individuo i tiene un alelo paterno x f i y un alelo materno x m i . f y m significan "padre" y "madre" respectivamente. El par de alelos se denomina como xi =(xfi,xmi). A veces usamos superíndices s que pueden tener valores {f,m}. Así que cada alelo en el pedigree es indexado por (i,s), donde i numera individuos y s numera generaciones (f,m). Los alelos pueden asumir N valores, donde tanto N como los valores de los alelos dependen del locus.

Un alelo de un fundador se llama "alelo fundador". Así que un fundador en el árbol genealógico tiene dos alelos fundadores. El modelo más simple para los alelos fundador es asumir que son independientes, y cada uno sigue una distribución de frecuencias P (a) de la población. Esta distribución se asume como dada. En general P (a) dependerá del locus. Los modelos más avanzados se han propuesto tal que los alelos fundadores estén correlacionados. Por ejemplo, se podría suponer que los fundadores de un árbol genealógico provienen de una única pero desconocida sub-población. Este supuesto modelo produce correcciones a los resultados de los modelos sin correlaciones entre los fundadores. Un inconveniente es que estos modelos pueden dar lugar a un importante aumento de la memoria requerida y el tiempo de cálculo. En este capítulo vamos a limitarnos a modelos con alelos fundadoras independientes. Si un individuo i tiene a sus padres en el árbol genealógico, la distribución de los alelos de un individuo, dado que los alelos de sus padres son como sigue,

P(xi|xf(i),xm(i)) = P(xfi|xf(i))P(xmi|xm(i))

donde

P(xfi|xf(i)) = ½ Σs=f,m P(xfi|xsf(i))
P(xmi|xm(i)) = ½ Σs=f,m P(xmi|xsm(i))

Para explicar en palabras: individual i obtiene su alelo paterno x f i de su padre f (i) . Sin embargo, existe una probabilidad del 50% de que este alelo sea el alelo paterno x f f (i) del padre f (i) y una probabilidad del 50% de que sea el alelo materno x m f (i) .

Las probabilidades P(xfi|xsf(i)) y P(xmi|xsm(i)) vienen dadas por un modelo de mutación P (a | b), que codifica la probabilidad de que el alelo del niño sea a mientras que el alelo en el cromosoma parental que se transmite sea b. El mecanismo exacto de mutación Bayesian network para los diferentes marcadores STR se desconoce. Existen pruebas de que las mutaciones de padre a hijo, en general, son cerca de 10 veces más probables que las mutaciones de la madre al niño. El sexo de cada individuo se supone conocido, pero para conveniencia de notación suprimimos la dependencia de sexo de los padres. En general, la mutación tiende a disminuir con la diferencia del número de repeticiones |a-b|. La mutación también depende del locus.

Varios modelos de mutación se han propuesto en la literatura. Como veremos más adelante, sin embargo, la inclusión de un modelo de mutación detallado puede conducir a un aumento severo en la memoria necesaria y el tiempo de cálculo. Dado que las mutaciones son muy raras, se podría preguntar si existe alguna relevancia práctica en un modelo de mutación detallado. El modelo de mutación más simple es, por supuesto, asumiendo la ausencia de mutaciones, P(a|b)=δa,b. Dicho modelo mejora la deducción eficiente. Sin embargo, cualquier mutación en un locus único provocaría el rechazo al 100% de las coincidencias, incluso si hay una coincidencia del 100% en los marcadores restantes. Los modelos de mutación son importantes para conseguir una cierta tolerancia del modelo evitando tales consecuencias. El modelo de mutación más simple no arbitrario es un modelo de mutación uniforme con tasa de mutación m (que no debe confundirse con el índice de locus μ),

P(a|a)=1-μ
P(a|b)= μ/(N-1)

Una ventaja de este modelo es que la memoria requerida y el tiempo de cálculo aumenta sólo ligeramente en comparación con el modelo sin mutación. Observe que la frecuencia en la población no varía en general con este modelo: la mutación hace la distribución de la frecuencia más plana. Se podría argumentar que se trata de una propiedad real que introduce diversidad en la población. En aplicaciones prácticas del modelo, sin embargo, se supone que la misma frecuencia de población se aplica a los fundadores en las diferentes generaciones de un árbol genealógico. Esto implica que si hay más referencias no observadas se incluyan en el árbol genealógico de los ancestros para modelar a un individuo, y así el cociente de probabilidad cambiará (ligeramente). En otras palabras, genealogías formalmente equivalentes darán (ligeramente) diferentes coeficientes de probabilidad.

Observaciones

Las observaciones son denotadas como x̄i, o x̄ si no nos referimos a un individuo. El origen parental de un alelo no se puede tener en cuenta, por lo tanto alelos xf=a, xm=b producen la misma observación que xf=b, xm=a. Nosotros adoptamos la convención de escribir en la observación primero el menor alelo: x̄(a,b) ⇔,a ≤ b. En el caso de una pérdida de un alelo, escribiremos x̄ =(x,F)donde F significa un comodín. Suponemos que el evento de una pérdida de alelo se puede observar (por ejemplo, a través de la altura del pico) y es modelado por L. Con L = 1 hay una perdida de alelo, y habrá un comodín. Una observación completa está codificada como L = 0. El caso de pérdida de dos alelos no está modelado, porque en este caso simplemente no tenemos observación. El modelo de observación ahora se escribe de manera sencilla. Sin la pérdida de alelo (L = 0), alelos y producen una observación y. Esto está modelado por la tabla determinística.

P(x̄|y,L = 0 ) = 1 ⇔ x̄ = y, 0 otherwise.

Obsérvese que para un y dado, existe solamente un x̄ con x̄ = y. Con perdida de alelo (L = 1), tenemos

P(x̄ = (a,F)|(a,b), L = 1) = ½ ⇔ a ≠ b
P(x̄ = (b,F)|(a,b, )L = 1) = ½ ⇔ a ≠ b

and

P(x̄=(a,F)|(a,a),L = 1) = 1

Es decir, si un alelo se pierde, los alelos (a, b) conducen a una observación a, (entonces b se perdió) o a una observación b (entonces a se perdió). Ambos eventos tienen un 50% de probabilidad. Si ambos alelos son iguales, de modo que el par es (a, a), entonces, por supuesto, a se observa con 100% de probabilidad.

Inference

Multiplicando todas las premisas de alelos, las probabilidades de transmisión y modelos de observación, se obtiene una red bayesiana de alelos x y perfiles de ADN de individuos x̄ en una determinada genealogía. Supongamos que el pedigrí se compone de un conjunto de individuos J=1,…,K con un subconjunto de fundadores F, y asumiendo que las pérdidas de alelos figura como Lj, entonces esta probabilidad se lee como

P( {x̄,x}J) = ∏j P(x̄j|xj,Lj) ∏i ∈ J\F P(xi|xf(i),xm(i)) ∏i ∈ F P(xi)

Bajo este modelo ahora se puede calcular la probabilidad de un determinado conjunto de perfiles de ADN. Si tenemos observaciones x̄j de un subconjunto de individuos j ∈ O, la probabilidad de las observaciones en esta genealogía es la distribución marginal P({x̄}O), que es la probabilidad marginal

P({x̄}O) = Σx1 … ΣxKj ∈ O P(x̄j|xj,Lj) ∏ i ∈ J\FP(xi|xf(i),xm(i)) ∏i ∈F P(xi)

Este cálculo incluye la suma de todos los estados de pares de alelos xi de todas las personas. Una unión de algoritmo en forma de árbol se puede aplicar sencillamente para calcular la probabilidad deseada. De esta manera, probabilidades y coeficientes de probabilidad son calculados para todos los loci, y notificados al usuario.

agosto 29 2014, 09:24:06 / eb2e323d603b71a29368ef61364442419267753e
SMART Research BV • Heyendaalseweg 135 • 6525 AJ Nijmegen • The Netherlands EU flag Cookies