logo NFI logo SMART Research BV
Choisissez votre langue: English Español Français Português 中文(简体) 日本語 Русский
logo
shadow
Cet article est basé sur un chapitre de livre qui nous avons écrit
Wiegerinck W.A.J.J., Kappen H.J., Burgers W.G.
Bayesian networks for expert systems, theory and practical applications.
Interactive Collaborative Information Systems
Studies in Computational Intelligence, 2010, Volume 281/2010, 547-578
DOI: 10.1007/978-3-642-11688-9_20


Bayesian Networks

Les réseaux bayésiens (Bayesian networks) se prêtent très bien à modeler des relations statistiques de matériaux génétiques des proches parents. Ils peuvent être appliqués directement dans une analyse de parenté avec tous types de pedigree (l’arbre généalogique) de proches des personnes absentes et disparues. Un avantage supplémentaire de l’approche du réseau bayésien, c’est que l’outil d’analyse est plus transparent et plus flexible, cela permet aux autres facteurs qui jouent un rôle d’être incorporés dans le processus. Les facteurs comme par exemple la probabilité d’un erreur de mesure, les données manquantes, les statistiques ou les marqueurs génétiques plus avancés.

Le moteur informatique de Bonaparte utilise les réseaux bayésiens et les méthodes de références bayésiennes. Ils permettent de faire une analyse de parenté génétique basée sur les profils d’ADN, combinés avec les informations de pedigree. Le moteur a été conçu spécifiquement pour supporter les incidents a grande échelle avec des milliers de victimes et personnes disparues.

Dans le reste de cette section, nous décrivons le modèle d’approche qui a été mise au point dans cette application. Nous formulons la tâche informatique, le calcul de rapport des vraisemblances de deux hypothèses. Le composant principal est le modèle de probabilité P des analyses génétiques. Avant de discuter ce modèle nous vous donnons une courte introduction sur les analyses ADN. Dans la dernière partie de cette section nous décrivons comment P a été modelé comme un réseau bayésien et comment le test du rapport des vraisemblances est calculé.

Likelihood Ratio of Two Hypotheses

Supposons que nous avons un pedigree pour un individu qui est disparu ( « Missing Person, MP »). Il y a quelques membres de la famille qui ont fourni le matériel ADN pour construire le pedigree. En plus, il y a un Individu Non Identifié (« Unidentified Individual, UI »), dont l’ADN est également analysé. La question se pose, est UI = MP ? Pour continuer, supposons-nous qu’il y a un modèle de probabilité P pour les preuves d’ADN des membres de la famille dans une pedigree. Pour calculer la probabilité de cet éventualité nous avons besoin d’hypothèses comparables. H1 est l’hypothèse 1 qui souligne que UI= MP. H0 est l’hypothèse alternative qui prétend que UI est une personne sans lien de parenté (« Unrelated Person, U » ). Dans chacun de hypothèses nous avons deux pedigrees: le premier a MP et les membres de famille FAM comme des membres. Le deuxième a seulement U comme membre. Pour comparer les deux hypothèses, nous recherchons la probabilité des preuves des analyses génétiques parmi les deux hypothèses.

Sous le modèle P, le rapport de probabilité des deux hypothèses est

LR =P(E|Hp)/P(E|Hd)

Si en outre, une chance antérieure P(Hp)=P(Hd), des chances postérieures P(Hp|E)=P(Hd|E) suivent directement de la multiplication des chances postérieures et rapport de probabilité.

P(Hp|E)/P(Hd|E)=( P(E|Hp)P(Hp) )/( P(E|Hd)P(Hd) )
DNA Profiles

Nous donnons une courte introduction sur des profiles d’ADN pour l’analyse de parenté. Nous retrouvons un traité compréhensible dans la littérature. Dans le corps humain, l’ADN trouvé dans le noyau de la cellule se retrouve dans les chromosomes. Une cellule humaine normale contient 46 chromosomes, qui peuvent être organisé en 23 pairs. Dans une paire de chromosomes, une copie est héritée par le père et l’autre est héritée par la mère. Dans 22 pairs, les chromosomes appariés sont homologues, c’est-a-dire ils ont la même taille et contiennent, en général, les mêmes gènes (les éléments fonctionnels d’ADN). Ils sont nommé les chromosomes autosomes. Le chromosome restant est le chromosome sexuel qui détermine le sexe masculin ou le sexe féminin. Un homme a les chromosomes sexuels X et Y, une femme a deux chromosomes sexuels X.

L’ADN de chaque deux personnes de la population générale est identique pour plus de 99%. Par conséquence, la plupart d’ADN n’est pas utile pour le processus d’identification. Pourtant, dans les chromosomes, il y a des locations spécifiques où il y a des différences génétiques parmi les individus. Une telle variation est nommée un marqueur génétique. Dans la science de génétique, ces locations spécifiques s’appellent «loci», une seule location «locus».

Dans la recherche médico-légale, les marqueurs de «short tandem repeat» (STR) sont les plus utilisées. C’est parce qu’ils peuvent être déterminés de petite quantité de tissu de l’organisme. Une autre avantage est que les marqueurs ont un taux de mutation très bas, ce qui est important pour les analyses de parenté. Les marqueurs STR sont une catégorie de variation qui se produit quand une séquence de deux ou plus de nucléotides se répète. Par exemple,

(CATG)3=CATGCATGCATG

Le nombre de répétitions x (3 dans l’exemple) est la variation parmi la population. Parfois, il y a une répétition fractionnaire, par exemple CATGCATGCATGCA, cela peut être encodé comme x= 3.2, puisque il y ait 3 répétitions et 2 nucléotides additionnelles. Les valeurs possibles de x et leurs fréquences sont bien documentées pour les «loci» selon l’usage de recherche médico-légale. Les gammes et les fréquences varient entre loci. Et dans une manière ils varient entre sous-populations d’être humains. Les loci de STR sont plus ou moins standardisés. La collection de marqueurs donne le profil d’ADN. Comme les chromosomes existent en pairs, un profil consistera de pairs de marqueurs. Par exemple (la notation suivante n’est pas standard)

x̄ =(1x1;1x2);(2x1;2x2);⋯;(nx1;nx2)

Chaque μxsest un nombre de répétitions de locus M. Par contre, comme les chromosomes existent en pairs, il sera deux allèles μx1 and μx2 pour chaque location, un allèle paternel et un allèle maternel. Malheureusement, les méthodes d’analyses ADN courants ne peuvent pas identifier la phase des allèles, autrement dit : si l’allèle est paternel ou maternel. Cela veut dire que (μx1, μx2) ne peut pas être distingué de (μx2, μx1). Pour faire la notation unique, on classe les allèles observés d’un locus dans une façon que μx1μx2. Les chromosomes sont hérités des parents. Chaque parent passes une copie d’une paire de chromosomes à l’enfant. Pour les chromosomes autosomiques il n’y a pas de préférence quelle paire transmettra à l’enfant. En plus, il n’y a pas de corrélation (connue) entre la transmission des chromosomes de paires différentes. Comme chromosomes sont hérités des parents, les allèles sont également hérités des parents. Par contre, il y a une petite probabilité que l’allèle a changé ou est modifié. La probabilité sur une telle modification est environ 0,1%. Finalement dans l’analyse d’ADN, un erreur peut se produire et un allèle dans un locus certain tombe. Dans un cas pareil, l’observation est (μx1;F), F est un «wild card», un caractère d’ambigüité.


A Bayesian Network for Kinship Analysis

Dans cette sous-partie nous décrivons les composantes du réseau bayésien pour modeler les probabilités des profiles d’ADN d’individus dans un pedigree. D’abord, nous observons que l’héritage et l’observation des allèles des loci différents sont indépendants. Pour chaque locus nous pouvons faire un modèle P indépendant μ. Dans la description plus bas nous considérons un modèle pour un seule locus, et en avantage de la commodité d’écriture, nous supprimons la dépendance.

Allele Probabilities

Nous considérons des pedigrees avec des individus i. Dans un pedigree, chaque individu i a deux parents, un père f(i) et une mère m(i). Une exception est quand l’individu est un enfant trouvé. Dans ce cas il n’a pas de parents dans le pedigree.

Les relations statistiques entre des profiles d’ADN et les allèles de membres de la famille peuvent être construites du pedigree, combiné avec des modèles pour la transmission d’allèle. Sur le locus étudié, chaque individu i a un allèle paternel xfi et un allèle maternel xmi. f et m signifie ‘père’ et ‘mère’. Le pair d’allèles est dénoté comme xi =(xfi,xmi). Parfois nous utilisons exposant s qui peut avoir les valeurs {f,m}. Alors, chaque allèle dans le pedigree est indexé par (i,s),où i parle des individus et s des phases (f,m). Les allèles peut supposer les valeurs N, où N comme les valeurs des allèles dépend du locus.

Un allèle d’un enfant trouvé est nommé un ‘allèle trouvé’. Donc un enfant trouvé dans une pedigree a 2 ‘allèles trouvés’. Le modèle le plus simple pour les allèles trouvés est de supposer qu’ils sont indépendants et que chacun suit une répartition P(a) des fréquences de la population. En général, P(a) dépendra du locus. Les modèles plus avancés, dans lesquels les allèles trouvés ont une corrélation, ont été proposé. Par exemple, on peut assumer que les enfants trouvés dans un pedigree viennent d’une seule sous- population inconnue. Ce modèle d’hypothèse donne des corrections aux résultats des modèles sans corrélations d’enfants trouvés. Un inconvénient est que ces modèles mènent à une augmentation du mémoire requis et du temps de calcul. Dans cette partie, nous nous limitons aux modèles d’allèles indépendants d’enfants trouvés. Si un individu i a ses parents dans un pedigree, la distribution allélique d’un individu (vu par des allèles de ses parents) est comme suivant :

P(xi|xf(i),xm(i)) = P(xfi|xf(i))P(xmi|xm(i))

P(xfi|xf(i)) = ½ Σs=f,m P(xfi|xsf(i))
P(xmi|xm(i)) = ½ Σs=f,m P(xmi|xsm(i))

Pour expliquer en mots: individu i a son allèle paternel xfi de son père. f(i). Pourtant, il y a une probabilité de 50% que c’est l’allèle paternel xff(i) de père f(i) et donc 50% qu’il soit l’allèle maternel. xmf(i).

Les probabilités P (xfi|xsf(i)) et P(xmi|xsm(i)) sont données par un modèle de mutation génique P(a|b), ce qui code la probabilité que l’allèle d’enfant est «a », bien que l’allèle de la chromosome parentale soit transmis comme «b» . Les mécanismes de mutation précisés Bayesian network pour les différents marqueurs STR ne sont pas connus. Il y a des preuves que les mutations de père à l’enfant sur plus probables (environ 10 fois) que les mutations de mère à l’enfant. Le sexe de chaque individu est connu, mais pour des commodités d’écriture nous réprimons la dépendance du sexe du parent. En général, la mutation tend à diminuer par la différence entre les répétitifs |a-b|. La mutation dépend aussi du locus.

Plusieurs modèles de mutation géniques sont proposés dans la littérature. Comme nous verrons plus tard, l’inclusion d’un modèle détaillé de mutation peut mener à une augmentation sévère de temps de traitement et de mémoire requis. Comme des mutations géniques sont très rares, on peut poser la question s’il y a une pertinence pratique d’un modèle de mutation détaillé ? Bien sûr, le modèle le plus simple est de supposer que les mutations sont absentes, P(a|b)=δa,b. Un tel modèle améliore l’inférence efficace. Cependant, chaque mutation dans chaque locus mènera à un rejet de match total (100%), même si il y a un match de 100% sur les autres marqueurs. Donc, les modèles de mutation sont importants dans tels cas. Le plus simple modèle de mutation non – trivial est un modèle de mutation uniforme avec un taux de mutation m (ne pas être confondu avec l’index locus)

P(a|a)=1-μ
P(a|b)= μ/(N-1)

Une avantage de ce modèle est que le mémoire requis et le temps de calcul augmentent seulement légèrement, comparé avec le modèle sans des mutations. Notez que la fréquence de la population n’est pas invariante dans ce modèle : la mutation rend la fréquence plus plat. On peut discuter que c’est une propriété réaliste qui introduit la diversité de la population. Dans les applications pratiques du modèle, cette même fréquence de population est supposé d’appliquer sur les trouvés dans différentes générations de pedigree. Donc quand plus de références non- observés sont inclus dans le modèle de pedigree pour faire une analyse de parenté, le rapport de vraisemblances devrait changer légèrement. Autrement dit, les pedigrees formellement équivalents donnera des rapport de vraisemblances différents.

Observations

Des observations sont notées comme x̄i, ou x̄ si nous ne faisons pas référence à un individu. L’origine parentale d’un allèle ne peut être étudiée, donc les allèles xf=a, xm=b profitent de la même observation comme xf=b, xm=a. La convention d’écrire est que nous commençons avec l’allèle le plus petit dans l’observation x̄(a,b) ⇔,a ≤ b. Dans le cas d’un allèle perdu, nous écrivons x̄ =(x,F). F signifie le caractère d’ambigüité. Nous supposons qu’un allèle perdu peut être étudié (par exemple par la taille maximale), c’est modelé par L. Avec L = 1 il y a un allèle perdu et il y aura un caractère d’ambigüité ? Une observation complète est encodée comme L = 0. T Le cas de deux allèles perdus n’est pas modèle, car nous n’avons pas d’observation. Le modèle d’observation est maintenant simplement noté. Sans d’allèle perdu (L = 0), les allèles y ont pour résultat l’observation y. Ceci est modèle par la table déterministe.

P(x̄|y,L = 0 ) = 1 ⇔ x̄ = y, 0 autrement.

Y est seulement x̄ with x̄ = y. Avec une perte d’allèle (L = 1), nous avons

P(x̄ = (a,F)|(a,b), L = 1) = ½ ⇔ a ≠ b
P(x̄ = (b,F)|(a,b, )L = 1) = ½ ⇔ a ≠ b

et

P(x̄=(a,F)|(a,a),L = 1) = 1

C’est-a-dire, si un allèle est perdu, les allèles (a,b) mène à une observation a (puis b est perdu) ou à une observation b (puis a est perdu). Les deux événements ont une probabilité de 50%. Si les deux allèles sont identiques, donc aussi le pair en est (a,a), puis naturellement a est observé avec une probabilité de 100%.

Inference

Par la multiplication de tous les allèles antérieurs, un réseau bayésien d’alleles x et profiles d’ADN est fait, dans un pedigree spécifique. Supposons que le pedigree consiste d’un ensemble d’individus J=1,…,K Avec un sous- ensemble de trouvés F, et supposons que les allèles perdus Lj cette probabilité est :

P( {x̄,x}J) = ∏j P(x̄j|xj,Lj) ∏i ∈ J\F P(xi|xf(i),xm(i)) ∏i ∈ F P(xi)

Avec ce modèle, on peut tester la vraisemblance de chaque ensemble de profiles d’ADN. Si nous avons des observations x̄j d’un sous-ensemble d’individus j ∈ O, la vraisemblance des observations dans ce pedigree est la distribution marginale P({x̄}O), qui est la probabilité marginale.

P({x̄}O) = Σx1 … ΣxKj ∈ O P(x̄j|xj,Lj) ∏ i ∈ J\FP(xi|xf(i),xm(i)) ∏i ∈F P(xi)

Ce traitement informatique implique la somme de tous états de pairs d’allèles de tous les individus. Un algorithme d’arbre de jonction peut être appliqué pour calculer la probabilité désirée. Dans cette façon, des probabilités et des rapports du vraisemblances peuvent être calculés pour tous les loci, et rapporté à l’utilisateur.

août 29 2014, 09:24:09 / ffd0fa2491d15aebe0e81c15da5c56aae583a1a7
EnglishEnglish EspañolEspañol FrançaisFrançais PortuguêsPortuguês 中文(简体)中文(简体) 日本語日本語 РусскийРусский
SMART Research BV • Heyendaalseweg 135 • 6525 AJ Nijmegen • The Netherlands EU flag Cookies