logo NFI logo SMART Research BV
言語を選択してください: English Español Français Português 中文(简体) 日本語 Русский
logo
shadow
この記事は、我々の著書の記載内容に基づいて書かれています。
Wiegerinck W.A.J.J., Kappen H.J., Burgers W.G.
Bayesian networks for expert systems, theory and practical applications.
Interactive Collaborative Information Systems
Studies in Computational Intelligence, 2010, Volume 281/2010, 547-578
DOI: 10.1007/978-3-642-11688-9_20


ベイジアン・ネットワーク

ベイジアン・ネットワークは、ある血統内における親族の遺伝物質の統計的な関係をモデル化するのに非常に適しています。 それらはそのまま、行方不明者の親族の、あらゆるタイプの血統を介した血縁関係分析に適用することができます。 ベイジアン・ネットワーク・アプローチの更なる利点とは、解析ツールをより透明かつ柔軟にすることにより、測定誤差やデータの欠落、より高度な遺伝子マーカーの統計などといった、あらゆる要因をも組み込むことが可能になった点です。

Bonaparte のコンピュータ処理エンジンは、自動生成されたベイジアン・ネットワークやベイズ推定法を使用し、 DNAプロファイルと血統の情報に基づいた正確な血縁関係分析を有効化しています。 それは、被災者数及び行方不明者数が何千にものぼるような、大規模な事件・事故を扱うために、特別に設計されました。

アプリケーション開発におけるベイヤン・モデルのアプローチについては、この節の残りの部分で説明します。 我々は、コンピュテーションタスク、すなわち二つの仮説の尤度比のコンピュテーションを組み立てました。 主な成分は、DNAプロファイルの確率モデル P です。 モデルについて論じる前に、まず、DNAプロファイルを簡単に紹介します。 P はどのようにしてベイジアン・ネットワークとしてモデル化され、また、どのようにして尤度比が計算されたのか、と言う点に関しては、この節の最終部分に記述します。

二つの仮説の尤度比

たとえば、ある血統とMP(ミッシング・パーソン=行方不明者)が存在すると仮定します。 この血統内に、プロファイリングを求められDNAマテリアルを提供した家族が含まれているとします。 更には、同じくDNAをプロファイリングされているUI(アンアイデンティファイド・インディビジュアル=身元不明者)が存在するとします。 疑問となるのは、果たして UI=MP の方式が成り立つのかと言う点です。 次の段階へと進めるために、 家族のDNAエビデンスとしての確率モデルPが 血統内にあると仮定します。 このイベントの確率を計算するために、仮説を比較する必要があります。 一般的な選択肢は、二つの仮説を組み立てることです。 第一の仮説はH1、UI=MP であるというものです。 対立する仮説はH0、UIは無関係な人物Uであるというものです。 どちらの仮説においても、2つの家系が存在します。 第一の家系はMPとFAM(家族)で構成されています。 これらの仮説を比較するために、二つの仮説の下でDNAプロファイルからのエビデンスの尤度を計算します。

モデルPの下での、二つの仮説の尤度比は、

LR =P(E|Hp)/P(E|Hd)

更に、先のオッズ P(Hp)=P(Hd)が与えられた場合、後のオッズ P(Hp|E)=P(Hd|E)は、先のオッズと尤度比の乗算に続きます。

P(Hp|E)/P(Hd|E)=( P(E|Hp)P(Hp) )/( P(E|Hd)P(Hd) )
DNAプロファイル

このサブセクションにおいては、キンシップ・アナリシス(血縁関係分析)のためのDNAプロファイル概要を説明します。 包括的な論文は文献に記載されています。 ヒトにおいては、DNAは染色体に収納された核細胞の中に見つけることができます。 通常ヒトは、23対からなる46本の染色体を持っています。 各染色体の対のうち一本は父親由来、そしてもう一本は母親由来です。 この内の22対においては、 染色体 はホモログ(相同)で、すなわち、それらは実質的に同じ長さで、一般的に同じ遺伝子(DNAの機能要素)が含まれていることを意味します。 これらは、常染色体と呼ばれます。 残りの染色体は性染色体です。 男性はX染色体とY染色体を持っています。 女性は2本のX染色体を持っています。

通常、ヒトの種において、任意の二人のDNAの99%以上は一致します。 そのため、DNAの殆どは個人を識別するのに有用ではありません。 しかしながら、染色体上には、個々のDNAのバリエーションを有する位置があります。 このバリエーションを遺伝子マーカーと呼びます。 遺伝子学上では、この位置のことをloci(ローサイ=遺伝子座、または座位)と呼びます。 単数形はlocus(ローカス)です。

法医学研究においては、STR(ショート・タンデム・リピート=短鎖縦列反復配列)マーカーは、現在最も使用されています。 その理由は、少量の身体組織からの鑑定の際に信頼できる、という点です。 別の利点は、その突然変異率の低さです。これは、血縁関係分析において重要です。 STRマーカーは、二つ以上のヌクレオチドのパターンが反復されたときに起こるバリエーションのクラスです。 例えば下記の例の場合、

(CATG)3=CATGCATGCATG

反復されるXの数(この場合は3)は、ポピュレーションにおけるばらつきを示します。 時には、分数の反復が起こります。例えば CATGCATGCATGCA、これは、3度の反復と2つの追加ヌクレオチドがあるので、反復数は X = 3.2 とエンコードされます。 Xとその周波数の可能数値は、法医学研究で用いられる遺伝子座の説明で述べられています。 この数値の幅と頻度は、遺伝子座間で変化します。 ヒトのサブポピュレーション(亜集団)間によって異なった拡張を見せる場合も有ります。 STR遺伝子座の場合は、多かれ少なかれ、標準化されています。 マーカーのコレクションによってDNAプロファイルが作られます。 染色体が対になって存在しているため、プロファイルも同様に、対のマーカーによって構成されます。 例えばこの様に(下記の表記法は一般標準のものではありません)、

x̄ =(1x1;1x2);(2x1;2x2);⋯;(nx1;nx2)

μxs は、よく定義づけられた遺伝子座 m における反復の数です。 しかしながら、染色体は対で存在すると言う理由から、それぞれに対してμx1μx2 の2つの対立遺伝子、すなわち一つの父性対立遺伝子 –父親から受け継いだ染色体− と一つの母性対立遺伝子が存在することになります。 残念ながら、現在のDNA解析法においては、 対立遺伝子の相、つまり、対立遺伝子が父方か母方かということを識別することができません。 これは、(μx1, μx2) は (μx2, μx1) から区別することはできないと言うことを意味します。 この表記をユニークなものにするために、観測された遺伝子座の対立遺伝子を μx1μx2 とします。 染色体は親由来のものです。 両親は子に対し、それぞれ一対の染色体のコピーを送ります。 常染色体においては、どの染色体が子に伝達されるかと言う(既知の)優先順位は有りません。 また、異なった対からの染色体の伝達の間には、(既知の)相関関係も有りません。 染色体は親から継承されているので、対立遺伝子も同様に親から継承されています。 しかしながら、対立遺伝子が変化または変異しているという確率が、少なからず存在します。 変異の確率は0.1%です。 そして遂にはDNA解析時において、時に特定の遺伝子座の対立遺伝子が脱落することにより、DNA解析法に障害が生じます。 このような場合のオブザベーションは(μx1;F)、ここにおけるFはワイルドカードです。


血縁関係分析のためのベイヤン・ネットワーク

このサブセクションでは、血統内における個人のDNAプロファイルの確率をモデル化するための、ベイジアン・ネットワークの基礎的要素について記述します。 まず始めに、 異なる遺伝子座における対立遺伝子の継承とオブザベーションは、それぞれ独立していることを観測します。 それにより、それぞれの遺伝子座に対して独立したモデル Pμ を作ることができます。 以下のモデルの説明においては、単一遺伝子座のモデルを考察し、また、記述上の便宜のために μ 依存を制御します。

対立遺伝子の確率

ここでは、まず血統と個人について孝察します。 血統の中においては、各個人に二人の親、父 f(i) と母 m(i) が存在します。 ただし、その個人が祖である場合は例外です。 その場合、この血統内には親が存在しないことになります。

DNAプロファイルと家族の対立遺伝子間における統計的関係は、対立遺伝子伝達のためのモデルとの組み合わせにより、血統から構築することができます。 各個人 i は、与えられた遺伝子座上に、父性対立遺伝子xfi と母性対立遺伝子 xmi を持っています。 fm はそれぞれ、‘父’と‘母’を意味します。 対の対立遺伝子は`xi =(xfi,xmi) と表わされます。 時に、{f,m} に値するスーパースクリプト s を使用する場合が有ります。 それにより、血統内の全ての対立遺伝子は、(i,s) によってインデックスされます。ここにおける、i は個人上、s は(f,m) のフェーズ上で動作しています。 N が対立遺伝子の値と同様に遺伝子座に由来する場合、対立遺伝子は、N の値を想定することができます。

ファウンダー(祖)からの対立遺伝子を‘ファウンダー対立遺伝子’と呼びます。 同一の血統内においては、2つのファウンダー対立遺伝子が存在します。 ファウンダー対立遺伝子のシンプルなモデルは、それらが独立していて、それぞれがポピュレーション・フリークエンシーの分布 P(a)に従っていると想定することができます。 この分布は与えられているものと思われます。 一般に、P(a)は遺伝子座に依存します。 より進んだモデルでは、どのファウンダー対立遺伝子が相関しているのかが提案されています。 例えば、あるファウンダーは、単一ではあるものの、未知のサブポピュレーションからの血統に帰属すると仮定したとします。 すると、このモデルの仮説は、ファウンダーとの間に相関の見られないモデルの成果に対して訂正を余儀なくされます。 ここにおける欠点は、このようなモデルは、必要なメモリ量とコンピュテーション時間の著しい増加に繋がり得る、ということです。 この章では、独立したファウンダー対立遺伝子を持つモデルについて述べます。 もしある個人 i が血統内に親を持つ場合、その親から受け継いだ対立遺伝子の分布は以下のとおりです。

P(xi|xf(i),xm(i)) = P(xfi|xf(i))P(xmi|xm(i))

where

P(xfi|xf(i)) = ½ Σs=f,m P(xfi|xsf(i))
P(xmi|xm(i)) = ½ Σs=f,m P(xmi|xsm(i))

言葉で説明するならば: 個人 i は、父親 f(i) からその父性対立遺伝子 xfi を受けます。 しかしながら、その個人の持つ対立遺伝子が父性対立遺伝子xff(i) である可能性は50%であり、母性対立遺伝子xmf(i) であるという可能性も同じく50%です。

確率 P(xfi|xsf(i)) と P(xmi|xsm(i)) は、変異モデル P(a|b)、つまりは 、子の対立遺伝子は、それが送信された親の染色体上の対立遺伝子とするならば、 その確率をbとエンコードするものです。 Bayesian network 異なるSTRマーカーの突然変異のメカニズムは、正確には解明されていません。 ただし、一般的には、父から子への変異が母から子への変異に対しておよそ10倍にものぼると推定する根拠が有ります。 各個人の性別は判明していると想定できますが、表記簡略化のために、ここでは性別の依存性を抑制します。 一般的に、突然変異は、リピート数 |a-b| においてその差が減少する傾向にあります。 また、変異は遺伝子座に依存しています。

いくつかの突然変異モデルは、文献上で提案されています。 ただし、後に後述するとおり、詳細な変異モデルを含めることは、必要なメモリ量とコンピュータ処理にかかる時間の著しい増加に繋がる可能性があります。 変異は非常にまれであるため、詳細な変異モデルにおいて実用的な関連性が存在するか否かを問うことも可能です。 最も単純な突然変異モデルは、変異は無し、P(a|b)=δa,b とするのが妥当でしょう。 このようなモデルは、効率的な推論を更に強化します。 しかしながら、あらゆる単一遺伝子座における異変は、たとえ残りのマーカーの全てが100%マッチする場合であっても、100%の確率で照合の却下に繋がります。 突然変異モデルは、こうした場合に対して、モデル間の交差を得るために重要な役割を果たします。 最も単純で非自明な突然変異モデルは、突然変異率 m(遺伝子座インデックス μ と混同することの無いように)を持つ一様突然変異モデルです。

P(a|a)=1-μ
P(a|b)= μ/(N-1)

このモデルにおいては、必要なメモリ量とコンピュータ処理時間の増加が、突然変異フリーモデルに比べて僅かであると言う利点があります。 このモデルにおいては、ポピュレーションのフリークエンシーは、通常インバリアント(不変なもの)では無いことに注意してください: 突然変異により、フリークエンシーはよりフラットな状態になります。 ポピュレーションの多様性を導入することにより、より実践的なプロパティとなり得ると主張することもできるでしょう。 しかしながら、モデル内の実用的なアプリケーションにおいては、同じポピュレーションのフリークエンシーが血統内の別の世代のファウンダーに繰り返し適用されると考えられています。 これは、もしも頻繁に観測されていないレファレンスが、個々の祖先を構成するための血統内に含まれていた場合、尤度比は(僅かに)変更されることを意味します。 言い換えるならば、正式に同等な血統であろうと、その尤度比は(僅かに)相違しています。

オブザベーション(観測)

個々に言及していない場合の観測値は x̄i または x̄ と表記します。 親からの対立遺伝子の起源を観測することはできないため、対立遺伝子 xf=a, xm=b は xf=b, xm=a と同様の観測とします。 観測における最初の最小対立遺伝子は次のように記述します: x̄(a,b) ⇔,a ≤ b。 対立遺伝子の欠失の際には x̄ =(x,F) と表記し、ここにおけるFはワイルドカードを意味します。 遺伝子の欠失が発生した場合でも、 それは(例えばピーク値を介するなどして)観測可能であるものとします。 このイベントは L によって構成されています。 L = 1 においては対立遺伝子の欠失が見られます、しかしそこにはワイルドカードが存在するのでしょうか? 完成された観測は L = 0 としてコード化されます。 二つの対立遺伝子欠失のケースについては観測が無いため、モデル化されていません。 観測モデルはそのまま書き留められています。 対立遺伝子の欠失無し (L = 0)、観測 y における対立遺伝子 y の結果。 これが確定的なモデルです。

P(x̄|y,L = 0 ) = 1 ⇔ x̄ = y、それ以外の場合は0。

ただし、与えられたY については、 x̄ = y のうちの x̄ は1つのみです。 対立遺伝子の欠失 (L = 1) においては以下のとおりです。

P(x̄ = (a,F)|(a,b), L = 1) = ½ ⇔ a ≠ b
P(x̄ = (b,F)|(a,b, )L = 1) = ½ ⇔ a ≠ b

または

P(x̄=(a,F)|(a,a),L = 1) = 1

すなわち、一つの対立遺伝子が欠失した場合、対立遺伝子(a、b)は aの観測(bが欠失した場合)、または bの観測(aが欠失した場合)へと導かれます。 どちらの確率も50%です。 2つの対立遺伝子が同じ場合は、すなわち(a、a)の対であるため、100%の確率で a が観測されることになります。

推論

対立遺伝子の全ての事前確率および通過確率と観測モデルを乗算することにより、 対立遺伝子 x のベイジアン・ネットワークと、与えられた血統内における個人 x̄ のDNAプロファイルが得られます。 血統は J=1,…とサブセットのファウンダーFを伴うKのセットで構成されていると想定し、また、対立遺伝子の欠失 Lj が与えられているとした場合、その確率は以下のように読み取ることができます。

P( {x̄,x}J) = ∏j P(x̄j|xj,Lj) ∏i ∈ J\F P(xi|xf(i),xm(i)) ∏i ∈ F P(xi)

このモデルにおいて、現在では、与えられたDNAプロファイルのセットの可能性を計算することが可能です。 もしも、個人 j ∈ O のサブセットからの観測 x̄j が有るとすれば、この血統における観測の尤度は周辺分布 P({x̄}O) となり、すなわちそれは周辺確率であることを意味します。

P({x̄}O) = Σx1 … ΣxKj ∈ O P(x̄j|xj,Lj) ∏ i ∈ J\FP(xi|xf(i),xm(i)) ∏i ∈F P(xi)

この計算では、全ての個人のあらゆる状態における対立遺伝子ペア xi の和がふくまれています。 ジャンクションツリーベースのアルゴリズムは、要求された尤度を計算する場合に、そのまま適応することができます。 このような方法で、尤度と尤度比は全ての遺伝子座に対して計算され、そしてユーザーに報告されます。

8月 29 2014, 09:24:12 / 7d344f67b7bb6d135e55f9e6eada2e4f582ace61
EnglishEnglish EspañolEspañol FrançaisFrançais PortuguêsPortuguês 中文(简体)中文(简体) 日本語日本語 РусскийРусский
SMART Research BV • Heyendaalseweg 135 • 6525 AJ Nijmegen • The Netherlands EU flag Cookies