logo NFI logo SMART Research BV
Выберите язык: English Español Français Português 中文(简体) 日本語 Русский
logo
shadow

Данная статья основана на параграфе книги, которую мы написали
Вихенрик В.A.Дж.Дж., Каппен Х.Дж., Бурхерс В.Х.
Байесовские сети для экспертных систем, теория и практическое применение.
Интерактивные Совместные информационные системы
Исследования вычислительного интеллекта, 2010, Том 281/2010, 547-578
DOI: 10.1007/978-3-642-11688-9_20


Байесовские сети

Байесовские сети отлично подходят для моделирования статистических связей генетического материала родственников в родословной. Они могут непосредственно применяться в анализе на родство с любым типом родословной родственников пропавших без вести людей. Дополнительным преимуществом Байесовского подхода является то, что он преобразует анализ на родство, делая его простым и гибким, позволяющим включать другие факторы, такие как измерения вероятности ошибки, отсутствующие данные, статистику более сложных генетических признаков и т.д.

Программа Бонапарт автоматически формирует байесовские сети и байесовский вывод, что позволяет правильно выполнить анализ на родство на основе ДНК профилей в сочетании с информацией с родословной. Он специально разработан для работы с большим количеством данных, полученных с места катастрофы с тысячью жертвами.

В оставшейся части этого раздела мы опишем модель Байеса, которая была использована в разработке приложения. Сформулируем задачу,в основе которой лежит вычисление отношения правдоподобия двух гипотез с основным ингредиентом - вероятность P ДНК профилей. Прежде, чем описывать модель, мы сначала дадим краткое введение в ДНК профили. В последней части секции мы опишем как формируются байесовские сети с помощью Р и как вычисляются отношения правдоподобий.

Отношения правдоподобий двух гипотез

Предположим, у нас есть родословная с индивидуальным ПВ, который пропал без вести (Пропавший без Вести). У этого человека есть родственники, которые предоставили ДНК материал и создали профиль. Кроме того, существует Неизвестный Пользовательский Интерфейс, ДНК которого также профилированы. Вопрос в том, НП = ПВ? Мы делаем предположение, что существует вероятность Р того, что ДНК неизвестного пользователя принадлежит к члену семьи пропавшего без вести человека. Чтобы вычислить вероятность этого предположения, мы сравниваем две гипотезы. Первая гипотеза H1 заключается в том, что НП = ПВ. Вторая гипотеза H0 в том, что пользовательский интерфейс не связан с пропавшим без вести лицом. В обеих гипотезах у нас есть две родословные: первый профиль содержит родословную ПВ и Членов Семьи (ЧС). Второй профиль содержит только НП в качестве члена семьи. Для сравнения гипотез, мы вычислим правдоподобия этих двух гипотез, использую информацию ДНК этих двух профилей,

Тогда отношения правдоподобий двух теорий

LR =P(E|Hp)/P(E|Hd)

Если дана априорная вероятность P(Hp)=P(Hd), тогда апостериорная вероятность P(Hp|E)=P(Hd|E) следует из умножения априорной вероятности и отношения правдоподобий,

P(Hp|E)/P(Hd|E)=( P(E|Hp)P(Hp) )/( P(E|Hd)P(Hd) )
ДНК профили

В этом параграфе мы расскажем о профилях ДНК в анализе на родство. Любую информацию на эту тему можно найти в литературе. ДНК находится в ядре клетки в составе хромосом. Нормальная человеческая клетка состоит из 46 хромосом, которые могут быть разбиты на 23 пары. Из каждой пары хромосом один экземпляр передается по наследству от отца, а другой экземпляр от матери. В 22 парах содержатся гомологичные хромосомы, т. е. хромосомы с практически одинаковой длиной и с практически одинаковыми генами (функциональный элемент ДНК). Их называют аутосомами. Остальные хромосомы - половыми хромосомами. Самцы гетерогаметны (XY), а самки гомогаметны (XX).

Более 99% ДНК любых двух людей в общей популяции идентичны. Большинство ДНК, следовательно, бесполезны для идентификации. Однако существуют определенные места на хромосомах, где содержатся различия между ДНК. Такое различие называют ДНК маркером. В генетике указанное место называется локусом.

В судебных исследованиях короткие тандемные повторы (КТП) в настоящее время наиболее использованы. Причина в том, что они могут быть получены из небольшого количества ткани в теле. Другим преимуществом является то, что они имеют низкую скорость мутации, что важно для анализа на родство. КТП это класс изменений, которые происходят, когда модель из двух или более нуклеотидов повторяется. Так, например,

(CATG)3=CATGCATGCATG

Количество повторений x в нашем случае равен трём. Иногда возникает дробный повтор, например CATGCATGCATGCA, этот повтор будет закодирован с повторением числа х = 3,2, потому что у нас три повторения и два нуклеотида. Значения числа х и их частоты записаны для локусов, используемых в судебных исследованиях. Эти диапазоны и частоты зависят от локусов. В некоторой степени они зависят от популяции людей. КТП локусов более или менее стандартизированы. ДНК-маркеры задают профиль ДНК. Так как хромосомы существуют в парах, ДНК профиль состоит из пары маркеров. Например (следующее обозначение нестандартно)

x̄ =(1x1;1x2);(2x1;2x2);⋯;(nx1;nx2)

где m каждый μxs номер повторения локуса. Так как хромосомы существуют парами, мы имеем два аллеля μx1 и μx2 для каждого локуса, один отцовский и один материнский. К сожалению, текущий ДНК анализ не способен определить фазу аллелий, т.е. является ли аллель материнским или отцовским. Это значит, что (μx1, μx2) не отличаются от (μx2, μx1). Чтобы сделать обозначение уникальным, мы записываем наблюдаемые аллели локуса в виде μx1μx2. Хромосомы унаследованы от родителей. Каждый родитель передает одну копию каждой пары хромосом ребенку. Для аутосомов нет (известных) предпочтений, какой из них перейдёт к ребёнку. Там также нет (известных) корреляций между передачей хромосом от разных пар. Поскольку хромосомы наследуются от родителей, аллели тоже переходят от родителей. Однако есть небольшая вероятность того, что аллель изменен или мутировал. Вероятность мутации составляет около 0,1%. В ДНК анализе иногда происходят сбои, и аллель в определенном локусе выпадает. В таком случае наблюдается (μx1;F), где "F" - непредсказуемое явление.


Баесовская сеть анализа на родство

В этом параграфе мы опишем строительные блоки байесовской сети для моделирования вероятности ДНК профилей. Прежде всего заметим, что наследование и наблюдение аллелей различных локусов являются независимыми. Таким образом, для каждого локуса мы можем создать независимую модель Pμ. Мы рассмотрим модель для одного локуса и опустим зависимость от μ для удобства записи.

Вероятность аллеля

Мы рассмотрим родословные физических лиц i. В родословной у каждого физического лица i есть два родителя: папа f(i) и мама m(i). Исключение только в том, если физическое лицо является найдёнышем. В этом случае в родословной нет родителей.

Статистические связи между ДНК профилем и аллелями членов семьи могут быть построены из родословной, в сочетании с моделями для передачи аллелей. В заданном локусе, каждое физическое лицо имеет i отцовский аллель xfi и материнский аллель xmi. f и m значит ‘father’(папа) и ‘mother’(мама). Пара аллелей обозначается как xi =(xfi,xmi). Иногда мы используем индекс s, который содержит {f,m}. Таким образом, каждый аллель родословной проиндексирован (i,s), где i пробегает между физическими лицами и s между фазами (f,m). Аллель можно записать как N, где N так как аллель зависит от локуса.

Аллель основателя называют "аллель-основатель". В родословной основатель имеет два аллеля-основателя. Простейшей моделью основателя аллелей является предположение, что они независимы, и каждый следует распределению Р(а) частот. Это распределение считается известным. В общем случае Р(а) зависит от локуса. В более продвинутых моделях основатель аллелей коррелирует. Например, можно предположить, что основатели в родословной происходят из одной, но неизвестной популяции. Эта модель вносит поправки к результатам без корреляции между основателями. Недостатком является то, что эти модели могут привести к перегрузке памяти и увеличению времени вычислений. В этой главе мы ограничимся моделями с независимым основателем аллелей. Если физическое лицо i содержит родителей в родословной, то распределение аллеля его родителей задано,

P(xi|xf(i),xm(i)) = P(xfi|xf(i))P(xmi|xm(i))

где

P(xfi|xf(i)) = ½ Σs=f,m P(xfi|xsf(i))
P(xmi|xm(i)) = ½ Σs=f,m P(xmi|xsm(i))

Объяснения: физическое лицо i получило отцовский аллель xfi от папы f(i). Тем не менее, существует 50% того, что этот аллель отцовский xff(i), получен от отца f(i) и 50% того, что аллель материнский xmf(i).

Вероятности P(xfi|xsf(i)) и P(xmi|xsm(i)) даны с помощью модуля мутации P(a|b), который кодирует вероятность того, что аллель ребёнка равен b, в то время как происходит передача аллеля с родительской хромосомы. Механизм мутации Bayesian network для различных КТП маркеров неизвестен. Существует доказательство того, что мутации от отца к ребёнку вероятны примерно в 10 раз, так же как и мутации от матери к ребенку. Предполагается, что пол каждого индивидуума известен, но для удобства записи мы опускаем зависимость от пола родителей. В общем, мутации имеют тенденцию к снижению с разницей повторных номеров |a-b|. Мутация также зависит от локусов.

Несколько моделей мутаций были предложены в литературе. Однако, детализированная модель мутации может привести к серьезной перегрузки компьютерной памяти и увеличению времени вычислений. Поскольку мутации очень редки, нет необходимости включения детальной модели мутации. Простейшая модель мутации заключается в отсутствии мутации, P(a|b)=δa,b. Такая модель повышает эффективность. Однако любая мутация в одном локусе приведет к 100% отказу от совпадения, даже если есть 100% совпадение в оставшемся маркере. Модели мутации важны, чтобы как то предостеречься от таких ситуаций. Простейшая нетривиальная модель единой мутации с мутационным коэффициентом m (не следует путать с индексом локусов μ),

P(a|a)=1-μ
P(a|b)= μ/(N-1)

Преимуществом данной модели является то, что необходимый объем памяти и время вычислений увеличивается незначительно по сравнению с моделью без мутации. Следует отметить, что частоты в этой модели в общем случае не инвариантны. Это свойство вводит разнообразия в частотах. Однако, такая частота применяется только к основателям в разных поколениях родословной. Это значит, что если включить скрытые параметры в родословную для моделирования предков индивидуума, отношение правдоподобий (немного) изменится. Другими словами, эквивалент родословных даст (немного) другие отношения правдоподобий.

Результаты научных наблюдений

Результаты научных наблюдений обозначаются как x̄i, или x̄, если мы не ссылаемся к индивидууму. Происхождение аллелей неизвестно, поэтому аллели xf=a, xm=b имеют те же результаты научных наблюдений, что и xf=b, xm=a. Мы приняли условность записи первого наблюдаемого самого маленького аллеля: x̄(a,b) ⇔,a ≤ b. В случае потери аллеля, мы пишем x̄ =(x,F), где F - непредсказуемое явление. Будем считать, что потерю аллеля можно наблюдать (например, с помощью высоты вершины). Это событие моделируется L. С L = 1 есть потеря аллеля, и есть непредсказуемое явление?. Полное наблюдение кодируется как L = 0. При потере двух аллелей событие не моделируется, так как в этом случае у нас нет наблюдений. Теперь результат научных наблюдений записан. Без потери аллеля наблюдение y записывается как L = 0.

P(x̄|y,L = 0 ) = 1 ⇔ x̄ = y, 0 в другом случае.

Заметим, что для данного y существует только один x̄ с x̄ = y. С потерей аллеля (L = 1), у нас есть

P(x̄ = (a,F)|(a,b), L = 1) = ½ ⇔ a ≠ b
P(x̄ = (b,F)|(a,b, )L = 1) = ½ ⇔ a ≠ b

и

P(x̄=(a,F)|(a,a),L = 1) = 1

То есть, если один аллель теряется, аллели (a,b) приводят к результату наблюдений a (тогда теряется b), или b (тогда теряется a). Оба события имеют вероятность равную 50%. Если оба аллеля одинаковы, так что пара (а,а), тогда a наблюдается с вероятностью равную 100%.

Inference

Умножив все априори аллелей, вероятность передачи и модели наблюдения, получаем Байесовские сети аллелей х и ДНК профили физических лиц x̄ в данной родословной. Предположим, что родословная состоит из множества лиц, J=1,…,K с подмножеством основателей F, и предположим, что потери аллеля Lj заданы, то вероятность записана как

P( {x̄,x}J) = ∏j P(x̄j|xj,Lj) ∏i ∈ J\F P(xi|xf(i),xm(i)) ∏i ∈ F P(xi)

В рамках этой модели правдоподобие данного набора ДНК профилей может быть вычислена. Если у нас есть наблюдения x̄j подмножества лиц j ∈ O, маргинальное распределение P({x̄}O) является маргинальной вероятностью

P({x̄}O) = Σx1 … ΣxKj ∈ O P(x̄j|xj,Lj) ∏ i ∈ J\FP(xi|xf(i),xm(i)) ∏i ∈F P(xi)

Эта модель включает в себя все пары аллелей xi всех лиц. Соединения на основе алгоритмов дерева могут применяться для вычисления желаемого правдоподобия. Таким образом, правдоподобия и отношения правдоподобий вычисляются для всех локусов, и сообщаются пользователю.

Август 29 2014, 09:24:19 / 6dbad17df17f5c2dc02c0e66a74795959a1a75df
EnglishEnglish EspañolEspañol FrançaisFrançais PortuguêsPortuguês 中文(简体)中文(简体) 日本語日本語 РусскийРусский
SMART Research BV • Heyendaalseweg 135 • 6525 AJ Nijmegen • The Netherlands EU flag Cookies