§ 70. Комплексные сигналы как олигонуклеотидные паттерны

Промоторы cорегулируемых (co-regulated) генов могли быть охарактеризованы группами олигонуклеотидных мотивов. Мы используем термин мотивы, чтобы подчеркнуть согласие таких олигонуклеотидов. Проблема состоит в том, чтобы изучить взаимное присутствие и местоположение этих мотивов.


Ниже под комплексным сигналом будем понимать группу олигонуклеотидных мотивов, которые дают определенную модель относительного взаиморасположения в последовательностях промотера. Присутствие такого комплексного сигнала можно рассматривать как условие принадлежности последовательности к классу промотеров. Например, мы считаем группу двух олигонуклеотидных мотивов (S1S2)  комплексным сигналом, определенным следующим образом:

 

(S1, S2) = (Позиция (S1) < Позиция (S2) ),

 

где S1 и S2олигонуклеотиды; Позиция (S1), Позиция (S2)  – позиции олигонуклеотидов в последовательности относительно старта транскрипции.

Таким образом, мы можем считать условие А1 в закономерности как комплексный сигнал (S1, S2), и проверять гипотезу A1 Þ A0 на последовательности ДНК, содержащей S1 и S2.

Комплексный сигнал (S1,S2) может включать в себя и дополнительные олигонуклеотиды

 

(S1, S2) = ( Позиция(S1) < Позиция(S2) & (Sign(S1) = z1) & (Sign(S2) = z2) ),

 

где позиция(S1) и позиция(S2) – позиции олигонуклеотидов в последовательности относительно начала транскрипции. Sign(S1) и Sign(S2) означают молекулярную цепочку в двойной спирали ДНК, где расположены сигналы; z1z2 Î {+, -}, z1z2 Î {+, -} знак (+) означает прямую цепь ДНК, то есть от 5 '-концов до 3 '-концов, (-) означает обратную цепь ДНК.

Присутствие только двух олигонуклеотидов (Si, Sj), возможно, не будет удовлетворительным. Мы должны полагать, что все тройки олигонуклеотидов в последовательностях ДНК таких как (S1S2S3) = (Position(S1) < Po­sition(S2) < Position(S3)). Формально эту тройку, можно  рассмотреть как две пары (S1S2) и (S2S3). Теперь, проверяемая гипотеза имеет вид A1 & A2 Þ A0. Таким образом, используя логику первого порядка, мы строим все более сложные условия, включая присутствие этих олигонуклеотидов в прямых или обратных цепях ДНК, наложенных олигонуклеотидов и т. д.

Более сложные правила прогноза получаются добавлением новых сигналов в условие правила (S1, … Si-1Si), i = 1, 2, ... . Система Gene Discovery перебирает все варианты возможного удлинения правила (S1, …, Si−1, Si) олигонуклеотидом Si, чтобы усилить прогноз, i = 1, ..., N, N – число  мотивов.

Статистический критерий Фишера (точный критерий Фишера для таблиц сопряженности признаков) используется в алгоритме для проверки статистической значимости увеличения условной вероятности правила при добавлении новых сигналов в посылку правила.