Промоторы cорегулируемых (co-regulated) генов
могли быть охарактеризованы группами олигонуклеотидных
мотивов. Мы используем термин мотивы, чтобы подчеркнуть согласие таких олигонуклеотидов. Проблема состоит
в том, чтобы изучить взаимное присутствие и местоположение этих мотивов.
Рис. 24.
Ниже под комплексным сигналом будем понимать группу олигонуклеотидных
мотивов, которые дают определенную модель относительного взаиморасположения в
последовательностях промотера. Присутствие такого
комплексного сигнала можно рассматривать как условие принадлежности
последовательности к классу промотеров. Например, мы
считаем группу двух олигонуклеотидных мотивов (S1, S2) комплексным сигналом, определенным следующим
образом:
(S1, S2) = (Позиция (S1) <
Позиция (S2) ),
где S1 и S2 – олигонуклеотиды; Позиция (S1),
Позиция (S2) –
позиции олигонуклеотидов в последовательности
относительно старта транскрипции.
Таким образом, мы можем
считать условие А1 в закономерности как
комплексный сигнал (S1, S2), и проверять гипотезу A1 Þ A0 на последовательности ДНК, содержащей S1 и S2.
Комплексный сигнал (S1,S2)
может включать в себя и дополнительные олигонуклеотиды
(S1, S2) = ( Позиция(S1) < Позиция(S2) & (Sign(S1) = z1) & (Sign(S2) = z2) ),
где позиция(S1) и
позиция(S2) –
позиции олигонуклеотидов в последовательности
относительно начала транскрипции. Sign(S1) и Sign(S2) означают молекулярную цепочку в двойной спирали
ДНК, где расположены сигналы; z1, z2 Î {+, -}, z1, z2 Î {+, -} знак (+) означает прямую цепь ДНК, то
есть от 5 '-концов до 3 '-концов, (-) означает обратную цепь ДНК.
Присутствие только двух олигонуклеотидов (Si, Sj), возможно, не будет удовлетворительным. Мы должны полагать, что все
тройки олигонуклеотидов в последовательностях ДНК
таких как (S1, S2, S3) = (Position(S1) < Position(S2) < Position(S3)).
Формально эту тройку, можно рассмотреть
как две пары (S1, S2) и (S2, S3). Теперь, проверяемая гипотеза имеет вид A1 & A2 Þ A0. Таким образом, используя логику первого порядка, мы
строим все более сложные условия, включая присутствие этих олигонуклеотидов
в прямых или обратных цепях ДНК, наложенных олигонуклеотидов
и т. д.
Более сложные правила
прогноза получаются добавлением новых сигналов в условие правила (S1, … Si-1, Si), i = 1, 2, ... . Система Gene Discovery
перебирает все варианты возможного удлинения правила (S1, …, Si−1, Si) олигонуклеотидом Si, чтобы усилить прогноз, i =
1, ..., N, N – число
мотивов.
Статистический критерий
Фишера (точный критерий Фишера для таблиц сопряженности признаков) используется
в алгоритме для проверки статистической значимости увеличения условной
вероятности правила при добавлении новых сигналов в посылку правила.