Процедура распознавания базируется на найденных
комплексных сигналах. Оценка позиций объекта получается на основании оценок
всех олигонуклеотидных сигналов, применимых к этой позиции.
Эта оценка означает вероятность появления этого сигнала на случайной
последовательности. Используя негативные случайные выборки, мы можем вычислить
величину оценки, что гарантирует некоторый уровень ошибок первого и второго
рода. Если в некоторой контрольной последовательности оценка больше, чем эти
уровни, тогда мы предсказываем, что эта последовательность принадлежит
некоторому функциональному классу.
На первом шаге процедуры распознавания мы находим, все
сигналы применимые к некоторой контрольной последовательности. В результате мы
имеем последовательность сигналов 0 < N < …<Ntotal, где Ntotal – общее
количество сигналов. Порядок сигналов означает порядок появлений сигналов в
этой последовательности. Тогда может быть вычислена вероятность P(S) появления этих сигналов для
каждой позиции последовательности.
Вероятность
P(S) для последовательности S = X1X2 ... Xn получается как
произведение вероятностей нуклеотидов Xi , i = 1,2, ..., n.
Функция распознавания базируется на некоторой
последовательности согласия S,
которая получается как показано на рис.
29.
Процедура распознавания,
основанная на комплексных сигналах подобна процедуре, описанной выше. Мы
определяем функцию распознавания для анализируемой последовательности.
Вес последовательностей
определяется несколькими способами:
1) å log P(S) – сумма логарифмов условных вероятностей комплексных
сигналов, найденных в последовательности;
2) Nr – число комплексных сигналов, найденных в
последовательности;
3) å logP(Sr)
– сумма вероятностей
логарифмов олигонуклеотидных сигналов, найденных в
последовательности.
Базируясь на этих оценках
последовательностей, мы разработали метод прогнозирования донорных
сайтов связывания. Полученные ошибки первого и второго рода на контрольных
данных были 4,4 и 4,0 % соответственно.
Рис. 29