Поиск сайтов связывания транскрипционных факторов с помощью марковских моделей с переменной памятью
Построенные
деревья-источники дают не только
графическое представление найденных
зависимостей, но могут использоваться для
предсказания функциональных сайтов в
последовательностях ДНК. Для предсказания
с помощью скользящего окна строится
профиль соответствия локального участка
заранее рассчитанной контекстной модели –
вычисляется логарифм вероятности получить
такую последовательность при заданной
модели. Логарифм вероятности берется со
знаком минус, поэтому меньшие значения
профиля дают лучшее предсказание.
По выборке нуклеотидных последовательностей TATA-боксов была построена древовидно-контекстная модель (марковская модель с переменной памятью). Затем анализировались последовательности промоторов из базы данных TRRD. В скользящем окне 20 п.о. рассчитывались вероятность получения данного участка, и строился профиль логарифма такой вероятности, взятого со знаком минус. Минимальному значению профиля (-25 п.о. относительно старта транскрипции) соответствует участок, наиболее характерный для модели TATA-боксов (Рис. 3.1.6).
Рис.1 Профиль распознающей функции TATA-бокса в промоторной последовательности гена металлотионеина-I. Жирная серая линия – распознавание в модели дерева-источника с использованием контекстов переменной длины, тонкие черные линии – распознавание по частотам нуклеотидов (модель Бернулли) и динуклеотидов (модель 1-го порядка).
Рисунок содержит профили предсказания для промотора гена металлотионеина-I (AC EMBL: J00605). Минимальное значение профиля соответствует реальному TATA-боксу проиндексированному в TRRD в положении от -28 до -23 п.н. до старта транскрипции. Видно, что профиль распознающей функции в марковской модели с переменной памятью более четко выделяет участок TATA-бокса, чем распознавание только по частотам нуклеотидов и динуклеотидов.
Рассмотрим применение данной функции распознавания для выборки 124 нуклеотидных последовательностей промоторов генов эукариот, содержащих TATA-бокс (рис. 3.1.7). Усредненный профиль распознавания показан жирной линией. Стрелка указывает на минимум профиля и предпочтительный участкок локализации ТАТА-бокса (-30 п.о. относительно старта транскрипции), что согласуется с известными данными.
Рис.2 Профиль распознающей функции для 124 нуклеотидных последовательностей промоторов, содержащих TATA-бокс. Последовательности фазированы относительно старта транскрипции.
Отличительной
особенностью метода при построении модели
порождающего дерева-источника по выборке
функциональных сайтов является отсутствие
требования к предварительному
выравниванию сайтов и даже к четкому
определению их границ. Позиционирование
символов, как в весовой матрице, здесь не
требуется. Локальные контексты заменяют
позиционирование. Таким образом, данный
метод моделирования является
альтернативой методу весовых матриц.
Некоторые
сайты связывания имеют несколько
консервативных (коровых) районов с
варьирующим расстоянием между ними. Для
выявления коровых районов в невыровненных,
но фазированных относительно
экспериментально известного участка
связывания, последовательностях ДНК были
построены профили соответствия
древовидной контекстной модели сайта.
Заметим, что для некоторых типов сайтов –
MyoD, HMG, YY1 (Yin Yang) наблюдаются удаленные от
центра локальные минимумы, что говорит
близком расположении групп таких сайтов в
регуляторных районах (кластеризации). Эти
же сайты имеют несколько пиков сложности
текста (по Лемпелю-Зиву), что подтверждает
существование нескольких коровых районов.
На рисунке представлены профили
соответствия модели соответствующего
корового района для нуклеотидных
последовательностей, содержащих ССТФ COUP, MyoD,
Myogenin. Рис.3 Профиль распознающей
функции корового района с помощью
контекстной модели для нуклеотидных
последовательностей, содержащих сайтов
связывания ТФ COUP, MyoD, Myogenin.
Последовательности фазированы
относительно центра сайта.
Из рисунка видно наличие нескольких минимумов
в центре фазированной последовательности (стрелки),
что соответствует двум коровым районам
сайта.