Анализ сайтов связывания транскрипционных факторов эукариот

В данном разделе представлены результаты компьютерного анализа закономерностей контекстного строения сайтов связывания транскрипционных факторов эукариот

Поиск сайтов связывания транскрипционных факторов с помощью марковских моделей с переменной памятью

Построенные деревья-источники дают не только графическое представление найденных зависимостей, но могут использоваться для предсказания функциональных сайтов в последовательностях ДНК. Для предсказания с помощью скользящего окна строится профиль соответствия локального участка заранее рассчитанной контекстной модели – вычисляется логарифм вероятности получить такую последовательность при заданной модели. Логарифм вероятности берется со знаком минус, поэтому меньшие значения профиля дают лучшее предсказание.

По выборке нуклеотидных последовательностей TATA-боксов была построена древовидно-контекстная модель (марковская модель с переменной памятью). Затем анализировались последовательности промоторов из базы данных TRRD. В скользящем окне 20 п.о. рассчитывались вероятность получения данного участка, и строился профиль логарифма такой вероятности, взятого со знаком минус. Минимальному значению профиля (-25 п.о. относительно старта транскрипции) соответствует участок, наиболее характерный для модели TATA-боксов (Рис. 3.1.6).

Рис.1 Профиль распознающей функции TATA-бокса в промоторной последовательности гена металлотионеина-I. Жирная серая линия – распознавание в модели дерева-источника с использованием контекстов переменной длины, тонкие черные линии – распознавание по частотам нуклеотидов (модель Бернулли) и динуклеотидов (модель 1-го порядка).

Рисунок содержит профили предсказания для промотора гена металлотионеина-I (AC EMBL: J00605). Минимальное значение профиля соответствует реальному TATA-боксу проиндексированному в TRRD в положении от -28 до -23 п.н. до старта транскрипции. Видно, что профиль распознающей функции в марковской модели с переменной памятью более четко выделяет участок TATA-бокса, чем распознавание только по частотам нуклеотидов и динуклеотидов.

Рассмотрим применение данной функции распознавания для выборки 124 нуклеотидных последовательностей промоторов генов эукариот, содержащих TATA-бокс (рис. 3.1.7). Усредненный профиль распознавания показан жирной линией. Стрелка указывает на минимум профиля и предпочтительный участкок локализации ТАТА-бокса (-30 п.о. относительно старта транскрипции), что согласуется с известными данными.

Рис.2 Профиль распознающей функции для 124 нуклеотидных последовательностей промоторов, содержащих TATA-бокс. Последовательности фазированы относительно старта транскрипции.

Отличительной особенностью метода при построении модели порождающего дерева-источника по выборке функциональных сайтов является отсутствие требования к предварительному выравниванию сайтов и даже к четкому определению их границ. Позиционирование символов, как в весовой матрице, здесь не требуется. Локальные контексты заменяют позиционирование. Таким образом, данный метод моделирования является альтернативой методу весовых матриц.

Некоторые сайты связывания имеют несколько консервативных (коровых) районов с варьирующим расстоянием между ними. Для выявления коровых районов в невыровненных, но фазированных относительно экспериментально известного участка связывания, последовательностях ДНК были построены профили соответствия древовидной контекстной модели сайта. Заметим, что для некоторых типов сайтов – MyoD, HMG, YY1 (Yin Yang) наблюдаются удаленные от центра локальные минимумы, что говорит близком расположении групп таких сайтов в регуляторных районах (кластеризации). Эти же сайты имеют несколько пиков сложности текста (по Лемпелю-Зиву), что подтверждает существование нескольких коровых районов.

На рисунке представлены профили соответствия модели соответствующего корового района для нуклеотидных последовательностей, содержащих ССТФ COUP, MyoD, Myogenin.

Рис.3 Профиль распознающей функции корового района с помощью контекстной модели для нуклеотидных последовательностей, содержащих сайтов связывания ТФ COUP, MyoD, Myogenin. Последовательности фазированы относительно центра сайта.

Из рисунка видно наличие нескольких минимумов в центре фазированной последовательности (стрелки), что соответствует двум коровым районам сайта.

Орлов Ю.Л.