§ 68. Задача анализа регуляторных районов ДНК

Технологии извлечения знаний и Knowledge Discovery зарекомендовали себя действенными рабочими  инструментами  решения различных комплексных задач в биологии, включая исследование ДНК. Методики   извлечения  знаний,  и других компьютерных подходов машинному обучению (Machine Learning) были активно использованы в биоинформатике [113130], для анализа баз данных. Системы извлечения знаний, основанные на логике первого порядка, – особый класс технологий извлечения знаний с большими выразительными возможностями для представления комплексных паттернов.

Данная работа показывает реализацию логических технологий в обнаружении закономерностей в таблицах контекстных характеристик последовательностей ДНК, вовлеченных в регуляцию транскрипции. Наша цель – найти закономерности, которые устанавливают взаимосвязь между нуклеотидными последовательностями и функциональным классом этих последовательностей. Поиск закономерностей выполнен в программной системой Gene Discovery, которая является адаптацией системы Discovery применительно к задачам анализа генетических последовательностей. Система Gene Discovery дает общий  сценарий функциональной аннотации произвольной нуклеотидной последовательности. Эта система берет молекулярно-генетические данные из базы данных, используя SQL-запросы. Последовательности не гомологичных генных промотеров, выделенных из базы данных TRRD, были проанализированы с использованием этой системы.  Были обнаружены закономерности, связывающие контекстные характеристики нуклеотидных последовательностей ДНК и их положение, соответствующее началу транскрипции, с функциональным классом. Наш подход, основанный на реляционном подходе к извлечению знаний, обнаруживает олигонуклеотидные паттерны, описывающие некоторый функциональный класс генов.

Как и с любой технологией, основанной на логических правилах, этот метод позволяет получать удобные для восприятия человеком правила прогноза, которые легко интерпретируются в биологическом языке. Обнаружение закономерностей имеет две  стороны: 1) обнаружение правил и 2) обнаружение признаков промотерных районов  и запись их как функциональную  аннотацию генов. Биолог может оценить как правильность предсказаний при аннотации, так и сами правила. Мы применили систему Gene Discovery [3233; 35; 38114119121; 155156] для функциональной аннотации регуляторных районов. Система обнаруживает статистически значимые правила в логике первого порядка для решения этой проблемы.

Анализ регуляционных районов генов очень важен для понимания молекулярных механизмов транскрипции. Регуляторные последовательности составляют небольшую долю, грубо говоря 95 % генома млекопитающих, которые не кодируют белки, но они определяют уровень, локализацию и хронологию экспрессии  генов [110]. Вопреки важности этих некодирующих последовательностей в генной регуляции, наша возможность идентифицировать и предсказать функции для этой категории ДНК сильно ограничена.

Контроль экспрессии генов у эукариот первично определяется относительно короткими последовательностями (сигналами / мотивами) в области промотера гена. Эти последовательности варьируются в длине, позиции, обилии, ориентации в цепи ДНК. Промотеры эукариот характеризуются отсутствием точной локализации контекстных сигналов и их слабостью [105]. Разнообразие промотеров – основная сложность  в разработке программ распознавания.

Существование консенсуса для многих известных транскрипционных факторов использовалась для построения базы данных, в которой могут быть найдены интересующие потенциальные транскрипционные факторы (transcription factor binding sites (TFBS)), скрепляющие участки в последовательностях ДНК [115116161]. Тем не менее нужные участки данных были получены, хотя идентификация таких участков до сих пор представляет собой большие трудности. Мы ссылаемся на некоторое количество программ, прогнозирующих участки, как на первый шаг по извлечению знаний в структуре промотера [139; 140160; 161]. Вопреки факту, что некоторые транскрипционные факторы связываются с высокоспецифичными последовательностями ДНК, большинство имеют небольшое количество неизменных коровых последовательностей (около 4–6 bp), окруженных варьирующим количеством нуклеотидов.

Мы разрешаем эту проблему, используя несколько методов:

1) использованием специализированных баз данных, таких как TRRD и её секций [115116];

2) комбинированием различных статистических программ прогнозирования;

3) оцениванием статистически определенных олигонуклеотидов, как потенциальных TFBS [160].

TFBS или потенциальные сайты служат входной таблицей характеристик с точки зрения методов извлечения знаний. Компьютерное обнаружение областей регуляции генов является значительным вкладом в дополнение к новым экспериментальным подходам.

Основой для использования программных систем является обучающая выборка нуклеотидных последовательностей промотеров. Трудно описать все эукариотичные последовательности промотера с помощью некоторого паттерна из-за огромной изменчивости различных TFBS. Чтобы преодолеть эту трудность, множества промотеров генов, выполняющих схожую функцию, были извлечены из базы данных TRRD. Однако даже такие функциональные наборы не имеют единственной олигонуклеотидной модели, описывающей все последовательности. Отличительная особенность алгоритма – использование специфических паттернов свойств, которые описывают подгруппу обучающего набора.

Наша задача состоит в том, чтобы развить новый подход прогнозирования промотеров относящийся к проблеме комбинаторного регулирования транскрипции, основанный на отобранных паттернах транскрипционных факторах.

Главная цель этого исследования состоит в том, чтобы осуществить функциональную аннотацию генов, используя ряд интегрированных методов распознавания регуляторных элементов и сайтов связывания транскрипционных факторов.

Анализ последовательности имеет несколько стадий:            

1)  осуществление компьютерного обнаружения потенциальных сайтов связывания транскрипционных факторов в интересующей последовательности и маркировка их местоположения;

2)  определение является данная область  гена регуляторной или структурной (например, промотер, 5'UTR, 3'UTR, кодирующая последовательность, энхансеры) на основании спрогнозированных сайтов связывания транскрипционных факторов;

3)  сравнение спрогнозированных структурных или функциональных областей с подобными областями на других генах (используя информацию, накопленную в имеющихся базах данных);

4)  осуществление функциональной аннотации генной последовательности.

Трудно описать все эукариотические последовательности промотера обычной моделью из-за разнообразия факторов транскрипции, связывающих участки. Чтобы уменьшать такое разнообразие, мы изучили корегулируемые последовательности. Однако даже эти функциональные множества не могли дать олигонуклеотидную модель общую для всех последовательностей. Система Gene Discovery имеет гибкость, чтобы искать структурные модели типичные для целого множества последовательностей и для подмножества последовательностей. Олигонуклеотидные паттерны включают различное количество олигонуклеотидов.

Для построения моделей регуляторных районов использовались различные отношения и операции. Например,  алгоритм использует:

1)  положение олигонуклеотидов относительно начала транскрипции;

2)  взаимное расположение олигонуклеотидов в модели;

3)  ориентация олигонуклеотидов в двойной спирали ДНК.

Несмотря на сложность моделей, та же самая модель может быть обнаружена в негативной нуклеотидной последовательности. Поэтому мы должны учесть вероятностную природу таких моделей. Чтобы решить эту задачу, были сформулированы специальные гипотезы в вероятностной логике первого порядка.