§ 71. Подготовка данных и предварительный отбор сигналов

Обучающая выборка последовательностей нуклеотидов двух альтернативных классов подается на вход системы Gene Discovery. Обучающая выборка состоит из последовательностей промотеров, специфичных для рассматриваемой функциональной системы (класс 1) и случайных последовательностей (класс 2). Это могли быть компьютерно-генерируемые случайные последовательности с теми же самыми частотами нуклеотида или реальными последовательностями соседних областей, не соответствующих этой регулирующей функции, такие как экзоны.

Есть блок программы, который используется для поиска контекстных сигналов в последовательностях этих двух классов (см. рис. 23). Сигналом может быть:

1) контекст (определенное пользователем короткое нуклеотидное слово (олигонуклеотид) или функциональный сайт, представленный в специализированной базе данных молекулярной биологии TRRD);

2) участок с конформационными или физико-химическими признаками (такими как углы поворота, повышения, температура растворения ДНК, и т. д.);

3) структурный элемент (Z-ДНК, шпилька РНК).

Все эти сигналы могут быть распознаны, используя знания о свойствах ДНК и схемах консенсуса, основанные на экспериментальных данных, хранящихся в специализированных базах данных. Здесь мы покажем возможности подхода для решения двух задач:

  анализ промотеров и распознавание, с использованием олигонуклеотидов в качестве сигналов;

  распознавание донорных сайтов связывания, с использованием отдельных нуклеотидов.

Последовательности промотеров были извлечены из TRRD и разделялись на несколько групп согласно специфике регулирования транскрипции (промоторы эндокринной системы, липидной системы, системы ответа на тепловой шок, интерферона, глюкокортикоидной системы и системы клеточного цикла). Рассмотрим анализ последовательностей промотера эндокринной системы. Выборка содержала 40 последовательностей длиной по 120 bp (от-100 bp до +20 bp относительно старта транскрипции). Уровень гомологии между любой парой последовательности не превышал 60 %.

Программа АРГО была использована для выбора олигонуклеотидов длины 8 bp в 15-буквенном коде IUPAC для нуклеотидов. Отобранные олигонуклеотиды были расположены и представлены в таблице «признак объекта» для подачи на вход системы Gene Discovery. В  этой таблице последовательности ДНК называются объектами, а признаки показывают присутствие сигналов контекста и их местоположение относительно старта транскрипции. Эта таблица содержит несколько тысяч последовательностей.

Она содержит последовательности контекстных сигналов Si и их позиции в области промотера, обозначаемые предикатом Позиция(Si). Например для первого промотера в анализируемой обучающей выборке S1 = TGACCAAT, Позиция(S1) = -67, S2 = RCCAATND, Позиция(S2) = -65, и т. д. Предсказываемым свойством было: «Принадлежит ли последовательность классу промотеров». Программа может использовать любое множество последовательностей в формате FASTA на входе. Выборка функционального класса может быть извлечена из TRRD, TRANSFAC [161], EpoDB.

Точно так же другие функциональные классы промотеров были извлечены из базы данных TRRD и проанализированы, включая эритроид-срецифичные промотеры, промоторы клеточного цикла, липидного метаболизма.


На рис. 25 представлен пользовательский интерфейс программной системы Gene Discovery. Здесь показан пример поиска закономерности для образца эндокринных генных промотеров. Закономерности имеют форму  IF-THEN-гипотезы. Условие «IF ANANANCA = 1 and GWAKAWAW = 1» означает, что олигонуклеотиды ANANANCA и GWAKAWAW должны присутствовать в последовательности при анализе. Заключение «THEN Class = 1» означает, что последовательность принадлежит к классу эндокринных генных промотеров. На рис. 25 приведены примеры обнаруженных гипотез в виде паттерна олигонуклеотидов, без фиксированного местоположения олигонуклеотидов в последовательности.