§ 69. Gene Discovery как технология извлечения знаний из ДНК

Рис. 23

 


Программная система Gene Discovery была разработана для анализа структурной организации эукариотических промотеров. Эта система является адаптацией  системы Discovery [9; 33121] применительно к задачам анализа генетических последовательностей. Дружественный графический пользовательский интерфейс помогает пользователю работать с этим программным обеспечением.

Система Gene Discovery состоит из трех главных модулей:

1) модуля представления  в диалоговом режиме контекстных сигналов  последовательностей ДНК в форме таблицы;

2) модуль обнаружения закономерностей;

3) модуль распознавания классов последовательностей.

На рис. 23 показана схема системы Gene Discovery. Модуль извлечения знаний системы «Discovery» представлен блоком «Поиск паттернов совместного присутствия и относительной локализации контекстных сигналов (Search for patterns of the joint presence and relative localization of contextual signals

Модуль распознавания показан на рис. 23 как «Обнаружение регуляторного района в неизвестной последовательности использованием найденных паттернов (Discovery of a regulatory region in unknown sequence by using patterns found)». Другие модули системы служат для подготовки и интерпретации молекулярно-генетических данных.

Рассмотрим пример олигонуклеотидного мотива в 15-буквенном алфавите – CWGNRGCN. Этот мотив можно переписать в 4-буквенной записи как  C(A / T)G(A / T / G / C)(A / G)GC(A / T / G / C). Этот мотив длины 8bp получен программой АРГО как специфический для рассматриваемого множества промотеров [91]. Комплексное правило, обнаруживаемое системой Gene Discovery использует несколько таких мотивов. Рассмотрим пример прогностического правила:

ЕСЛИ    CWGNRGCN < NGSYMTAM < MAGKSHCN,

ТО:        промотер.

Символ « < » означает, что позиции соответствующих олигонуклеотидов упорядочены относительно старта транскрипции.

Это правило означает: если мотивы, CWGNRGCN и NGSYMTAM, и MAGKSHCN присутствуют в анализируемой последовательности и их взаимное расположение соответствует порядку в правиле, то эта последовательность содержит промотор гена эндокринной системы.

Таким способом были обнаружены все статистически значимые комплексные олигонуклеотидные сигналы вида S1 & S2 & S3 &…& Sk, где k > 1. Программа автоматически определяет сколько и каких сигналов надо включить в паттерн. Олигонуклеотидный паттерн S1 & S2 & S3 & Sk, расположенный относительно старта транскрипции, приведен вверху рис. 24. Ниже показано расположение анализируемых олигонуклеотидов в последовательностях позитивной и негативной выборки.