Рис. 23
Программная система Gene
Discovery была разработана для
анализа структурной организации эукариотических промотеров. Эта система является адаптацией системы Discovery [9; 33; 121] применительно к задачам анализа генетических
последовательностей. Дружественный графический пользовательский интерфейс
помогает пользователю работать с этим программным обеспечением.
Система Gene Discovery
состоит из трех главных модулей:
1) модуля представления в диалоговом режиме контекстных сигналов последовательностей ДНК в форме таблицы;
2) модуль обнаружения
закономерностей;
3) модуль распознавания классов
последовательностей.
На рис. 23 показана схема системы Gene
Discovery. Модуль извлечения знаний
системы «Discovery» представлен блоком «Поиск паттернов совместного
присутствия и относительной локализации контекстных сигналов (Search for patterns
of the joint presence and relative localization of contextual signals)»
Модуль распознавания
показан на рис.
23 как «Обнаружение регуляторного района в неизвестной
последовательности использованием найденных паттернов (Discovery of a regulatory
region in unknown sequence by using patterns found)». Другие модули системы служат для подготовки и
интерпретации молекулярно-генетических данных.
Рассмотрим пример олигонуклеотидного мотива в 15-буквенном алфавите –
CWGNRGCN. Этот мотив можно переписать в 4-буквенной записи как C(A / T)G(A / T / G / C)(A / G)GC(A / T / G / C). Этот
мотив длины 8bp
получен программой АРГО как специфический для рассматриваемого множества промотеров [91]. Комплексное правило, обнаруживаемое системой Gene Discovery
использует несколько таких мотивов. Рассмотрим пример прогностического правила:
ЕСЛИ CWGNRGCN < NGSYMTAM < MAGKSHCN,
ТО: промотер.
Символ « < »
означает, что позиции соответствующих олигонуклеотидов упорядочены относительно старта
транскрипции.
Это правило означает: если мотивы,
CWGNRGCN и NGSYMTAM, и MAGKSHCN присутствуют в анализируемой последовательности
и их взаимное расположение соответствует порядку в правиле, то эта
последовательность содержит промотор гена эндокринной системы.
Таким способом были
обнаружены все статистически значимые комплексные олигонуклеотидные
сигналы вида S1 & S2 & S3 &…& Sk, где k > 1. Программа
автоматически определяет сколько и каких сигналов надо
включить в паттерн. Олигонуклеотидный паттерн S1 & S2 & S3 & Sk, расположенный относительно старта транскрипции,
приведен вверху рис.
24. Ниже показано расположение анализируемых олигонуклеотидов в последовательностях позитивной и негативной
выборки.