§ 72. Анализ найденных комплексных сигналов

Большое число закономерностей о совместной встречаемости контекстных сигналов в областях промотера, было найдено в результате применения системы Gene Discovery. Число закономерностей зависит от определенных пользователем параметров поиска. Если мы определим низкий уровень условной вероятности, то число обнаруженных правил будет слишком велико (до нескольких тысяч). Это сложная задача для эксперта проинтерпретировать такое число правил. Также мы можем потребовать высокий уровень условной вероятности, например, больше чем 0.95. Тогда число правил будет небольшим, но существенным с биологической точки зрения.

Найденные закономерности могут быть проанализированы экспертом по молекулярной биологии как уникальные комплексные сигналы, существенные для надлежащего функционирования промотера. Рассмотрим отобранные правила одновременного присутствия олигонуклеотидов в промотере, как комплексные сигналы. Следующие дополнительные условия использовались для интерпретации комплексных сигналов:

  олигонуклеотиды в комплексном сигнале не перекрываются в последовательностях промотеров;

  наблюдаемое число N промотеров, обладающих комплексным сигналом, больше чем ожидаемое число N*, N > N*.

Ожидаемое число N* оценивалось как произведение частот олигонуклеотидов в промотере, умноженное на общие количество промотеров и разделённое на число вариантов взаимного расположения. Например, ожидаемое число промотеров N*, обладающих комплексным сигналом (S1S2S3 Pos(S1) < Pos(S2) < Pos(S3)) равно

N* = P(S1)P(S2)P(S3)M / 6,                                                    (1)

где N* – ожидаемое число промоторов, обладающих олигонуклеотидами  S1S2S3; P(S1), P(S2), P(S3) – частоты олигонуклеотидов  S1S2 и S3, соответственно; М – общее количество промотеров в проанализированном образце; 6 = 3! – число возможных вариантов взаимного расположения трех олигонуклеотидов в последовательности.

 

Таблица 10. Примеры комплексных сигналов в промотерах эндокринной системы

 

 

 

 

 

Комплексные сигналы (закономерности)1

Условные вероят­ности сигналов2

Значение  критерия Фишера3

Число про­мо­­те­ров, обла­­да­­ю­­щих сигналом4

Число про­мо­­­те­ров ожи­да­­емых по слу­ча­й­ным причи­нам5

1

CWGNRGCN<NGSYMTAM<CAGGRNCH

0.875

0.00054

4

0.24 (<1)

2

KGRSSAGR<CYCYNSCY<CWGSNYCH

1.0

0.00012

4

0.28 (<1)

3

CWGNRGCN<NGSYMTAM<MAGKSHCN

1.0

0.00009

6

0.47 (<1)

4

CWGNRGCN<NGSYMTAM<CMDGGNCH

0.846

0.00099

5

0.43 (<1)

5

CNKSAGNT<NCARGRNC<HNNKGCTG

1.0

0.01426

4

0.37 (<1)

6

RNWGGCCN<DGRGNRGG<TCMAGNMN

0.875

0.00118

4

0.4 (<1)

7

RGSNRGRG<NNGSTWTA<CNCNRKGC

1.0

0.02852

5

0.53 (<1)

8

NNGSTWTA<NMAGDGMC<CNCNRKGC

0.875

0.04755

5

0.53 (<1)

9

RGSNRGRG<NNGSTWTA<CMDGGNCH

1.0

0.03964

5

0.55 (<1)

10

RGSNRGRG<KGGNSAGD<ANCTSMNG

1.0

0.03964

4

0.45 (<1)

...

...

...

...

...

...

45

RGSNRGRG<NGSYMTAM<CNCNRKGC

1.0

0.03964

5

0.58 (<1)

 

Примечание. Данные в таблице приведены не полностью, промежутки обозначены  точками.

1 – комплексные сигналы, представленны как олигонуклеотиды в 15-буквенном коде IUPAC. Знак < означает отношение между позициями олигонуклеотидов относительно старта транскрипции. Промежутки между соседними позициями олигонуклеотидов не определяются;

2 – условная вероятность PC(N1,N2) была вычислена как коэффициент числа промотеров, обладающих сигналом, к общему количеству промотеров;

3 – вероятность получения в условиях независимости признаков данного числа совместной встречи сигналов.

Это значение вычисляется точным критерием независимости Фишера для таблиц сопряженности признаков;

4 – число промотеров, обладающих сигналом;

5 – ожидаемое число промотеров, обладающих комплексным сигналом.

 

Примеры таких комплексных контекстных сигналов для промотеров эндокринной системы представлены в таблице (таблица 10).

Рассмотрим сигнал CWGNRGCN < NGSYMTAM < MAGKSHCN. Символ « < » означает, что позиции соответствующих олигонуклеотидов упорядочены относительно старта транскрипции.

Ожидаемое случайное число N* для этого сигнала – 0.47 (т.е. меньше 1). Но сигнал присутствует в 6 промотерах; это приблизительно в 13 раз больше чем ожидаемое число (см. таблица 10).


На рис. 26 показана схематическая локализация сложного сигнала CWGNRGCN < NGSYMTAM < MAGKSHCN в генах промотеров эндокринной системы. Позиции первых и последних нуклеотидов ТАТА-бокса отмечены наклонными цифрами. Интересно, что только один олигонуклеотид в комплексном сигнале соответствует аннотируемому участку. Другие олигонуклеотиды могли соответствовать сайтам связывания транскрипционных факторов или областям с определенными физико-химическими свойствами двухниточной ДНК. Последовательности промотеров выровнены относительно старта транскрипции (позиция +1 bp), обозначенной стрелками. Идентификаторы изученных промотеров EMBL даются в круглых скобках. Олигонуклеотидные мотивы с восьмью bp, составляющие сложный сигнал, показаны как заштрихованные прямоугольники; позиции первых нуклеотидов обозначены относительно начала транскрипции. Черные прямоугольники отмечают экспериментально определенные позиции TATA-бокса, обозначенной в базе данных TRRD.

Сигнал, представленный на рис. 26, найден в 6 промоторах (EMBL ID: M26856, M73820, U02293, J00749, J03071, K01877 соответственно). Этот комплексный сигнал расположен в области от -95 bp до +7 bp относительно старта транскрипции. Позиция каждого олигонуклеотида отмечена как позиция первого нуклеотида. Можно увидеть совпадение второго мотива олигонуклеотида с областью TATA-бокса. Видна схожесть расстояний между первым и вторым и между вторыми и третьими олигонуклеотидами.


Рис. 27 показывает пример локализации комплексного сигнала DNMYTTSA < DNYAADGG < RCAGMMDY в восьми последовательностях промотера эритроид-специфичных генов. В этом случае также можно увидеть характерные расстояния между олигонуклеотидами в комплексном сигнале. Последовательности промотеров выстроены в линию относительно начала транскрипции (позиция +1 bp ) и обозначены стрелками. Идентификаторы промотеров даются в круглых скобках слева. Олигонуклеотидные мотивы с восьмью bp, составляющие комплексный сигнал, отмечены черными прямоугольниками; позиции первых нуклеотидов обозначены относительно начала транскрипции.

Система Gene Discovery была применена для донорных сайтов связывания генов приматов. Выборка содержал 2 343 участка, каждый из которых содержал позиции от -11 до +10 относительно объединения интрона и экзона. Отдельные нуклеотидные основания использовались как сигналы в последовательности. Закономерности, полученные для сайтов сплайсинга, содержали подпоследовательности оснований. Эти закономерности разрешают разделить сайты сплайсинга от случайных последовательностей.

Табл. 10 содержит примеры найденных сигналов. Комплексные сигналы представлены как подпоследовательности нуклеотидов. Знак « < » обозначает отношение между позициями соответствующих нуклеотидов.

 

Таблица 11. Примеры комплексных сигналов для донорных сайтов сплайсинга

 

Комплексный сигнал

Длина сигнала

Значение

Число участ­ков со­дер­­­жа­щих сигнал*

1

a<t

2

7.221685e-003

6011

2

a<g

2

4.549541e-002

7469

3

t<c<c<c<a

5

2.242927e-002

2467

4

c<a<c<a<t<t

6

1.886203e-002

770

5

c<c<a<c<a<a

6

2.004277e-002

726

6

t<c<c<a<c<a

6

1.602915e-002

902

7

g<c<c<a<c<a

6

1.644068e-002

880

8

g<c<a<c<a<g

6

2.211978e-002

696

9

a<c<a<c<a<t<t

7

2.358411e-002

304

...

...

 

...

...

1918

c<g<c<a<c<a<a

7

2.196624e-002

331

 

Примечание:* сигнал (особенно короткий) может быть представлен в последовательности не один раз.


Рис. 28 показывает местоположение сигнала g<c<a<c<a<g (№ 8 в табл. 10) на сайте сплайсинга.