§ 6. Применения реляционного подхода к извлечению знаний из данных в финансовом прогнозировании, медицине и биоинформатике

 

Изложенные в главах 4–6 приложения реляционного подхода к решению различных задач следует общей схеме подхода:

I.                    Определить для используемых типов данных отношения и операции и преобразовать данные в многосортные эмпирические системы:

1)      в финансовых приложениях используются следующие функции и отношения определяемые для временного ряда (см. главу 4):

a)                  первая разность –

    Эта функция представляет собой разность между SP500C для i-х и jх дней, нормализованных относительно SP500C для i-го дня,

b)                 разность между двумя относительными разностями –  Dijk(at) = Djk(at) - Dij(at),

c)                  функция wd(a) отображающая пять календарных дней в числа. wd(a) = á1, 2, 3, 4, 5ñ означает, что a представляет собой пять последовательных дней недели с понедельника по пятницу,

d)                 Отношение роста / падения цены с определенного дня недели по другой определенный день недели (см. главу 4);

2)      в приложениях по разработке диагностической системы рака груди использовались различные признаки определенные экспертом. Они включали в себя количественные, ранговые, номинальные и Булевы признаки;

3)      в приложениях в биоинформатике использовались следующие операции и отношения, определяемые для первичных сигналов (см. главу 6):

a)                  положение олигонуклеотидов относительно начала транскрипции;

b)                 взаимное расположение олигонуклеотидов в модели,

c)                  ориентация олигонуклеотидов в двойной спирали ДНК,

d)                 кроме того, сами сигналы могут быть достаточно разнообразны.

II.                 Используя найденные отношения и операции, определить класс гипотез Rule Type в языке первого порядка для решения рассматриваемой прикладной задачи:

1)       в финансах использовались следующие классы гипотез в терминах определенных отношений и операций:

a)                   множество гипотез H1 – (wd(a) = wd(b) = ád1, ..., d5ñ)&()(a)#)(b))g1Þ ((цель(a5) # цель(b5))g0,

b)                 множество гипотез H2 – [wd(a) = wd(b) = ád1, ..., d5ñ] & [)(a) # )(b)]g1&[)(a) # )(b)]g2 Þ [цель(a5) # цель(b5)]g0,

c)                  множество гипотез H3 – [wd(a) = wd(b) = ád1, ..., d5ñ]&[)(a)#)(b)]g1 & [)(a)#)(b)]g2&[)(a)# )(b)]g3 Þ [цель(a5) # цель(b5)]g0.,

d)                 Множество гипотез H4 – [wd(a) = wd(b) = á d1, ..., d5ñ]&[)(a) # )(b)]g1& ... & [()(a) # )(b)]gk Þ [цель(a5) # цель(b5)]g0,

e)                  кроме того использовались структурные гипотезы (см. главу 4);

2)      в приложениях по разработке диагностической системы рака груди обнаруживались гипотезы вида (1), содержащие разнообразные признаки определенные экспертом;

3)      в приложениях в биоинформатике обнаруживались так называемые комплексные сигналы вида (см. главу 6):

(S1,… Si-1,Si) = (Позиция(S1) < … < Позиция(Si-1) < Позиция(Si)), i = 1,2, ... .

III.              В результате проделанных экспериментов получены следующие выводы относительно применимости реляционного подхода в различных предметных областях:

1)       применение в финансах показало:

a)                  система Discovery в состоянии обнаруживать закономерности в таких сильно зашумленных данных как финансовые ряды;

b)                 прогнозировать такие сложные данные как курсы акций и индексы, используя необычные отношения и операции;

c)                  получаемые правила интерпретируемы в финансовых терминах, что очень важно для таких ответственных областей, как финансы. Финансист с большим доверием будет вкладывать деньги, если он будет понимать используемые правила;

d)                 Многие люди за рубежом держат деньги в акциях и многие играют на них, используя самые разнообразные правила и индексы. Проверить же свои правила автоматически они не могут, так как нет методов, которые бы позволяли бы записывать и проверять разнообразные гипотезы. Опыт применения системы Discovery в финансах показал, что эта система может, в принципе, решить эту задачу;

2)      применение в медицине показало, что можно извлечь из данных и эксперта совместное множество знаний для медицинской диагностической системы рака груди. Согласованная база знаний лишена противоречий между правилами, полученными системой Discovery, правилами, используемыми опытным радиологом, и базой данных патологически подтвержденных случаев;

3)       Применение реляционного подхода в биоинформатике показало, что система Discovery может быть успешно использована для решения одной из сложнейших задач биоинформатики – анализа регуляторных районов генов. В отличие от других методов, система Discovery может быть применена иерархически к анализу различных уровней анализа генов.