§ 6.
Применения
реляционного
подхода к
извлечению
знаний
из данных в
финансовом
прогнозировании,
медицине и
биоинформатике
Изложенные
в главах 4–6
приложения
реляционного
подхода к
решению
различных
задач следует
общей схеме
подхода:
I.
Определить
для используемых
типов данных
отношения и
операции и
преобразовать
данные в
многосортные
эмпирические
системы:
1)
в
финансовых
приложениях
используются
следующие
функции и
отношения
определяемые
для
временного
ряда (см.
главу 4):
a)
первая
разность –
Эта
функция представляет
собой
разность
между SP500C для i-х
и j−х
дней,
нормализованных
относительно
SP500C для i-го дня,
b)
разность
между двумя
относительными
разностями
– Dijk(at) = Djk(at) - Dij(at),
c)
функция
wd(a)
отображающая
пять
календарных
дней в числа. wd(a) = á1, 2, 3, 4, 5ñ означает,
что a
представляет
собой пять
последовательных
дней недели с
понедельника
по пятницу,
d)
Отношение
роста / падения
цены с
определенного
дня недели по
другой
определенный
день недели
(см. главу 4);
2)
в
приложениях
по
разработке
диагностической
системы рака
груди
использовались
различные
признаки
определенные
экспертом.
Они включали
в себя
количественные,
ранговые,
номинальные
и Булевы
признаки;
3)
в
приложениях
в
биоинформатике
использовались
следующие
операции и
отношения, определяемые
для первичных
сигналов (см.
главу 6):
a)
положение
олигонуклеотидов
относительно
начала
транскрипции;
b)
взаимное
расположение
олигонуклеотидов
в модели,
c)
ориентация
олигонуклеотидов
в двойной спирали
ДНК,
d)
кроме
того, сами
сигналы
могут быть
достаточно
разнообразны.
II.
Используя
найденные
отношения и
операции,
определить
класс
гипотез Rule Type
в языке
первого
порядка для
решения
рассматриваемой
прикладной
задачи:
1)
в
финансах
использовались
следующие
классы
гипотез в
терминах
определенных
отношений и
операций:
a)
множество
гипотез H1 – (wd(a) = wd(b) = ád1,
..., d5ñ)&()(a)#)(b))g1Þ
((цель(a5)
#
цель(b5))g0,
b)
множество
гипотез H2 – [wd(a) = wd(b) = ád1, ..., d5ñ] & [)(a) # )(b)]g1&[)(a) # )(b)]g2
Þ
[цель(a5)
#
цель(b5)]g0,
c)
множество
гипотез H3 – [wd(a) = wd(b) = ád1, ..., d5ñ]&[)(a)#)(b)]g1 & [)(a)#)(b)]g2&[)(a)# )(b)]g3 Þ
[цель(a5) # цель(b5)]g0.,
d)
Множество
гипотез H4 – [wd(a) = wd(b) = á d1, ..., d5ñ]&[)(a) # )(b)]g1&
... & [()(a) # )(b)]gk Þ [цель(a5) # цель(b5)]g0,
e)
кроме
того
использовались
структурные
гипотезы (см.
главу 4);
2)
в
приложениях
по
разработке
диагностической
системы рака
груди
обнаруживались
гипотезы
вида (1),
содержащие
разнообразные
признаки
определенные
экспертом;
3)
в
приложениях
в
биоинформатике
обнаруживались
так
называемые
комплексные
сигналы вида
(см. главу 6):
(S1,…
Si-1,Si) = (Позиция(S1) < … <
Позиция(Si-1) <
Позиция(Si)),
i = 1,2, ... .
III.
В
результате
проделанных
экспериментов
получены
следующие
выводы
относительно
применимости
реляционного
подхода в различных
предметных
областях:
1)
применение
в финансах показало:
a)
система
Discovery в
состоянии
обнаруживать
закономерности
в таких
сильно
зашумленных
данных как
финансовые
ряды;
b)
прогнозировать
такие
сложные
данные как курсы
акций и
индексы,
используя
необычные
отношения и
операции;
c)
получаемые
правила
интерпретируемы
в финансовых
терминах, что
очень важно
для таких
ответственных
областей, как
финансы.
Финансист с
большим
доверием
будет
вкладывать
деньги, если
он будет
понимать
используемые
правила;
d)
Многие
люди за
рубежом
держат
деньги в акциях
и многие
играют на них,
используя
самые
разнообразные
правила и
индексы.
Проверить же
свои правила
автоматически
они не могут,
так как нет
методов,
которые бы
позволяли бы
записывать и
проверять
разнообразные
гипотезы.
Опыт применения
системы Discovery
в финансах
показал, что
эта система
может, в
принципе,
решить эту задачу;
2)
применение
в медицине
показало, что
можно извлечь
из данных и
эксперта
совместное множество
знаний для
медицинской
диагностической
системы рака
груди.
Согласованная
база знаний
лишена
противоречий
между правилами,
полученными
системой Discovery,
правилами,
используемыми
опытным
радиологом, и
базой данных
патологически
подтвержденных
случаев;
3)
Применение
реляционного
подхода в
биоинформатике
показало, что
система Discovery
может быть
успешно
использована
для решения
одной из
сложнейших
задач биоинформатики
– анализа
регуляторных
районов
генов. В
отличие от
других
методов,
система Discovery
может быть
применена
иерархически
к анализу
различных
уровней
анализа
генов.