Множества
гипотез H1–H4 протестированы системой Discovery на обучающем множестве TR = {a1, ..., atr}
путем случайного выбора пар объектов a, b
из TR. Результатом обучения являлось множество Law всех возможных вероятностных законов, найденных на TR. Для каждого из этих вероятностных законов была посчитана его условной
вероятностью на TR.
Чтобы
проверить устойчивость закона при переходе к контролю оценивалась его условная
вероятность на контрольном множестве CT. Тем не менее, мы не
использовали эти условные вероятности для определения предпочтения закона при
прогнозе.
Примеры обнаруженных законов. Рассмотрим три примера законов с относительно
высокими условными вероятностями на обучающем TR и контрольном
множестве CT:
Пример 1.
[wd(a) = wd(b) = á2, 3, 4, 5, 1ñ)&()13(a)#)13(b)]&[)15(a)>)15(b)] & [)234(a) # )234(b)] & [)245(a) > )245(b)] Þ цель(a5) # цель(b5).
Для
этого правила, частота на обучении TR была равна 0.64, а на контроле CT 0.76.
Этот «закон» может быть сформулирован на финансовом языке (27). Это утверждение верно только статистически. Оно
означает, что приблизительно для
70 % тех случаев, мы нашли верхнюю границу для целевого значения,
которое равно целевому значению понедельника из предыстории.
Мы
опускаем лингвистическое описание последующих двух примеров.
Пример 2.
wd(a) = wd(b) = á2, 3, 4, 5, 1ñ)&()24(a) # )24(b))&()145(a) # )145(b))& ()234(a) > )234(b))&()235(a) # )235(b)) Þ (цель(a5) > цель(b5));
Это
правило имеет частоту 0.63 на TR и 0.66 на CT.
Пример 3.
(wd(a)
= wd(b) = á2, 3, 4, 5, 1ñ)&()25(a) # )25(b))&()45(a) > )45(b))&()124(a) > )124(b)) Þ (цель(a5)
> цель(b5));
В общей сложности было обнаружено 134 законов, позволяющие предсказывать целевое значение по индексу
SP500C.
Процесс
обнаружения правил заканчивается, когда нет уже правил с более высокой условной вероятностью и статистической значимостью.
Это ограничение основано на объеме имеющихся данных и приемлемом уровне
условной вероятности и значимости.
Среднее
значение условных вероятностей закономерностей на обучении равна
0.5813, а значение условных вероятностей закономерностей на контроле CT равно
0.5759. Все условные вероятности оценивались как относительные частоты на TR, и
CT соответственно как это принято в машинном обучении.
На
первый взгляд, 58 % является обескураживающим. Однако, эта точность
статистически значима. Можно достигнуть намного большей условной вероятности,
но она будет статистически незначимой и даст очень низкие значения на
контрольных данных. Это называется переобучением, что является известной проблемой для нейронных
сетей, часто получающих незначимую, но высокую оценку.
В нашем
случае условная вероятность достаточно
устойчива при переходе от обучающих к
контрольным данным. Полученная разность равна 0.0054 = 0.5813-0.5759,
т. е., 0.54 %. Однако, это различие имеет вариации. Типичное
различие не больше чем ±3 % (53 закономерности, 40 %).
Но есть закономерности со значительно более высокими различиями. Это указывает
на то, что некоторые закономерности стали сильнее, а некоторые слабее в
финансовых временных рядах за последние два года. Иногда частоты, снижаются до
50 %. Это может означать изменение состояния рынка, деловой стратегии
интересующей компании, поведения акционеров или даже то, что закономерности
стали известны, и люди использовали их. Таким образом, есть три типа
закономерностей:
1) закономерности / правила
со схожим поведением на обучении и контроле. Диапазон в различии частот
±3 % (53 закономерности, 40 %) с 0.14 % средним уменьшением
частот;
2) закономерности / правила
с увеличивающимся качеством на контрольных данных. Частота увеличилась в 38
закономерностях (28 %) с 5.8 % средним увеличением частот;
3) закономерности / правила
с уменьшающимся качеством на контрольных данных. Частота уменьшилась в 43
закономерностях (32 %) с 6.6 % средним уменьшением частот.
Эти
данные показывают, что большая часть
закономерностей (40 % + 22 % = 68 %) из 134 ведет себя на контрольных данных
так же или лучше, чем большинство закономерностей на обучающих данных. Поэтому,
прогноз может базироваться только на закономерностях с максимальным качеством
на TR. Другие правила могут игнорироваться.