§ 45. Программная система извлечения знаний «Discovery»

Программная система Discovery реализует семантический вероятностный вывод и обнаруживает перечисленные в предыдущем параграфе в п.5 а–c множества законов, вероятностных законов, сильнейших вероятностных законов и максимально специфических правил на данных. Естественно, что на данных нам не известны вероятности и их необходимо оценивать по данным. Способ оценки и используемый статистический критерий приведены далее в § 46.

Система Discovery позволяет реализовать стратегию направленного и все более детального анализа эмпирического содержания данных, задавая последовательно уточняющиеся параметрические семейства формул (1) [1819303136; 127; 131]. Эта стратегия согласуется с теорией измерений, показывающей, что шкалы величин упорядочены в соответствии с богатством информации, содержащейся в значениях величин – от шкалы наименований и шкалы порядка к шкале интервалов, отношений и абсолютной шкале.

В соответствии с этой стратегией сначала следует провести грубую обработку данных в шкале наименований. Имеющиеся числовые значения следует разбить на интервалы, которые можно задавать параметрами. Затем следует найти все закономерности в шкале порядка и наименований. После такой обработки все признаковое пространство разобьется на области, выделяемые именами или интервалами, внутри которых будет иметь место монотонная зависимость в шкале порядка между некоторыми признаками.

Более точный анализ вида зависимости должен проводиться за счет информации, содержащейся в более сильных шкалах, используя соответствующие этим шкалам отношения и операции. Для этого следует проверить выполнимость известных систем аксиом теории измерений на обнаруженных участках монотонности. Это можно сделать системой Discovery, проверяя выполнимость заложенных в ней систем аксиом теории измерений. Если какая-либо система аксиом выполнена, то это позволяет определить вид функциональной зависимости и адекватные решаемой задаче шкалы величин.