§ 1.
Методология
познания,
вытекающая
из теории
измерений
В
настоящее
время
интенсивно
развивается
направление Knowledge Discovery in Databases and
Data Mining
(KDD&DM),
основанное
на методах Machine Learning, Artificial Intelligence и Data Analysis.
Давно
назрела
потребность
проанализировать
эти методы с
точки зрения
их связи с процессом
познания. В
результате
анализа мы
естественным
образом
придем к
компьютерному
познанию, основанному
на теории
измерений.
1. Аппроксимационный
подход к
решению
задач анализа
данных. В
методах Machine Learning
неизвестная
зависимость аппроксимируется
некоторым
заданным
априори
классом функций,
моделями,
решающими
правилами и
т. д. В нейронных
сетях это
кусочно-линейные
правила, в
деревьях –
логические
решающие функции,
в регрессионном
анализе –
линейная или
нелинейная
регрессия, в дискриминантном
анализе – дискриминантная
функция, в
распознавании
образов –
решающее
правило, в
методах
классификации
– форма
кластеров.
Какова в
некотором
смысле
«истинная»
зависимость?
Этот вопрос
не ставится и
не может быть
поставлен.
Аппроксимируя
неизвестную
зависимость
с требуемой
степенью
точности и
надежности,
методы Machine Learning
решают, по
существу, задачу
предсказания.
Найденная
аппроксимация
практически
ничего не
говорит об
«истинной» зависимости.
Процесс
аппроксимации
начинается с
переноса
способов
измерения из
точных наук в
другие
области.
Рассмотрим,
например,
такую физическую
величину, как
температура.
Шкалы
температуры
в
нефизических
областях, например
при
измерении
температуры
тела
больного в
медицине,
температуры
почвы в сельском
хозяйстве,
температуры
воздуха в
духовке в
кулинарии и
т. д., должны
быть разные,
хотя
измеряться
они могут
одним и тем же
прибором –
термометром.
Далеко не
всеми понимается
тот факт, что
шкала – это
не только
риски
делений на
приборе, это
набор операций
и отношений,
которые
имеет смысл производить
с числовыми
значениями
величин с
точки зрения
рассматриваемой
предметной
области
(точнее,
операции и
отношения, интерпретируемые
в системе
понятий соответствующей
предметной
области).
Можно
возразить,
что
термометр не
может измерять
ничего, кроме
температуры.
Он действительно
во всех
случаях
измеряет
физическую
температуру.
Но резонно
спросить: а зачем,
собственно,
мы измеряем
температуру? Ведь
не затем,
чтобы согласно
законам
физики
узнать,
сколько в больном
содержится
тепла и
сколько он в
состоянии
растопить
льда, если
его положить
на лед, и не
затем, чтобы
определить
среднюю кинетическую
энергию
молекул
почвы или курицы
в духовке.
Температура,
как и любой
другой
прибор, нужна
для получения
выводов в
системе
понятий той предметной
области, к
которой он
относится.
Для больного
«Температурный
фактор
служит
наиболее
общим и универсальным
регулятором
скорости химических
реакций и
активности
ферментов, с повышением
температуры
в известной
мере
ускоряются и
обменные
процессы».
Для почв
температура
должна
интерпретироваться
в системе
понятий
физиологии
растений и
деятельности
микроорганизмов
и т. д.
Следует
понимать, что
физическая
величина температуры
является
косвенным
измерением
другой
величины,
интерпретируемой
в системе
понятий
предметной
области,
которую мы
именно и
хотим
измерить.
Физическая
температура
больного,
например,
есть
косвенное
измерение
медицинской
величины –
уровня
обмена
веществ,
температура
почвы измеряет
состояние
биохимических
процессов в
растениях и
микроорганизмах,
температура
воздуха в
духовке
измеряет
течение процесса
свертывания белка и
т. д. Какие
отношения и
операции над
числовыми
значениями
температуры
имеют смысл
для всех этих
величин –
определяется
уже этими
интерпретациями.
Поэтому
числовые
значения
величин
нельзя автоматически
переносить
из одной
области знаний
в другую.
После такого
переноса
необходимо
заново
определять
шкалу.
Например, для
температуры
больного
интерпретируемы
выделенные значения
36.7°, 42° и
отношение
линейного
порядка <,
поэтому это
будет шкала
порядка с
выделенными
значениями.
Применение
методов Machine Learning
также
является аппроксимационным.
Перед
обработкой
данные, как
правило, преобразуются
к одному из
известных видов
–
количественному
или
качественному.
Если они
преобразуются
к
количественным
данным (т. е. с
числами
разрешается
производить
любые
математические
операции вне зависимости
от их
интерпретации),
то в них вносится
бессмысленная
информация
(проявляющаяся
в том, что
невозможно
обоснованно
проинтерпретировать
полученные
результаты).
Если данные
преобразуются
в
количественные
за счет
использования
различного
рода (числовых)
моделей или
дополнительных
предположений,
которые не
полностью
интерпретируемы,
то это также
приводит к
невозможности
обоснованно
проинтерпретировать
полученные
результаты.
Если данные
преобразуются
в дискретные,
то это ведет
к потере
информации.
Поэтому не
только
неизвестные
зависимости аппроксимируются
задаваемыми
видами
зависимостей,
но и сами
данные часто
искажаются,
чтобы их обработка
этими
методами
была
возможна.
2. Построение
«истинных»
величин
законов и моделей.
Для того
чтобы
детальнее
разобраться
с такими
понятиями,
как числовые
значения величин,
их
интерпретируемость,
осмысленность
математических
операций с
величинами, «истинная»
зависимость
и т. д.,
необходимо
обратиться к
теории измерений
[68–69; 83, 88–89, 129]. Теория
измерений
основана на
принципе: свойства
определяются
отношениями.
Из теории
измерений
следует, что числовые
значения
величин и
функциональные
выражения
для законов
являются лишь
удобным и
математически
хорошо
разработанным
способом
числового
кодирования
элементов
эмпирических
систем. Например,
число 5 само
по себе
смысла не имеет,
оно
приобретает
смысл лишь
при его интерпретации
в некоторой
эмпирической
системе:
например,
если мы
говорим
В
отличие от аппроксимационного
подхода в
теории
измерений
определяются
в некотором
смысле «истинные» величины
и
зависимости.
Числовые
представления
величин,
получаемые в
теории
измерений,
«истинны» в том
смысле, что
они
интерпретируемы
в системе
понятий
предметной
области и
являются
лишь числовыми
кодами
значений
величины соответствующей
эмпирической
системы. Числовые
представления
законов в
теории измерений
являются
«истинными»
в том смысле,
что они,
во-первых,
интерпретируемы
в системе
понятий
данной
предметной
области и
являются
лишь
числовыми
кодами
взаимосвязи
величин
эмпирической
системы и,
во-вторых,
получаются
одновременно
с числовыми
представлениями
величин (единой
процедурой шкалирования
(см § 11,
§ 14).
В работе [129]
показано: что
физические
законы
просты только
потому, что
они являются
результатом одновременного
шкалирования
всех
входящих в
зависимость
величин так,
чтобы
взаимосвязь
этих величин
выражалась
заданной
(определяемой
системой
аксиом) простой
функциональной
зависимостью.
Следующий
вывод,
который
следует из
теории
измерений,
состоит в
том, что цель
обнаружения
«истинных»
величин и
законов
совсем другая
– познать
предметную
область. Для
ее
достижения
интерпретируемость
данных и
результатов
обработки
данных в
системе
понятий
предметной
области является
необходимым
условием
получения полезного
результата,
вносящего
вклад в теорию
предметной
области. Так
как числа
сами по себе
смысла не
имеют, то
интерпретируемость
данных и
результатов
счета
означает их
интерпретируемость
на
семантическом
уровне в системе
понятий
предметной
области без
использования
чисел.
Поэтому для
целей познания
предметной
области
необходим
способ
представления
данных,
принятый в
теории измерений
– в виде (многосортных)
эмпирических
систем.
Системы
аксиом,
которым
удовлетворяют
эти
эмпирические
системы,
представляют
собой
логическую
эмпирическую
теорию предметной
области.
Системы
аксиом как
логические
высказывания,
очевидно,
интерпретируемы
в системе
понятий
предметной
области. Поэтому
обнаружение
законов
должно
состоять в
обнаружении
систем
аксиом в
языке
первого
порядка на
данных
представленных
(многосортными)
эмпирическими
системами.
Таким
образом, задача
познания
предметной
области сводится
к задаче
усиления (в
логическом смысле)
логической
эмпирической
теории за
счет
обнаружения
аксиом в
логике
первого
порядка.
Числовые
представления
величин и
функциональных
зависимостей
должны
получаться
из
обнаруженных
систем
аксиом в
результате
применения
теории
измерений.
Полученные
шкалы
величин и законы,
связывающие
величины,
дают количественную
теорию
предметной
области (ПО).
Для физики
этот переход
продемонстрирован
в [129].
Показано, как
можно
строить
количественную
теорию предметной
области –
систему
величин,
связанных
между собой
(фундаментальными)
законами.
Таким
образом,
задача
познания
предметной
области, как
она
понимается в
теории измерений,
разбивается
на два этапа:
сначала надо
построить
логическую
эмпирическую
теорию, а затем,
применяя
теорию
измерений,
построить
количественную
теорию
предметной
области.
Такое
разбиение
отражает
естественный
процесс перехода
теории из
качественного
состояния,
представленного
онтологией и
логической
эмпирической
теорией, в количественное.
Теория
измерений и
является
теорией такого
перехода. Для
физики,
например,
этот процесс
протекал
достаточно
долго.
Процесс
построения
эмпирических
теорий
представлен
на рис.
1.