Анализ
эмпирического
содержания
данных должен
начинаться с
представления
соответствующих
данных в
эмпирических
аксиоматических
теориях.
Покажем,
каким
образом такие
известные типы
данных, как
парные
сравнения,
множественные
сравнения,
матричное
представление
бинарных
отношений,
матрицы
упорядочений,
матрицы
близости и
матрицы
объект–признак,
могут быть
представлены
в эмпирических
аксиоматических
теориях. Эти
типы данных
встречаются
в таких
областях, как
экспертное
оценивание,
социология,
психология,
психофизика,
геология,
медицина,
сельское
хозяйство и
т. д. Все эти
области
характеризуются
тем, что в них
встречаются
признаки и
величины самой
разнообразной
природы.
Данный параграф
преследует
следующие
цели.
1.
Показать, что
эмпирические
аксиоматические
теории
являются
довольно
общим способом
представления
данных. Это
следует из того,
что они
позволяют
представлять
известные
типы данных,
смеси
различных
данных, признаки
и величины,
не имеющие
числового
представления
и данные,
измеренные в
различных
шкалах.
2.
Привести для
каждого типа
данных,
используя
представление
их в
эмпирических
аксиоматических
теориях,
относящиеся
к ним результаты
теории
измерений.
Эти
результаты включают
в себя
системы
аксиом в
языке
первого
порядка и
теоремы
представления
и
единственности,
указывающие,
какие
числовые
представления
для данных
систем
аксиом
существуют.
Применяя
метод
обнаружения
законов к данным,
представленным
в рамках
эмпирических
аксиоматических
теорий, можно
выяснить а
какие на самом
деле системы
аксиом
теории
измерений выполнены
на этих
данных и
построить
соответствующие
им числовые
представления
величин и
законов. По
шкалам
величин
можно определять
группы
допустимых
преобразований,
что позволяет
корректно
применять
методы анализа
данных,
инвариантные
относительно
соответствующих
групп
допустимых
преобразований.
3. Для
каждого типа
данных
привести
основные
существующие
в настоящее
время методы
их обработки.
Рассмотрим
сначала
данные, в которых
многоместные
отношения
возникают естественным
образом в
силу
специфики самого
объекта
исследования.
Как
отмечается в
работах [1; 52; 74; 82],
источником
информации
часто
являются суждения
человека.
Многие
эксперименты
показали, что
человек
более
правильно и с
меньшими
затруднениями
отвечает на
вопросы качественного,
в частности
сравнительного,
характера,
чем количественного.
В различных
дисциплинах
человек
называется
по-разному:
как эксперт в
экспертных
оценках, как
испытуемый в
психологии и
психофизике,
как
респондент в
социологии,
как пациент в
медицине и
т. д.
1. Парные
сравнения.
Результаты,
полученные
по методу
парных сравнений,
можно
представить
в виде четырехмерной
матрицы (xijst) [43; 49; 74; 85], где i, j -
номера
сравниваемых
объектов,
взятых из
некоторого
множества A = {a1, …, am}, s =
1, …, n –
номер
экспертов,
сравнивающих
объекты из A; t = 1, …, rs
– номер
сравнения
(пары
объектов одним
и тем же
экспертом
могут
сравниваться
rs раз).
Обозначим
объект ai,
сравниваемый
экспертом s в
сравнении с
номером t,
через asti.
Тем самым мы
предполагаем,
что сам
объект и
эксперт
могут
изменяться
от сравнения
к сравнению.
Значение xijst =
0(1), если объект asti
предпочтительнее,
чем объект astj.
Методы
парного
сравнения
используются
в социологии
в экспертных
оценках,
психологии и
в других
областях.
Целью этих
методов является
получение
полного
упорядочения
объектов
множества A.
Для
получения
такого
упорядочения
в разных
методах
используются
различные
априорные
предположения,
формализованные
в виде
моделей
парного
сравнения [43; 49]. Этими
моделями и
определяются
области применимости
соответствующих
методов. Определим,
какие
эмпирические
аксиоматические
теории
соответствуют
методам парного
сравнения.
Для методов
парного сравнения
сделаем это
подробно.
Матрицу (xijst)
можно
понимать как
матричную
запись значений
истинности n
бинарных
отношений
предпочтения
P1, …, Pn
соответствующих
предпочтениям
n экспертов: Ps(asti, astj)
Û (xijst
= 1). Кроме
того, у нас
определено
отношение
равенства =
между
объектами.
Равенство asti = astj определено
для объектов asti, astj,
сравниваемых
экспертом s в
сравнении t, и
истинно
тогда и
только тогда,
когда эти
объекты
совпадают.
Определим
еще
отношение эквивалентности
~,
указывающее,
что в разных
сравнениях с
разными
экспертами
участвует
один и тот же
объект из A = {a1, …, am}, Û i = j.
Словарем
наблюдаемых
терминов V,
таким образом,
является
множество V = {=,~, P1, …, Pn}.
Определим
протокол prV,
являющийся
представлением
матрицы (xijst) в
эмпирической
аксиоматической
теории. Пусть
A = {asti}. Только
одно
отношение ~
из V
определено
на всем
множестве A.
Отношения Ps
определены
только на
таких парах
объектов , для
которых t1 = t2,
s1 = s2. Введем
для отношений
из V третье
значение
истинности
«не
определено».
Доопределим
отношения =, P1, …, Pn
на всем
множестве A с
помощью
этого
значения. Тем
самым мы
определили
предикаты из
V на всем
множестве A,
что дает нам
в качестве протокола
наблюдения prV
модель prV = áA; Vñ.
Инструкция к
наблюдениям
ObsV, дающая в
результатате
наблюдения
над множеством
A протокол prV, ObsV
(A) = prV, состоит в
том, чтобы
провести все
наблюдения,
необходимые
для
получения
матрицы (xijst),
и
преобразовать
её в модель prV.
Словарем W будет
множество W = {=,», P1, …, Pn}.
Множества
аксиом SV и SW
содержат
аксиомы,
которым
удовлетворяют
отношения из
V и W. Эти
множества
могут отличаться
друг от
друга,
поскольку,
например, свойство
транзитивности
может
выполняться
для
отношения » и не выполняться
для
отношения ~.
Аксиомы из SVÈW
должны
следовать из
тех знаний и
представлений
об учете
точности
измерения,
возможностях
идеализации,
которые
сложились в рассматриваемой
области.
Итак,
мы
определили
эмпирические
аксиоматические
теории для
методов
парного
сравнения.
Результаты
теории измерений,
относящиеся
к словарю V,
будут приведены
в п. 3.
2.
Множественные
сравнения [82; 85]. Пусть
дано
множество
объектов A = {a1, …, am}.
Группе из n
экспертов
поочередно
предъявляются
все
возможные
наборы из k
объектов множества
A. Каждый
эксперт
должен
упорядочить
каждый набор
в соответствии
с некоторым
предпочтением.
Обозначим
через aitsl
тот факт, что
объект с
номером i в
наборе с номером
t экспертом s
был
поставлен на
l-е место, i = 1, …, m; s = 1, …, n;
t = 1, …, Cmk;
l = 1, …, k.
Множество полученных
упорядоченных
наборов
обозначим
через R = {áñ}.
Целью
методов
множественного
сравнения является
построение
результирующего
упорядочения
объектов по
полученным
упорядочениям
из R. Эти
методы также
опираются на
определенные
априорные
предположения
в виде моделей
множественного
сравнения.
Этими моделями
задается тем
самым их
область
применимости.
Поставим
в
соответствие
каждому
эксперту s
отношение
предпочтения
Ps() Û l1 < l2.
Определим
два
отношения
эквивалентности
~ и ~t:
Û i1 = i2;
Û t1
= t2;
и
отношение
равенства =
,
истинное
тогда и
только тогда,
когда в сравнении
объектов из
набора с
номером t
экспертом s
объекты с
именами и равны
между собой.
Получим
словарь наблюдаемых
терминов V = {=, ~, ~t, P1, …, Pn}
для методов
множественного
сравнения. Представление
данных R в
эмпирических
аксиоматических
теориях
задается
моделью prV,
определенной
на множестве
A = {aitsl}, s = 1, …, n;
s = 1, …, Cmk;
i = 1, …, m; l = 1, …, k.
Отношения из
V
доопределяются
на всем множестве
A с помощью
значения «не
определено».
Результаты
из теории
измерений,
относящиеся
к словарю V,
также будут
приведены в
п. 4.3.
3.
Матричное
представление
бинарных
отношений.
Бинарное
отношение P(a,b),
определенное
на множестве
объектов A = {a1, …, am},
задается
матрицей (eij),
i, j = 1, …, m;
где eij = 1(0)
означает, что
P(ai, aj)
истинно
(ложно). Такой
матрицей
можно задать
произвольное
бинарное
отношение на
множестве A.
Такое
представление
широко
используется
в работах [1; 39; 60; 63; 86] ввиду
его
привычности
и простоты.
Наиболее
часто
используются
отношения
эквивалентности,
квазипорядка,
частичного
порядка и
лексикографического
порядка.
Данные, включающие
эти
отношения,
встречаются
в следующих
задачах:
3.1. Отношение
эквивалентности.
Задает
некоторое
разбиение
множества объектов.
С его помощью
задают:
номинальные
признаки
(признаки в
шкале
наименований),
в частности
признаки,
определяющие
принадлежность
к образу в
распознавании
образов;
результаты
классификации,
таксономии и
кластеризации,
полученные
как опросом
экспертов,
так и
применением
машинных
методов.
3.2.
Отношения
порядка и
квазипорядка. Любой
признак
измеримый в
шкале
порядка, задает
некоторое
отношение
порядка, например,
шкала Морса
твердости
минералов или
шкала силы
ветра.
Упорядочения
объектов
экспертами.
Упорядочения,
получаемые методами
ранжирования.
3.3.
Отношения
частичного и
древовидного
порядка.
Возникают в
лингвистике
при
построении дерева
связей. В
иерархической
классификации,
при задании
вложенных
классов или
таксонов. В
психологии и
других
областях, при
задании
дерева целей.
В социологии
[73; 81]
отмечается,
что для
социологических
данных более
типичны
отношения
частичного
порядка и
толерантности,
чем порядка и
квазипорядка.
В психологии также
возникают не
транзитивные
предпочтения
[54].
Матрица
бинарного
отношения
фиксирует некоторое
бинарное
отношение P,
которое включается
в словарь V = {P}
эмпирической
аксиоматической
теории M.
Протокол
наблюдения prV
определим
как модель prV = áA;Pñ. В
качестве
словаря
теоретических
терминов
возьмем
словарь W = {P}.
Приведем
результаты
теории
измерений, относящиеся
к словарям V,
включающим
одно
бинарное
отношение P.
3.4.
Отношение
толерантности:
P(a, a);
P(a, b) Û P(b, a).
3.5. Отношение
эквивалентности:
P(a, a);
P(a, b) Û P(b, a);
P(a, b)&P(b, c) Þ P(a, c).
3.6.
Отношение
частичного
порядка, для
любых a, b, c Î A:
P(a, a);
P(a, b)&P(b, c) Þ P(a, c).
Числового
представления
не
существует.
3.7. Отношение
интервального
упорядочения
для любых
a, b, c, d Î A:
ØP(a, a);
P(a, b)&P(c, d) Þ
(P(a, d) Ú P(c, b)).
Числовое
представление
существует.
Существуют
две
вещественнозначные
функции U, s:A ® Re+, такие,
что для любых
a, b Î A
P(a, b) Û (U(a) + s(a)) < U(b).
3.8. Отношение
полупорядка.
Отношение P
называется отношением
полупорядка,
если оно
является
отношением
интервального
порядка и для
любых a, b, c, d Î A
удовлетворяет
аксиоме
P(a, b)&P(b, c) Þ P(a, d) Ú P(d, c).
Числовое
представление
существует.
Существует
вещественнозначная
функция U: A ® Re такая,
что для любых
a, b Î A
P(a, b) Û (U(a) + 1) < U(b).
3.9. Отношение
древовидного
порядка.
Отношение P
называется
отношением
древовидного
порядка, если
оно является
отношением
строгого
частичного
порядка и для
любых a, b, c Î A
удовлетворяет
аксиоме
P(a, b)&P(a, c) Þ
(P(b, c) Ú P(c, b)).
Числового
представления
не
существует.
3.10. Отношение
квазипорядка
для любых a, b, c Î A
удовлетворяет
аксиомам
P(a, a);
P(a, b) & P(b, c) Þ P(a, c).
Числового
представления
не
существует.
3.11. Отношение
слабого
порядка
(квазисерии [83; с.36],
предпорядки
[Там же; с.36]) для
любых a, b, c Î A
удовлетворяет
аксиомам
P(a, b)ÚP(b, a);
P(a, b)&P(b, c) Þ P(a, c).
Если
упорядоченная
система áA; Pñ
имеет
счетную базу,
то числовое
представление
существует [86; с. 76].
Не
все из
приведенных
отношений
имеют числовые
представления.
Поэтому не
всегда данные,
содержащие
бинарные
отношения,
можно
представить
в некотором
числовом
пространстве.
Рассмотрим,
какие в
настоящее
время
существуют
методы
обработки
бинарных
отношений.
Большинство
методов
используют
для
обработки матриц
расстояния
или меры
близости
между матрицами.
Эти
расстояния и
меры
вводятся исходя
либо из
систем
аксиом, либо
из статистических
предположений
и свойств
самих
отношений, как,
например,
коэффициенты
Стьюарта,
ранговой
корреляции
Кендала,
Спирмена,
Юла, информационные
меры и т. д.
Введение
расстояний и
мер близости
связано с
определенными
дополнительными
предположениями,
которые, в свою
очередь,
определяют
области
применимости
соответствующих
методов. К
методам, использующим
расстояния,
относятся
методы
анализа
структуры
связей между
объектами,
методы
классификации,
методы
построения
регресссии и
др.
4. Матрицы
упорядочений: (rij), i = 1, …, m; j =
1, …, n; rij –
оценка i-го
объекта по
j-му признаку.
Такие матрицы
могут
выражать
либо
упорядочения
k объектов n
экспертами,
либо
упорядочения
k объектов по n
ранговым
признакам [82]. Такие
матрицы
обрабатываются
методами многомерного
шкалирования
[85] и
методами
ранжирования
[43], а также
некоторыми
из методов
обработки матричного
представления
бинарных
отношений
(см. п. 3).
Поставим
в
соответствие
каждому
признаку j отношение
Pj,
определенное
следующим
образом:
Получим
совокупность
бинарных
отношений,
образующую
словарь
наблюдаемых
терминов V = {P1, …, Pn}.
Пусть A = {a1, …, am} –
множество
объектов, на
которых
получена
матрица
упорядочений.
Тогда
протоколом prV
наблюдения
над
множеством A
в словаре V
будет модель
prV = áA; P1, …, Pnñ.
В
теории
измерений
разработано
много систем
аксиом,
определяющих
взаимодействие
нескольких
отношений
порядка.
5. Матрицы
близости. Пусть
дано
некоторое
множество
объектов A = {a1, …, am}.
Матрицей
близости для
этих
объектов
называется
матрица (rij), i, j =
1, …, m; rij –
числовые
оценки меры
близости
(сходства или
различия) в
порядковой
шкале (имеет
смысл только
сравнение
величин ri1j1 < ri2j2).
Такие
матрицы
возникают в
различных
областях при
сравнении
или оценке
экспертом двух
объектов в
некотором
отношении.
Матрицы
близости
обрабатываются
методами
многомерного
неметрического
шкалирования
(см. обзоры [80] и работы [1; 85]). Целью
этих методов
является
представление
объектов
точками в
некотором
метрическом
пространстве
(Евклидовом
или Римановом)
минимальной
размерности
так, чтобы
расстояния tij
между ними с
точностью до
порядка
соответствовали
бы величинам
rij. Некоторые
из этих
методов в том
же метрическом
пространстве,
называемом в
этом случае
объединенным
психологическим
пространством,
представляют
также и
экспертов. Экспертам
ставятся в
соответствие
точки, прямые
или
какие-либо
другие
подмножества
метрического
пространства.
Каждый метод
исходит из
некоторой
модели
взаимодействия
объекта и
субъекта. Эти
методы обладают
следующими
общими
недостатками.
Во-первых,
нет
критериев
проверки
применимости
той или иной
модели к
имеющимся
данным.
Во-вторых, не
каждую
матрицу
близости
можно
вложить в конечномерное
Евклидово
или даже
Гильбертово
пространство.
После
применения
методов
многомерного
шкалирования
мы получаем
представление
данных в
метрическом
пространстве.
Эти данные
можно
записать в
виде матрицы
объект-признак,
которые
будут
рассматриваться
ниже.
Определим
на множестве
A отношение
.
Так
как это
отношение
определено
на всем множестве
A, то
протоколом prV
в словаре V = {P}
будет модель
prV = áA; Vñ.
В теории
измерений
эмпирические
системы, включающие
подобные
четырехместные
отношения,
обозначаются
как M = áA*; £ ñ, где A*
Ì AxA, £ –
бинарное
отношение
упорядочения,
определенное
на A*.
Приведем
некоторые
результаты
теории измерений,
относящиеся
к таким эмпирическим
системам.
5.1. Шкала
положительных
разностей [129; с. 147].
Существует
гомоморфизм
Ф : A* ® Re, A ¹ Æ, такой,
что для любых
пар (a, b), (b, c), (c, d)
из A*:
(a, b) £ (c, d) Û Ф(a, b) £ Ф(c, d),
Ф(a, c) = Ф(a, b) + Ф(b, c).
Отображение
Ф
единственно
с точностью
до положительного
множителя
(шкала
отношений).
5.2. Шкала
алгебраических
разностей [Там
же; с. 151]: A* = A ´ A.
Существует
гомоморфизм
Ф: A ® Re
такой, что
для любых
a, b, c, d Î A
(a, b) < (c, d) Û (Ф(a) -
Ф(b)) < (Ф(c) - Ф(d)).
Отображение
Ф, обладающее
этим
свойством, единственно
с точностью
до
лог-линейных
преобразований
(шкала
интервалов).
5.3. Шкала
разностей
равных
конечных промежутков [Там же; с.
168]: A* = A ´ A, A –
конечно, A* ¹ Æ.
Существует
гомоморфизм
Ф : A ® N
(натуральные
числа),
такой, что
для любых a, b, c, d
Î A
(a, b) £ (c, d) Û Ф(a) -
Ф(b) £ Ф(c) -
Ф(d).
Отображение
Ф
единственно
с точностью
до линейных
преобразований
(шкала
интервалов).
5.4. Шкала
абсолютных
разностей: [Там
же; с. 172]: A* = A ´ A.
Существует
гомоморфизм
Ф :A ® Re такой,
что
(a, b) < (c, d) Û |Ф(a) - Ф(b)| < |Ф(c) - Ф(d)|.
Отображение
Ф
единственно
с точностью
до линейных
преобразований
(шкала интервалов).
6. Матрица
объект-признак (xij), i = 1, …, m; j
= 1, …, n; xij –
числовое
значение
j-го признака
на i-м объекте.
Признаки
могут быть
самыми произвольными
как
количественными,
так и качественными.
Тот факт, что
такая
матрица получена
в результате
некоторых
измерений
(опросов,
экспериментов,
обследований
и т. д.),
говорит о
том, что существует
n приборов
или
измерительных
процедур,
сопоставляющих
каждому из m
объектов
числовые
значения xij = xj(ai)
соответствующих
признаков.
Данные
такого типа
имеют
наибольшее
распространение:
анкетирование,
тестирование,
разнообразные
социологические
опросы,
экспертное
оценивание,
карты
обследований,
геологоразведка,
экспериментальные
данные и т. д.
Большинство
известных
методов
предназначено
для обработки
именно таких
данных. Общим
ограничением
этих методов
является то,
что они
ориентированы
на числовые
данные,
включающие
признаки, измеряемые
только в
сильных
шкалах.
Сопоставим
каждому
признаку xi
словарь Vi.
Рассмотрим
два случая:
1.
Прибор xi
является
хорошо изученным
прибором,
например,
измеряющим некоторую
физическую
величину, и
решаемая задача
относится к
области
физики. Тогда
словарь V и
эмпирические
аксиоматические
теории этих
величин
известны [42; 47].
2.
Эмпирическая
система
прибора xi не
полностью
или не
достаточно
точно определена,
либо
решаемая
задача не
может быть описана
в рамках
физики. Такие
измерения называют
приборными [68–69] или
косвенными
измерениями.
Примерами таких
измерений
являются
различные
результаты
тестирования,
социологического
опроса,
балльные
оценки,
субъективные
оценки и т. д.
Все эти
величины
характеризуются
тем, что
предметная
область, в
рамках которой
они
рассматриваются,
недостаточно
разработана
и поэтому
эмпирические
системы
величин не полностью
известны
(хотя сам
прибор, как,
например,
физические
приборы
известны
хорошо). В
этом случае
прибор или
тестирование
дают нам
косвенные
измерения
интересующих
нас величин.
Как
справедливо
отмечается в
[68; с. 34],
«единственность
показания
прибора определяется
единственностью
используемых
первичных
или
производных
числовых представлений,
а совсем не
методом, как
это обычно
кажется,
калибровки
прибора. Тот
факт, что
приборные
измерения
массы
приводят к
шкале
отношений,
связано
вовсе не с
тем, что на
циферблате
нанесены
равные
деления».
Рассмотрим,
как можно
определить
словарь Vi
приборных
измерений.
Для
любого
числового
отношения R(y1, …, yk),
определенного
на Re
(множестве
действительных
чисел), можно
определить
следующее эмпирическое
отношение на
множестве
объектов А:
PjR(a1, …, ak)
Û R(xj(a1), …, xj(ak)).
Это
отношение
может не
иметь
эмпирической
интерпретации.
Прибор xj(a)
имеет
эмпирическую
интерпретацию,
но связь его
значений
отношением R
может уже не
иметь
эмпирическую
интерпретацию.
Поэтому нужно
найти такие
числовые
отношения на
Re, для которых
отношение PjR имело бы
эмпирическую
интерпретацию.
Предположим,
что мы
перебрали
некоторые,
наиболее
распространенные
числовые отношения
и нашли, что
отношения имеют
эмпирическую
интерпретацию.
Данное
множество
отношений не
пусто, так
как по крайней
мере
отношение Pj=
имеет эмпирическую
интерпретацию.
Если имеет
смысл
величина xj(a1),
то смысл
отношения
Pj=(a1, a2) Û xj(a1) = xj(a2)
состоит
в том, что на
объектах a1 и
a2 величина xj
принимает
одно и то же
значение.
Отношение Pj=,
как правило,
является
отношением
эквивалентности.
В теории
измерений
известно
много систем аксиом,
использующих
для
некоторых
величин
только
отношение Pj= и
приводящих,
тем не менее
к сильным
шкалам.
Поэтому
наличие в
языке
эмпирических
систем
одного лишь
отношения Pj=
может много
дать.
Определим
словарь Vi
приборного
измерения xj
как
множество {}.
В
качестве
словаря
наблюдаемых
терминов для
всей матрицы
объект-признак
возьмем словарь
V = V1È … ÈVn.
Протокол
prV
результатов
наблюдения в
словаре V,
соответствующий
матрице
объект-признак,
определим
так же, как и в
предыдущих
пунктах.
Из
приводимых
примеров
можно понять,
как другие,
не
рассмотренные
здесь,
способы представления
данных могут
быть
представлены
в рамках
эмпирических
аксиоматических
теорий. Общим
аргументом в
пользу универсальности
эмпирических
аксиоматических
теорий
является
методологический
принцип
теории
измерений,
состоящий в
том, что
отношения
первичны, а
свойства
(числовые
представления)
вторичны.
Свойства – это
сжатое,
закодированное
числами
представление
отношений.