§ 10

§ 10. Критический анализ методов анализа данных

Проведем критический анализ методов обработки матриц объект-признак. Эти методы, за редким исключением, применяются следующим образом: данные либо усиливаются (в смысле теории измерений) путем абсолютизации числовых значений величин (т. е. с числами разрешается производить любые математические действия вне зависимости от их осмысленности и интерпретируемости), либо сводятся к дискретным данным путем различного рода градуирований. В первом случае вносится бессмысленная информация, которая проявляется в том, что невозможно приемлемым образом проинтерпретировать полученные результаты (или точнее, эти результаты не инвариантны относительно допустимых преобразований шкал), во втором случае часть информации теряется. Поясним этот тезис.

Рассмотрим отдельно шесть случаев:

1. Матрица объект-признак содержит только физические величины, и apriory известно, что решаемая задача относится к области физики. В этом случае эмпирические системы величин известны и применение перечисленных выше методов анализа данных наиболее обоснованно. Но даже в этом случае возникают следующие трудности:

а) так как величины являются физическими, и закономерная связь между величинами физически интерпретируема, то, как следует из теории измерений, эти величины измеряются в шкале отношений или лог-интервальной шкале. Требование инвариантности методов обработки данных относительно допустимых преобразований шкал является необходимым критерием осмысленности получаемых методами результатов – результаты обработки данных не должны зависеть от нашего произвола в выборе числовых представлений величин и, в частности, от произвола в выборе единиц измерения. Проверка методов обработки данных на инвариантность и поиск инвариантных методов, как показано в работах [55; 71–72], является трудной математической задачей. Показано, что далеко не всякий метод инвариантен относительно допустимых преобразований шкал.

Требование инвариантности не является тем не менее достаточным критерием осмысленности.

б) Даже если метод обработки данных инвариантен относительно допустимых преобразований шкал, то, как показано в теории измерений [68; 129], это еще не означает, что результаты обработки данных интерпретируемы в терминах отношений из эмпирических систем. Такому более сильному требованию на интерпретируемость удовлетворяют основные законы классической физики, но существующие методы обработки данных ему, как правило, не удовлетворяют. Тем не менее для многих практических задач требуется именно такая интерпретируемость – в системе понятий предметной области, в которой интерпретируются измерительные процедуры эмпирических систем и решаемая задача. Только при такой интерпретации результаты обработки данных будут результатами для соответствующей предметной области.

Инвариантные методы удовлетворяют более слабому требованию на интерпретируемость. Если методом, например, аппроксимации установлено, что величины y, x₁, …, x_n в матрице объект-признак связаны зависимостью y = f(x₁, …, x_n) то, хотя мы и не можем проинтерпретировать функцию f в терминах отношений из эмпирических систем или вывести ее из соответствующих систем аксиом, как это имеет место для законов классической физики, но мы можем проинтерпретировать отношение равенства =. Интерпретация равенства означает, что относительно величины y мы можем сказать только то, что она является некоторой функцией величин x₁, …, x_n. Относительно самой функции мы ничего более сказать не можем. То же самое верно и для других методов. Например, в задачах распознавания образов не интерпретируются решающие правила, задаваемые функциями, а интерпретируется только решение - принадлежность первому или второму образу. В некоторых методах таксономии не интерпретируются функции, определяющие вид таксонов, а интерпретируется только принадлежность первому, второму таксону и т. д.

2. Матрица объект–признак содержит только физические величины, но рассматриваемая задача не является физической, а, например, геологической, медицинской, сельскохозяйственной и т. д. В этом случае шкалы рассматриваемых физических величин не известны, так как не известны их множества допустимых преобразований. Допустимые преобразования определяются эмпирической и числовой системами. Если рассматриваемые величины физические, то эмпирические системы должны быть физически интерпретируемы. Если решаемая задача также физическая, то интерпретация эмпирической системы сохраняется. Если же решаемая задача принадлежит к другой области, то необходимо проверить, можно ли проинтерпретировать измерительную процедуру и отношения из эмпирической системы в терминах этой предметной области. Если какие-то отношения нельзя проинтерпретировать, то эмпирическую систему следует изменить, убрав, например, некоторые отношения. Это изменит эмпирическую систему и множество допустимых преобразований. Например, для многих физических величин существует эмпирически интерпретируемое физическое отношение ·, обладающее свойствами операции сложения. Для физических величин, не имеющих этой операции, она определяется с помощью закона, связывающего эту величину с двумя другими физическими величинами, имеющими такое отношение. Примером может служить температура, измеряемая посредством термометра. Температура не имеет отношение · но его можно определить с помощью термометра, используя закон, связывающий температуру с длиной ртутного столба в термометре. Отношение t₁· t₂ ~ t₃ будет иметь место тогда и только тогда, когда для длин e₁, e₂, e₃ ртутного столба выполнено отношение e₁ · e₂ ~ e₃. Рассмотрим это же отношение в случае, если решаемая задача относится к области медицины. Матрица объект-признак для медицинской задачи может содержать различные физические величины характеризующие больных - температуру, давление, рост, вес и т. д. Отношение t₁ · t₂ ~ t₃, обладающее свойствами операции сложения, в медицине не интерпретируемо. При существующем уровне наших знаний невозможно придумать такую операцию или процедуру над больным, имеющую медицинский смысл, чтобы из двух его температур t₁и t₂ можно было получить температуру t₁ · t₂. Но, может быть, операцию t₁ · t₂ можно проинтерпретировать с помощью закона, связывающего температуру с какой-нибудь другой величиной, например ростом, весом, возрастом и т. д., как это имеет место в физике с термометром. При существующем уровне наших знаний это также представляется невозможным. Таким образом, операцию e₁ · e₂ в медицине проинтерпретировать не удается. Тогда эмпирическая система температуры для медицинских задач должна быть какой-то другой, например содержать только отношение порядка. Отсюда следует, что множество допустимых преобразований величины «температура» не определено и, значит, у нас нет даже необходимого критерия осмысленности результатов обработки данных – инвариантности относительно множества допустимых преобразований, так как это множество неизвестно. Зависимость типа шкал от того, в какой области знаний они рассматриваются, признается и другими авторами. Несмотря на это, числовые методы широко применяются для решения различных нефизических задач.

Какую же пользу несет применение этих методов? Как и в п. 1, подпункте «б», интерпретируемым остается только отношение равенства, но уже не относительно инвариантной функции f, а относительно параметризованного семейства таких функций (определение адекватной параметризации см. в работе [68; с. 48]). Это относится и к решающим правилам, и к функциям регрессии и т. д. Решающие правила позволяют по величинам x₁, …, x_n осуществлять предсказания принадлежности к образу; функции, описывающие таксоны, позволяют классифицировать объекты и т. д. В получении предсказаний с помощью параметризованных семейств функций и состоит польза от применения числовых методов.

Таким образом, этими методами задача предсказания решается. Однако задача обнаружения закономерностей в этом случае смысла не имеет. Закономерности должны отражать изучаемую нами действительность, а не наш произвол в выборе числовых представлений. Поэтому они должны быть инвариантны относительно допустимых преобразований шкал. В теории измерений это требование формулируется как требование адекватности, но так как множество допустимых преобразований не известно, то мы не можем найти адекватные функциональные зависимости.

3. Матрица объект–признак содержит нефизические количественные величины. Так как для нефизических количественных величин твердо установленных шкал практически не существует, то неопределенность во множестве допустимых преобразований еще больше. Поэтому мы придем к тому же выводу, что и в п. 2.

4. Матрица объект-признак содержит только дискретные данные (все признаки измерены в шкале наименований). В этом случае всё обстоит достаточно благополучно, потому что для шкал наименований нет практически разницы между эмпирической и числовой системами. Числа в шкале наименований играют роль имен, а не собственно чисел. Требование инвариантности относительно допустимых преобразований переходит в этом случае в требование инвариантности относительно переименований значений признаков. Этому требованию существующие методы, как правило, удовлетворяют. Они удовлетворяют и более сильному требованию на интерпретируемость, рассмотренному в п. 1 подпункте «б» – интерпретируемости в терминах отношений из эмпирических систем. Это следует из представимости дискретных данных в рамках эмпирических систем с помощью одноместных отношений. Методы обработки дискретных данных также нетрудно представить, как методы обработки данных в терминах одноместных отношений.

5. Матрица объект–признак содержит не количественные и не дискретные величины, а, например, ранговые, балльные, полупорядковые, балльные со сложением и т. д. В этом случае мы получим те же выводы, что и в п. 3. Отличие состоит в том, что такие матрицы часто пытаются свести к матрицам, содержащим только дискретные величины. Это делается путем различного рода градуирований и разбиений значений признаков. Можно показать, что при таком сведении теряется довольно много существенной информации.

6. Матрица объект–признак содержит смесь различных данных. В этом случае возникают все из упомянутых уже трудностей и, кроме того, возникает необходимость разрабатывать методы, оперирующие смешанными данными. В настоящее время уже разработаны некоторые методы обработки смесей данных. При этом, как правило, для каждого сочетания различных данных разрабатываются свои методы.