|
Методы таксономии
позволяют
создать исходную классификацию заданного множества
m объектов. Эту классификацию S = <s1,
s2, ...sl, ...sk> можно зафиксировать в таблице данных, собрав
в отдельные слои все ml строк (объектов), входящих в один и
тот же l-тый таксон.
Для более краткого представления основного содержания такой таблицы можно записать, например, средние значения и дисперсию характеристик объектов каждого таксона. Можно сохранить по одному или несколько типичных представителей ("прецедентов") из каждого таксона. Можно в пространстве характеристик описать границы, которыми таксоны отделяются друг от друга. Любое из таких описаний представляет собой обобщенный образ каждого класса. Если после этого предъявляется новый объект q, не участвовавший в таксономии, и требуется отнести его к одному из k имеющихся классов, то нужно проанализировать характеристики объекта q и распознать образ того класса sl, на который данный объект наиболее сильно похож. Такая процедура получила в литературе по анализу данных название "распознавание образов". На вход алгоритма распознавания обычно подается ╚обучающая выборка╩ в виде таблицы данных, которая содержит m объектов (а1, а2,...аi,...аm), описанных характеристиками Х = (х1,х2,...хj,...хn). Имеется также ╚целевая╩ характеристика Y, которая указывает на принадлежность каждого объекта к тому или иному образу. Процесс распознавания включает в себя два основных этапа - этап "обучения" и этап "контроля". На первом этапе алгоритм должен обнаружить закономерную связь между значениями ╚описывающих╩ характеристик Х и значением "целевой" характеристики Y. Эта закономерность выражается в виде "решающего правила", с помощью которого на этапе контроля по характеристикам любого объекта q можно принимать решение о его принадлежности к одному из k имеющихся образов. В идеальном случае каждый образ был бы представлен не обучающей выборкой конечного объема, а полным аналитическим описанием распределения всех существующих в природе объектов этого образа ("генеральной совокупностью"). Для самых простых вариантов этого идеального случая в литературе по математической статистике описаны строгие и изящные методы построения решающих правил [1]. Практически все реальные задачи распознавания отличаются от такого идеального случая самым важным свойством: отсутствием знаний о генеральной совокупности изучаемых объектов. Этот недостаток знаний восполняется той или иной эвристической гипотезой. Наиболее известна гипотеза компактности. В последнее время начинает применяться гипотеза l-компактности. Их основной смысл состоит в том, что объекты одного и того же хорошо организованного образа отображаются в пространстве своих характеристик в геометрически близкие точки, образуя ╚компактные╩ сгустки. Если обучающая выборка велика, то можно опереться на модели, т.е. аппроксимировать эти сгустки распределениями того или иного типа и затем использовать строгие статистические методы. В противном случае единственное, что остается делать, - опереться на прецеденты, т.е. на свойства конкретных объектов из обучающей выборки. При опоре на статистические модели решающие правила могут иметь простую форму плоскостей или поверхностей второго порядка, разделяющих пространство признаков на k непересекающихся областей. Распознаваемый объект q считается принадлежащим тому образу, в область которого он попадает. Иногда область образа ограничивается замкнутой фигурой простой формы (гиперпараллелепипедом или гиперсферой). Если граница между образами имеет сложную форму, то целесообразно пользоваться алгоритмом ╚Дробящиеся эталоны╩. Если число распознаваемых образов велико, то следует применять алгоритмы ╚ПОРА╩ или ╚МПВ╩. При использовании прецедентов объект q сравнивается с каждым из прецедентов и относится к тому образу, чей прецедент оказался самым похожим на объект q . В случае одновременного распознавания нескольких объектов решающее правило целесообразно строить не заблаговременно, а прямо в процессе распознавания, используя информацию из обучающей и контрольной выборок одновременно. Такое решающее правило будет более устойчивым к помехам, возникающим из-за непредставительности обучающей выборки. На этом принципе построен алгоритм ╚Таксономические решающие функции╩ (ТРФ). Имеются алгоритмы, которые строят решающие правила с одновременным отбором информативных признаков. Таким является алгоритм ╚DW╩. 1. Андерсон Т.В. Введение в многомерный статистический анализ. Пер. с англ. Физматгиз, 1963. |