|
Алгоритмы семейства FOREL [1,2] использует критерий F, основанный на гипотезе
компактности:
в один таксон должны собираться объекты, "похожие"
по своим свойствам на некоторый ╚центральный╩ объект.
Мера похожести определяется через Евклидово расстояние
в пространстве характеристик.
Если координаты центра j-того таксона обозначить символом Сj, то сумма расстояний (Сj,Xi) между центром и всеми lj точками Xj этого таксона будет равна rj = Sr(Сj,Xi), где i=1--lj, а сумма таких внутренних расстояний для всех k таксонов равна F = Srj , j=1--k. Нужно найти такое разбиение m объектов на k таксонов, чтобы величина F была минимальной. Опишем базовую версию и некоторые модификации алгоритма FOREL, предназначенных для поиска такого разбиения. Алгоритм FOREL. Таксоны, получаемые
этим алгоритмом, имеют сферическую форму. Вначале
признаки объектов нормируются так, чтобы их значения находились в
диапазоне от 0 до 1. Затем строится гиперсфера минимального
радиуса R0, которая охватывает все m точек. Если бы нам
был нужен один таксон, то он был бы представлен именно этой
начальной сферой. Для получения большего числа таксонов радиус
сфер постепенно уменьшается. Берется радиус 0,9*R0 и центр сферы
помещается в любую из имеющихся точек. Находим точки, расстояние
до которых меньше радиуса, и вычисляем координаты центра тяжести этих "внутренних"
точек. Переносим центр сферы в этот центр тяжести и снова
находим внутренние точки. Сфера как бы плывет
в сторону локального сгущения точек. Такая
процедура определения внутренних точек и
переноса центра сферы продолжается до тех пор,
пока сфера не остановится, т.е. пока
на очередном шаге мы не обнаружим, что
состав внутренних точек, а следовательно и их центр тяжести,
не меняются. Это значит, что сфера остановилась
в области локального максимума плотности
точек в признаковом пространстве.
Алгоритм FOREL-2. Эта модификация
описанного выше базового алгоритма предназначена для получения
таксономии с точно заданным числом таксонов k. Здесь радиус сферы по мере
надобности увеличивается или уменьшается на величину dR, которая
на каждой очередной i-ой итерации становится все меньше,
например, уменьшается вдвое. Этот метод последовательных
приближений позволяет быстро подойти к
шагу, при котором получаемое число таксонов
ki равно заданному числу k.
Алгоритм SKAT. Если при
многократном случайном выборе начальной точки получается
большое число неодинаковых таксономий или если таксоны сильно отличаются
друг от друга по количеству своих точек, то это может означать, что наш
материал наряду с несколькими локальными сгустками точек
содержит еще и одиночные точки или небольшие
их скопления, случайно разбросанные в пространстве
между сгустками. Создается ощущение того, что имеется
несколько "самостоятельных" таксонов и ряд случайно образовавшихся,
"несамостоятельных" таксонов, которые было бы целесообразно
присоединить к ближайшим "самостоятельным".
Алгоритм BIGFOR. Иногда
встречаются такие большие таблицы данных, которые
не умещаются целиком в оперативную память и должны
обрабатываться по частям. Для таксономии таких массивов предназначен
итеративный алгоритм BIGFOR.
1. Загоруйко Н.Г. Методы распознавание и их применение. Изд. ╚Сов. Радио╩, М., 1972. 2.Загоруйко Н.Г. , Елкина В.Н., Лбов Г.С., Емельянов С.В. Пакет прикладных программ ОТЭКС. Изд."Финансы и статистика". М., 1986. |