ППП ОТЭКС был передан для использования более,  чем  в  100  организаций  бывшего СССР.  За 30 лет  со  времени  появления  первых  наших  алгоритмов таксономии  накоплен   большой   опыт их  применения и  у  нас.  Приведем  некоторые  примеры  решения прикладных задач. 
 
Задачи палеонтологии и геологической разведки.
 
    Алгоритм FOREL был разработан в 1967 году  [1]  и  первой  задачей  для  его  опробования  оказалась  задача  из  области  палеонтологии.   Некоторые   животные,   жившие    в    разные  геологические эпохи, имели твердый хитиновый  покров,  который  хорошо отпечатался в  древних отложениях.  Палеонтологи  находят  такие отпечатки и изучают их, определяя вид, семейство  и  род  бывших  носителей  этих  панцирей.  По  этим  следам  прошлого  определяется геологическое время возникновения того или  иного  слоя земной коры. Одними из таких ископаемых существ  являются  трилобиты (предки современных тараканов). 
    Нам была предъявлена таблица с описанием  30  характеристик 250-ти трилобитов. Среди  признаков  были  размеры  хитинового  покрова, число бороздок на головной части и т.д. 
    Алгоритм FOREL при разных  радиусах R  сфер выдавал разное  число таксонов. При некотором значении R было  получено  такое  же   число   таксонов,   которое   было   ранее    установлено  палеонтологами  при  ручной   классификации   этой   коллекции  трилобитов.  Было  построено   таксономическое   иерархическое  дерево и при этом к нашему общему удивлению состав таксонов  в  точности  соответствовал  составу  ручных  классов.   Особенно  порадовал палеонтологов тот факт, что один трилобит  даже  при  очень больших радиусах R не хотел присоединяться ни  к  одному  таксону. Оказалось, что это "уникальный вид из совсем  другого  семейства  и  это  удивительно  и  замечательно,  что   машина  догадалась об этом"! 
    Этот  успех  произвел  на   наших   коллег   палеонтологов  настолько сильное впечатление, что на одном из  семинаров  нам  был задан вопрос: "А не  может  ли  машина  определить,  каким  латинским термином назван тот или  иной  вид  трилобитов?"  Мы  были вынуждены сказать, что без подсказки вряд-ли. 
    Другой интересной задачей из  геологической  области  была  задача  таксономии  территорий  Северо-Востока  Чукотки  [2].  Изучаемая местность была разделена геологами на 1992 ячейки  в  виде квадратов 10 на 10  км.  Каждый  квадрат  был  описан  45  двоичными  признаками,  отражающими  наличие  или   отсутствие  различных  геологических  свойств:  шлиховые   ореолы   ртути,  глубина залегания мезозоид 3-4 км., геосинклинальные прогибы и  т.п. 
    Таксономия этих участков делалась разновидностью алгоритма FOREL  (FOREL-5),  предназначенной  для   тасономии   двоичных  данных.  Из  разных  вариантов  таксономии  заказчики  выбрали  вариант, содержавший 318 таксонов.  Этот  вариант  привлек  их  внимание тем, что 46 из 318 таксонов включали  в  свой  состав  участки, которые были  раньше  хорошо  изучены  и  на  которых  имелись  золотоносные  месторождения.   И   если   планировать  экспедиционные работы по поиску золота, то  в  первую  очередь  целесообразно обратить внимание  на  те  не изученные участки,  которые также оказались в  составе  этих  "золотых"  таксонов.  Результаты экспедиций подтвердили высокую эффективность такого  способа планирования геологоразведки.      Таким же образом были разработаны рекомендации  по  поиску  месторождений и ряда других минералов. 
 
Задачи социологии и экономики.

    При разработке планов экспедиционных  работ,  связанных  с  изучением социальных проблем  сельского  населения  Алтайского  края,  социологам  нужно  было  выбрать  для  исследования   k  населенных пунктов, причем таких, которые представляли  бы  по  возможности разные типы сел и деревень края. С этой целью было  подготовлено описание всех сельских  населенных  пунктов  края  такими характеристиками, как численность населения, количество  школ, клубов, характер водоснабжения,  наличие  электричества,  дорог с твердым покрытием и т.д. 
    С помощью алгоритма FOREL множество из нескольких сот  сел  было разделено  на  заданное  количество  таксонов  k  и  были  выбраны типичные представители каждого  таксона.  Таким  путем  гарантировалось,  что  выбранные  k  сел   достаточно   хорошо  представляют все разнообразие сел края, что не будут  потеряны из виду какие то типы сел и не  будут  тратиться  средства  на  изучение сел-близнецов. 
    После завершения экспедиционных работ  социологи  привезли  большой материал в виде  анкет  с  ответами  людей  на  разные  вопросы.  Для  обработки  этих  данных  также   использовались  алгоритмы  таксономии. В   частности,   была   решена    задача  таксономического анализа такого  рода  материалов,  касающихся  выявления причин миграции сельского населения в города. 
    Еще  одна  задача,  связаннвая   с   проблемами   миграции  населения, решалась на материалах с  описанием всех  областей,  краев и автономных республик Российской  Федерации.  Там  были  выделены таксоны, в состав  которых  входили  административные  единицы с  положительным,  нулевым  и  отрицательным  балансом  миграции  населения.  Анализ   характеристик   этих   таксонов  позволил понять относительную значимость отдельных факторов на  процессы  миграции.  Так,   было   обнаружено,   что   уровень  заработной  платы  по  своему  значению  существенно  уступает  уровню обеспечения населения государственным  жильем.  И  если  решать, куда направлять денежные ресурсы, то в первую  очередь  следовало обращать внимание на жилищное строительство.     Эти и другие   задачи   анализа   социологических   данных  приведены в работах [3,4]. 
    Широкое  применение  нашли  методы  таксономии  в  задачах  анализа статиcтичеких данных экономического характера [5]. 
 

Задачи биологии.

    При выведении новых  видов  растений  или  пород  животных  селекционеры  стремятся  выбирать  для  скрещивания  виды  или  породы, наиболее непохожие друг на друга, избегая  скрещивания  "близнецов". С этой целью описание свойств всех  потенциальных  "родителей"  подвергается   таксономии   и   для   скрещивания  отбираются особи, принадлежащие разным таксонам. Эта задача по  своему  характеру  похожа  на  одну  из  вышеописанных   задач  социологии. 
    Биофизики изучают влияние различного рода  воздействий  на  живые  организмы  разных  видов.  Первая  серия  экспериментов  проводилась на большом числе   видов.  В  результате  протокол  наблюдений представлял собой таблицу из более, чем  20  видов,  каждый из которых был описан двумя группами  характеристик:  8  характеристиками воздействия  и  14  характеристиками  реакции  организма. При каждом новом сочетании значений  воздействующих  факторов наблюдалось  новое  сочетание  реакций  организмов  и  фиксировался протокол в виде новой таблицы  "объект-свойство". 
    Каждая такая таблица  подвергалась  таксономии  алгоритмом KRAB,  что позволяло автоматически  выбирать  наилучшее  число  таксонов k в заданном диапозоне kmin<k<kmax. При этом делалась  таксономия отдельно по группам характеристик и в  полном  22-х  мерном пространстве. 
    В  итоге   сравнения   таксономий   разных   таблиц   было  обнаружено,  что  имеются  виды  живых   организмов,   которые  приблизительно  одинаково  реагируют  на  одинаковые   внешние  воздействия и в разных таксономиях  попадают  в  один  таксон.  По одному типичному представителю  таких  устойчивых  таксонов  были отобраны для более детальных экспериментов, что позволило  существенно  ускорить  исследования  и  сократить  расходы  на  эксперименты. 
 

Задачи океанологии.

    Данные в одной из  задач  океанологии  представляли  собой  следующее. В определенной точке  поверхности  мирового  океана  делался эксперимент по измерению температуры и солености  воды  на 16 разных глубинах. В протокол записывались  две  координаты  точки и еще 32 характеристики (16 температур  и  16  соленостей).  Всего  таких  точек  в   мировом   океане   было  исследовано около 20 000. Так что таксономию нужно было делать  на таблице размеров 20000 на  34  и  она  делалась  алгоритмом FOREL. 
    Авторы данных  выбрали  один  из  вариантов  таксономии  с  числом таксонов, равным 15. Когда они покрасили на карте точки  каждого таксона в один и тот же цвет, то  обнаружились  зоны  с  одинаковыми профилями  температур  и соленостей.  В  частности,  были  хорошо  видны  известные  морские  течения  (Гольфстрим,  Куросиво и др.), выявились и другие интересные для океанологов  заокномерности структуры мирового океана. 
    

Задачи распознавания речевых сигналов ("Кодовая книга").

    В   системах   распознавания   речи   часто   используются  спектральные характеристики,  измеряемые  на коротких участках  сигнала, следующих друг за другом. Каждый участок отображается  в n-мерном пространстве спектральных признаков точкой, а слово  можно представить себе в  виде  траектории,  помеченной  этими  точками. После накопления  обучающего  материала  пространство  признаков может содержать  сотни  тысяч  точек  и  естественно  хранить в памяти не  все  точки,  а лишь описывающие  их  таксоны.  Методами таксономии делается таксономия точек на k  таксонов  и  вычисляются все парные расстояния между  ними.  Такая  матрица  парных расстояний называется "кодовой книгой". 
    Каждый  участок  произносимого  слова  будет  попадать   в  окрестности центра того или иного таксона.  Если  фиксировать  номера  (коды) самых близких  таксонов,  то  слово  можно  представить  последовательностью  таких  кодов.  После  обучения  в  памяти  машины   появляются    эталоны    слов    в    виде    кодовых  последовательностей. 
    Для   распознавания   контрольного   слова   его  кодовая последовательность   сравнивается   со   всеми   эталонами   и  выбирается  самый  похожий  эталон.  При   этом   используется  динамическое   программирование,   которое    требует    знания  расстояний от всех кодов эталона до всех кодов распознаваемого  слова. Наличие кодовой книги позволяет  существенно  упростить  этот трудоемкий этап. Теперь достаточно  лишь  указать  номера  двух кодов и расстояние между ними будет извлечено из  кодовой  книги. 
 

Другие области применения.
 
    В  почвоведении  алгоритмы  таксономии   применяются   для  классификации  типов  почв,  что  важно  особенно  сейчас  при  разработке кодастра почв для целей приближающейся приватизации   земли. 
    Анализ погодных таксонов, полученных на массиве трехлетних  метеорологических наблюдений в зоне лесов Красноярского  края,  позволил обнаружить несколько таксонов,  куда  попали  дни,  в  которые возникали пожары.  Были  таксоны  с  50 % пожарных дней и были дни (т.е.  такие  сочетания  погодных  условий), когда пожаров не наблюдалось. 
    Эти  данные  в  сочетании  с  прогнозом  погоды  позволяют  планировать оптимальное распределение ресурсов противопожарных  служб. 
    Анализ психологических характеристик студентов  Перьмского  Университета позволил выделить группы студентов с  одинаковыми  характеристиками. Такой материал может  помочь  в  оптимальном  формировании состава учебных групп, в выборе типичных  методик  коррекции психологических характеристик студентов и т.д. 
 
Некоторые замечания о таксономии.
 
    Неискушенного пользователя обычно занимает вопрос  о  том,  существует ли "объективная", "естественная" таксономия или она  всегда "субъетивна"? Ответ на этот вопрос состоит в том, что в  каждой таксономии  или  классификации  имеются  элементы,  как  субъетивного, так  и  объективного.  Это  хорошо  иллюстрирует  пример из книги М.Бонгарда [6], приведенный на рис.1. 

Рис.1.

    Здесь изображены шесть фигур, которые  можно  раделить  по  разному  и  на  разное  число  таксонов.  Так,  если  обращать  внимание на  цвет,  то  выделится  два  таксона  -  светлые  и  заштрихованные  фигуры.  Если   измерять   число   углов,   то  обнаружатся  три  таксона:  фигуры   с   тремя,   четырьмя   и  бесконечным числом углов. Если смотреть на площадь  фигур,  то  можно выделить и два таксона (большие и малые) и  три  таксона  (большие, средние и малые). 
    Отсюда видно, что одной, "самой естественной",  "абсолютно  объективной" таксономии не существует.  Все  реальные  объекты  имеют  бесконечное  число  свойств  и   выделение   некоторого  конечного подмножества этих свойств - акт  субъективный.  Меры  близости, критерии качества также выбираются субъективно. Если  известна цель, для достижения которой делается таксономия (т.е.  при наличии "суперцели"), то качество  таксономии  проверяется  тем, хорошо ли она способствует достижению этой  цели,  удобна  ли, экономична ли она и т.д. Эта  проверка  носит  объективный  характер, но выбор суперцели  опять  таки  субъективен  и  для  одной суперцели данная таксономия будет хорошей, а для  другой  - нет. 
    Иногда  можно  встретиться  с   суждением   такого   рода:  "Алгоритм таксономии  дал  плохой  результат:  выделился  один  очень  большой  таксон,  три  поменьше   и   остальные   точки  рассыпались  по  единичным  таксонам".  Не  всегда   в   таком  результате   повинен    алгоритм    таксономии.    Встречаются  данные, которые порождены одним однородным  процессом,  могут  быть  описаны  нормальным  законом  распределения  и   никакой  алгоритм тасономии не  разделит  такую  выборку  на  5  или  7  "самостоятельных" таксонов. В таком случае  в  утешение  можно  сказать, что таксономия не только позволяет выявить  структуру  хорошо  структурированного  множества,  но  и  показать,   что  некоторое  множество  гомогенно,  оно  не   расслаивается   на  изолированные подмножества.  Часто  имено  это  и  надо  было  узнать. 
    Бывают  и  такие  ситуации: " Меня  не  устраивает  такая  таксономия. Один  таксон  получился  хороший,  в  него  попали  действительно объекты одной и той же природы. А в  других  все  перемешано".Да, таксономия  не  исключает  такого  результата,  причина которого может лежать и в  плохом качестве  алгоритма,  но может отражать неудачный выбор  характеристик,  описывающих  объекты. Можно обнаружить, что характеристики неинформативны с  точки зрения той суперцели, которую  интуитивно  ставит  перед  собой пользователь. Так что, алгоритмы таксономии могут помочь  разобраться  в  том,  достаточно  ли  информативны   имеющиеся  признаки. 
    Кстати,    если    пользователю     известна     частичная  классификация, т.е. если он знает относительно некоторой части  объектов,  какие  должны  быть  в  одном  таксоне,   а   какие  обязательно в разных, то эту информацию можно использовать  с  пользой для дела. Здесь можно применить алгоритм ROST, если  в  список запретных в самом начале внести  ребра  между  заведомо  "чужими" объектами. 
    При одних и тех же свойствах объектов результат таксономии  может быть разным, если мы будем  учитывать  их  относительные  веса ("важность"). При вычислении расстояния между объектами  p  и q вклад признака xj должен быть пропорционален его  весовому  коэффициенту.
    Значение весов  j  можно  установить  заранее,  но  иногда  задача  состоит  именно  в  том,  чтобы  найти   относительную  важность различных характеристик.  Если  известна  желательная  таксономия, то, решая обратную задачу, можно  подобрать  такое  сочетание  весов   j,  при  котором  получается   именно   эта  таксономия. 
    Многолетний опыт применения алгоритмов таксономии показал,  что таксономический анализ данных  является  мощным  средством  познания закономерностей изучаемых объектов или явлений. 


ЛИТЕРАТУРА:

1. Елкин Е.А., Елкина В.Н., Загоруйко Н.Г. АФорель 
2. Елкина В.Н., Загоруйко Н.Г., Куклин А.П. Типы золотоносных  территорий Чукотской складчатой  области.  Сб.  "Колыма",  N4,  Магадан, 1974 г, с.41-45. 
3. Загоруйко Н.Г., Заславская Т.И.  Распознавание  образов  в  социальных исследованиях. Новосибирск, Наука, 1968 г. 
4. N.G.Zagoruiko, T.I.Zaslavska. On  possibility  of  pattern  recognition  methods  utilization  in  sociological   researh.  Int.J."Quanlity and Quantity" v.IV (1970), n.2, pp. 365-374. 
5.В.Н.Елкина, Загоруйко Н.Г.,  Новоселов  Ю.А.  Математические  методы агроинформатики. Тр.ИМ СО АН СССР, Новосибирск, 1987г. 
6.  М.М.Бонгард.  Проблема  узнавания.  М.,  Наука,  1967г.