|
ППП ОТЭКС был передан для использования более, чем в
100 организаций бывшего СССР. За 30 лет со
времени появления первых наших алгоритмов таксономии
накоплен большой опыт их применения и
у нас. Приведем некоторые примеры решения
прикладных задач.
Алгоритм FOREL был разработан в 1967 году [1] и первой задачей для его опробования оказалась задача из области палеонтологии. Некоторые животные, жившие в разные геологические эпохи, имели твердый хитиновый покров, который хорошо отпечатался в древних отложениях. Палеонтологи находят такие отпечатки и изучают их, определяя вид, семейство и род бывших носителей этих панцирей. По этим следам прошлого определяется геологическое время возникновения того или иного слоя земной коры. Одними из таких ископаемых существ являются трилобиты (предки современных тараканов). Нам была предъявлена таблица с описанием 30 характеристик 250-ти трилобитов. Среди признаков были размеры хитинового покрова, число бороздок на головной части и т.д. Алгоритм FOREL при разных радиусах R сфер выдавал разное число таксонов. При некотором значении R было получено такое же число таксонов, которое было ранее установлено палеонтологами при ручной классификации этой коллекции трилобитов. Было построено таксономическое иерархическое дерево и при этом к нашему общему удивлению состав таксонов в точности соответствовал составу ручных классов. Особенно порадовал палеонтологов тот факт, что один трилобит даже при очень больших радиусах R не хотел присоединяться ни к одному таксону. Оказалось, что это "уникальный вид из совсем другого семейства и это удивительно и замечательно, что машина догадалась об этом"! Этот успех произвел на наших коллег палеонтологов настолько сильное впечатление, что на одном из семинаров нам был задан вопрос: "А не может ли машина определить, каким латинским термином назван тот или иной вид трилобитов?" Мы были вынуждены сказать, что без подсказки вряд-ли. Другой интересной задачей из геологической области была задача таксономии территорий Северо-Востока Чукотки [2]. Изучаемая местность была разделена геологами на 1992 ячейки в виде квадратов 10 на 10 км. Каждый квадрат был описан 45 двоичными признаками, отражающими наличие или отсутствие различных геологических свойств: шлиховые ореолы ртути, глубина залегания мезозоид 3-4 км., геосинклинальные прогибы и т.п. Таксономия этих участков делалась разновидностью алгоритма FOREL (FOREL-5), предназначенной для тасономии двоичных данных. Из разных вариантов таксономии заказчики выбрали вариант, содержавший 318 таксонов. Этот вариант привлек их внимание тем, что 46 из 318 таксонов включали в свой состав участки, которые были раньше хорошо изучены и на которых имелись золотоносные месторождения. И если планировать экспедиционные работы по поиску золота, то в первую очередь целесообразно обратить внимание на те не изученные участки, которые также оказались в составе этих "золотых" таксонов. Результаты экспедиций подтвердили высокую эффективность такого способа планирования геологоразведки. Таким же образом были разработаны рекомендации по поиску месторождений и ряда других минералов.
При разработке планов экспедиционных работ, связанных
с изучением социальных проблем сельского населения
Алтайского края, социологам нужно было выбрать
для исследования k населенных пунктов, причем таких,
которые представляли бы по возможности разные типы сел
и деревень края. С этой целью было подготовлено описание всех сельских
населенных пунктов края такими характеристиками, как
численность населения, количество школ, клубов, характер водоснабжения,
наличие электричества, дорог с твердым покрытием и т.д.
При выведении новых видов растений или пород
животных селекционеры стремятся выбирать для
скрещивания виды или породы, наиболее непохожие друг
на друга, избегая скрещивания "близнецов". С этой целью описание
свойств всех потенциальных "родителей" подвергается
таксономии и для скрещивания
отбираются особи, принадлежащие разным таксонам. Эта задача по своему
характеру похожа на одну из вышеописанных
задач социологии.
Данные в одной из задач океанологии представляли
собой следующее. В определенной точке поверхности мирового
океана делался эксперимент по измерению температуры и солености
воды на 16 разных глубинах. В протокол записывались две
координаты точки и еще 32 характеристики (16 температур и
16 соленостей). Всего таких точек в
мировом океане было исследовано около 20
000. Так что таксономию нужно было делать на таблице размеров 20000
на 34 и она делалась алгоритмом FOREL.
В системах распознавания речи
часто используются спектральные характеристики,
измеряемые на коротких участках сигнала, следующих друг за
другом. Каждый участок отображается в n-мерном пространстве спектральных
признаков точкой, а слово можно представить себе в виде
траектории, помеченной этими точками. После накопления
обучающего материала пространство признаков может содержать
сотни тысяч точек и естественно хранить в
памяти не все точки, а лишь описывающие их
таксоны. Методами таксономии делается таксономия точек на k
таксонов и вычисляются все парные расстояния между ними.
Такая матрица парных расстояний называется "кодовой книгой".
В почвоведении алгоритмы таксономии применяются для классификации типов почв, что важно особенно сейчас при разработке кодастра почв для целей приближающейся приватизации земли. Анализ погодных таксонов, полученных на массиве трехлетних метеорологических наблюдений в зоне лесов Красноярского края, позволил обнаружить несколько таксонов, куда попали дни, в которые возникали пожары. Были таксоны с 50 % пожарных дней и были дни (т.е. такие сочетания погодных условий), когда пожаров не наблюдалось. Эти данные в сочетании с прогнозом погоды позволяют планировать оптимальное распределение ресурсов противопожарных служб. Анализ психологических характеристик студентов Перьмского Университета позволил выделить группы студентов с одинаковыми характеристиками. Такой материал может помочь в оптимальном формировании состава учебных групп, в выборе типичных методик коррекции психологических характеристик студентов и т.д. Неискушенного пользователя обычно занимает вопрос о том, существует ли "объективная", "естественная" таксономия или она всегда "субъетивна"? Ответ на этот вопрос состоит в том, что в каждой таксономии или классификации имеются элементы, как субъетивного, так и объективного. Это хорошо иллюстрирует пример из книги М.Бонгарда [6], приведенный на рис.1.
Рис.1.
Здесь изображены шесть фигур, которые можно раделить
по разному и на разное число таксонов.
Так, если обращать внимание на цвет, то
выделится два таксона - светлые и заштрихованные
фигуры. Если измерять число углов,
то обнаружатся три таксона: фигуры
с тремя, четырьмя и бесконечным
числом углов. Если смотреть на площадь фигур, то можно
выделить и два таксона (большие и малые) и три таксона
(большие, средние и малые).
1. Елкин Е.А., Елкина В.Н., Загоруйко Н.Г. АФорель 2. Елкина В.Н., Загоруйко Н.Г., Куклин А.П. Типы золотоносных территорий Чукотской складчатой области. Сб. "Колыма", N4, Магадан, 1974 г, с.41-45. 3. Загоруйко Н.Г., Заславская Т.И. Распознавание образов в социальных исследованиях. Новосибирск, Наука, 1968 г. 4. N.G.Zagoruiko, T.I.Zaslavska. On possibility of pattern recognition methods utilization in sociological researh. Int.J."Quanlity and Quantity" v.IV (1970), n.2, pp. 365-374. 5.В.Н.Елкина, Загоруйко Н.Г., Новоселов Ю.А. Математические методы агроинформатики. Тр.ИМ СО АН СССР, Новосибирск, 1987г. 6. М.М.Бонгард. Проблема узнавания. М., Наука, 1967г. |