| В основе
алгоритма ZET [1,2] лежат три предположения.
Первое (гипотеза избыточности) состоит в том, что реальные
таблицы имеют избыточность, проявляющуюся в наличии похожих
между собой объектов (строк) и зависящих друг от друга свойств
(столбцов). При этом, из всех возможных видов
зависимостей между столбцами (строками) в
алгоритме ZET используются только линейные
зависимости. Если избыточность отсутствует (как, например,
в таблице случайных чисел), то предпочесть один прогноз другому
невозможно.
Второе предположение (гипотеза аналогичности, вытекающая из гипотезы компактности) состоит в утверждении, что, если некоторая пара объектов близка по значениям (n-1) свойств, то она близка и по n-ному свойству. Третье предположение (гипотеза локальной компетентности) заключается в том, что избыточность носит локальный характер: у каждого объекта есть свое подмножество объектов-аналогов и у каждого свойства есть свое подмножество свойств-аналогов. Если это так, то не имеет смысла привлекать к предсказанию значения некоторого элемента bij информацию, содержащуюся в строках, не похожих на i-ю строку, и в столбцах, не похожих на j-й столбец. В предсказаниях должны участвовать только т.н. "компетентные" строки и столбцы, которые выбираются для каждого предсказываемого элемента отдельно. В работе алгоритма ZET можно выделить три этапа. 1. На первом этапе для данного пробела из исходной матрицы "объект - свойство", столбцы которой нормированы по дисперсии, выбирается подмножество "компетентных" строк и затем для этих строк - подмножество "компетентных" столбцов. 2. На втором этапе автоматически подбираются параметры в формуле, используемой для предсказания пропущенного элемента, при которых ожидаемая ошибка предсказания достигает минимума. 3. На третьем этапе выполняется непосредственно прогнозирование элемента по этой формуле. Под "компетентностью" l-той строки по отношению к i-той строке понимается величина L(il), обратно пропорциональная расстоянию между этими строками."Компетентность" k-того столбца по отношению к j-тому столбцу L(jk) пропорциональна модулю коэффициента корреляции между ними. По указанию пользователя программа выбирает подматрицу любого размера в пределах от 2*2 до n*m. Обычно используется подматрица, одержащая от 3-х до 7-и строк и столбцов. В процессе предсказания значения пробела с использованием зависимостей между j-тым и всеми остальными (k-тыми) столбцами с помощью уравнений линейной регрессии вырабатываются "подсказки" b(k). Если в подматрице было q+1 столбец, то q подсказок усредняются с весом, пропорциональным компетентности соответствующего столбца. В итоге получается прогнозная величина b(j), порожденная избыточностью, содержащейся в столбцах: Процедура заполнения пробела с использованием зависимости между i-той строкой и всеми s другими (l-тыми) строками (1,2,..l...s) аналогична вышеописанной и делается по формуле Для определения ожидаемой ошибки предсказания вычисляется дисперсия (dis) величин подсказок b(k) и b(l), получаемых от всех k столбцов и l строк компетентной подматрицы. Большая дисперсия указывает на отсутствие устойчивой закономерной связи между элементом (ij) и другими элементами подматрицы. Ясно, что в этих условиях рассчитывать на высокую точность предсказания величины b(ij) не приходится. Эксперименты показали, что коэффициент корреляции между дисперсией dis и ошибкой предсказания d(ij) достигает величины + 0,7. Для различных прикладных задач были сделаны многочисленные модификации этого базового алгоритма ZET, отличающиеся своим назначением и наборами разных режимов работы. Программы заполнения пробелов могут работать в одном из следующих режимов: 1. Заполнение всех пробелов. 2. Заполнение только тех пробелов, ожидаемая ошибка для которых не превышает заданной величины. 3. Заполнение пробелов только на базе информации, имеющейся в исходной таблице 4. Заполнение каждого следующего пробела с использованием исходной информации и прогнозных значений ранее заполненных пробелов. Для каждого из этих вариантов имеется несколько режимов выдачи промежуточных и окончательных результатов на печать. Семейство программ, основанных на алгоритме ZET, применяется для решения разных прикладных задач анализа данных. 1. Загоруйко Н.Г. Методы распознавание и их применение. Изд. ╚Сов. Радио╩, М., 1972. 2. Загоруйко Н.Г.б Елкина В.Н. Блок анализа данных в экспертной системе ЭКСНА. // Экспертные системы и анализ данных.- Новосибирск, 1991ю - Вычислительные системы: Вып. 144. - с.57-175. |