§ 33. Проблема логического вывода

Методы машинного обучения (Mashine Learning) часто используются в экспертных системах и системах принятия решений для получения новых знаний из данных. Полученные знания используются далее для принятия решений с помощью методов логического вывода, которые абстрагируются от возможной недостоверности знаний и осуществляют вывод, как будто бы мы имели достоверные знания. В результате решения имеют неопределенную степень достоверности и, строго говоря, непонятно в каком смысле являются решениями.

Для оценки степени достоверности решений разрабатываются различные методы их вычисления параллельно процессу логического вывода. Есть работы, в которых степень достоверности рассматривается как значение истинности утверждений, а процесс логического вывода обобщается до так называемой «количественной дедукции» [100101103; 107; 145149151]. В последних работах [100149150] описываются довольно богатые формальные системы, содержащие как частные случаи основные известные «количественные дедукции».

В какой степени разработанные методы оценки достоверности обосновывают и придают смысл решениям ?

Рассмотрим знания, полученные методами машинного обучения на вероятностных данных. Анализ изменения вероятностных оценок утверждений в процессе логического вывода показывает, что они могут значительно уменьшаться. Как следует из работ по вероятностной логике [107144137], полученные оценки не могут быть улучшены. Даже если ограничиться использованием правил с условной вероятностью не меньшей чем 1-e, как это делается в [87], то это все равно не избавляет нас от существенного уменьшения вероятности в процессе вывода и, кроме того, это не соответствует условиям реально возникающих задач.

Рассмотрим знания, извлекаемые и оцениваемые экспертом. В работах по «количественной дедукции» [100149150] истинностное значение заключения правила вычисляется как функция минимума или наибольшей нижней границы (для значений истинности в решетке) значений истинности атомов посылки. Соответствует ли это экспертным оценкам правила? Как правило, не соответствует. В этом случае ситуация по существу такая же, как и в предыдущем вероятностном случае, только проявляется она не в вероятностных терминах, а в терминах зависимости решений от контекста, целостности восприятия ситуаций, адекватных и неадекватных (ситуациям) знаний и т. д. Если, например, атомы посылки правила описывают ситуацию, которая с точки зрения эксперта невозможна, то эксперт либо вообще откажется дать оценку заключению правила, либо присвоит ему значение близкое к нулю, хотя это правило по правилам вероятностной логики может иметь отличное от нуля значение.

Таким образом, несмотря на значительный прогресс в построении формальных систем, вычисляющих оценки утверждений, адекватное вычисление оценок решений отсутствует. В чем причина?

Причина в том, что, обобщая значения истинности, не обобщается сам процесс логического вывода. Следует осознать тот факт, что оценки утверждений делаются экспертом не в соответствии и не параллельно правилам логического вывода.

Можно более остро сформулировать проблему: идея создания баз знаний и экспертных систем основана на «аксиоматическом» подходе к знаниям – «извлечь» из эксперта и поместить в базу знаний основополагающие знания (аксиомы), так чтобы остальные знания и решения получались логическим выводом с параллельным вычислением оценок достоверности. Невозможность адекватного вычисления оценок решений говорит о неадекватности и самого аксиоматического подхода к построению баз знаний и необходимости его пересмотра. На какой основе это можно сделать?

Рассмотрим процесс вычисления с точки зрения «семантического» подхода к программированию [20 ;104]. Идея семантического программирования состоит в том, чтобы процесс вычисления рассматривать как проверку истинности утверждений (включая возможное использование логического вывода) на некоторой модели (моделью могут быть данные, представленные некоторой многосортной системой; некоторая специальная модель теории или абстрактного типа данных предметной области и т. д.). При таком взгляде на процесс вычисления, процедуру логического вывода можно обобщить, рассматривая более разнообразные взаимоотношения высказываний и модели – рассмотреть процесс вычисления как, например, определение вероятности, подтвержденности, достоверности, статистической значимости и т. д. высказываний на модели. Такой обобщенный вывод будем называть семантическим.

В работе семантический подход к базам знаний разрабатывается для случая ПРОЛОГ-программ в языке первого порядка с вероятностной мерой m [909395133136147], а так же вероятностных данных (нам известна вероятностная модель данных e [100108] - вероятностная мера m, заданная на множестве всех основных предложений (см. определение 24).

Наиболее важной вероятностной оценкой решений является оценка предсказательной силы высказываний. Высказывание вместе с такой оценкой назовем предсказанием.

Рассмотрим сначала стандартный процесс вычисления ПРОЛОГ-программ. Предсказанием запроса ПРОЛОГ-программой PR назовем такое вычисление запроса, на котором достигается максимум оценки условной вероятности запроса относительно подставленных в процессе вычисления фактов. Оценки условных вероятностей можно вычислить по вероятностным характеристикам правил и фактов, используя вероятностную логику (см. оценки в п. 4). Оценки не ухудшаются, если в процессе вывода используются правила, имеющие условную вероятность равную единице, и могут значительно ухудшаться, если используются правила с условной вероятностью, строго меньшей 1.

Цель предсказания в общем случае состоит в нахождении таких фактов, из которых решение следовало бы с максимальной условной вероятностью. Предсказание, получаемое ПРОЛОГ-программой, не удовлетворяет этой цели. Во-первых, вероятностные оценки запроса могут существенно снижаться в процессе вычисления, а во-вторых, вычисление не всегда может приводить к фактам, дающим максимальную оценку условной вероятности запроса.

Для получения наилучших предсказаний для любого одноатомного запроса A в работе определяется семантический процесс вычисления – вероятностный вывод, в котором вычисление осуществляется путем движения вдоль «уточняющего» графа [146147]. В этом графе правила, начиная с A ¬ , «уточняются» либо добавлением произвольного атома (или конъюнкции атомов) в посылку, либо применением подстановки. Выбор уточнения, удлиняющего соответствующую ветвь графа, определяется требованием увеличения условной вероятности, определяемой по вероятностной модели данных. Результатом вычисления является результирующая подстановка и достигнутая условная вероятность.

На уточняющие правила в вероятностном выводе можно наложить (без ограничения общности) дополнительное требование: чтобы каждый атом в посылке был «существенным» для предсказания атома A (удаление любого атома из посылки уменьшало бы условную вероятность атома A). Такие правила называются вероятностными закономерностями. Для получения любого вероятностного вывода, таким образом, достаточно иметь множество всех возможных вероятностных закономерностей данной вероятностной модели данных e. В работе это множество обозначается через PR(e).

Отметим, что для вероятностного вывода не нужны никакие правила вывода. Процесс вычисления вполне определяется увеличением оценки условной вероятности (определяемой вероятностной моделью данных e). Если в результате вероятностного вывода получена оценка условной вероятности, равная 1, что может означать получение тождественно истинного высказывания, то дальнейший вывод, опираясь только на оценку становиться невозможным, тогда вступают в силу правила логического вывода, например резолюция, которые можно применять, используя правила с условной вероятностью 1. Таким образом, вероятностный вывод является естественным обобщением логического вывода при его семантической интерпретации. Но такое обобщение, естественное с семантической точки зрения, невозможно и даже противоречит аксиоматическому подходу к знаниям, так как даже не нуждается в правилах вывода.

Множество PR(e) является в определенном смысле полным и минимальным множеством вероятностных знаний, обеспечивающее любой вероятностный вывод и максимальную оценку предсказаний, и таким образом полностью удовлетворяющее поставленной цели – получение наилучших предсказаний.

Пусть есть данные D(N) из некоторой модели N, случайно выбранной из множества возможных миров G в соответствии с вероятностной моделью данных e. Рассмотрим ПРОЛОГ-программу PR(e, N) = P(e)ÈD(N), где P(e) Ì PR(e) – множество всех вероятностных закономерностей с непустой посылкой. В работе доказывается, что программа PR(e, N) предсказывает лучше любой другой ПРОЛОГ-программы Pr, имеющей те же факты D(N). Более того, предсказание любого атома A (данной сигнатуры) осуществляется «лучшим для предсказания атома A правилом» (см. определение 34) в один шаг, не считая подстановки фактов. «Лучшее для предсказания атома A правило» является вероятностной закономерностью  и может быть получено вероятностным выводом.

Таким образом, база знаний PR(e), рассматриваемая как ПРОЛОГ-программа, предсказывает на одних и тех же фактах лучше любой другой ПРОЛОГ-программы.

Почему множеству вероятностных закономерностей удается аппроксимировать по предсказанию значительно более разнообразный и богатый комбинационными возможностями логический вывод? Поясним это на примере шахматной игры. Целью игры является выигрыш, а правила игры можно представить как правила вывода. Опытный игрок никогда не использует чисто комбинационный анализ всех возможных ходов за себя и за противника, т. е. чисто логический вывод. Для достижения выигрыша и проведения глубокого анализа вариантов, игрок использует некоторую оценку позиции, которую он стремится улучшить. Ведущей к цели – выигрышу – становится оценка, а перебор вариантов подчинен требованию улучшения оценки позиции. Логический вывод не должен быть самоцелью. Цель вывода должна определяться независимо от самого вывода, а логический вывод должен быть подчинен поставленной цели.

Точный анализ цели доказательств в математических теориях осуществлен в [45]. Цель доказательств состоит в решении задач: «... мы понимаем задачу только тогда, когда ей сопоставили обоснованное чувство уверенности в том, что всякое состояние нашего сознания мы сумеем убедительным и безошибочным образом распознать как такое, когда решение найдено, или как такое, когда решение задачи не найдено» [45]. Формализация этого требования и его анализ показал, что оно накладывает существенные ограничения на формальные системы, в которых должны ставиться и решаться задачи.

В задачах искусственного интеллекта приведенное требование на осмысленность постановок задач также должно быть выполнено. Задача принятия решений осмысленна только тогда, когда мы не только можем вывести решение, но и всегда определить, является ли оно таковым. В работах [45] показано, что формальные системы для постановок и решения задач должны быть слабыми. Для этого подходит, в частности, логическое программирование. Как отмечается в работе [Там же], «...в рамках новой парадигмы выглядит весьма естественным так называемый «логический подход к программированию», ... согласно которому следует создавать языки спецификаций не только программ, но и задач».

С точки зрения задач в данной работе показывается, что, если целью является не просто решение некоторой задачи, а и достижение максимума некоторой оценки, то необходимо не только наложить существенные ограничения на используемые формальные системы и использовать, например, логическое программирование, но и пересмотреть само понятие вывода.

В заключении отметим, что множество PR(e, N) не является слишком большим. Понятие вероятностной закономерности было ранее введено автором для разработки метода обнаружения закономерностей [9; 103233] - метода построения всех статистических аппроксимаций вероятностных закономерностей, т. е. метода построения статистической аппроксимации множества PR(e). Этот метод был реализован и успешно применялся для решения ряда практических задач. Опыт решения задач показал, что множество PR(e) практически может быть найдено даже на малых ЭВМ.