Это
исследование описывает метод, который может обнаружить совместное множество
логичных диагностических правил для диагностики рака груди. Эти правила могут служить
в качестве ядра компьютерной диагностической системы. Цель компьютерной
диагностической системы состоит в том, чтобы обеспечить второе диагностическое
мнение, часто требуемое в медицинской диагностике. Совместность диагностических
правил означает, что нет никаких противоречий между правилами компьютерной
диагностической системы, правилами, используемыми опытным радиологом, и базой
данных патологически подтвержденных случаев. Мы развили метод обнаружения
совместного множества диагностических правил [117–119; 123; 125–126]. Преимущества метода показаны на примере
разработанной компьютерной диагностической системы для рака груди.
Рис. 17
Есть несколько
современных подходов для извлечения знаний в медицине, некоторые из которых
произошли из области искусственного интеллекта. Рассмотрим возможности
применения этих методов для медицинского диагноза, учитывая особенности маммограмм. В США рак груди – наиболее часто встречаемый
женский рак [162]. Наиболее эффективный метод в борьбе против рака
груди – скрининг маммограмм. Однако было обнаружено,
что есть значительная интра- и интернаблюдателя
вариабельность маммографической интерпретации (до 25
%). Дополнительно, несколько ретроспективных исследований нашли, что ошибка
варьируется в пределах от 20 до 43 %. Эти данные ясно демонстрируют потребность
улучшить надежность маммографической интерпретации.
Рассмотрим
проблему идентификации случаев, подозрительных на рак молочной железы,
используя маммографическую информацию о
сгруппированных кальцинозах. Примеры маммографических изображений со сгруппированными кальцинозами показаны на рис. 17–19. Кальцинозы
замечены в большинстве маммограмм и обычно указывают
на наличие доброкачественного кистозно-фиброзного изменения. Однако
определенные особенности могут указать на наличие злокачественного развития.
Представленные снимки демонстрируют широкий спектр проявлений, которые могут
быть представлены в маммограммах, напимер,
рис. 17 показывает кальцинозы,
которые необычны по размеру и форме. Они являются доказанной биопсией злокачественного типа кальцинозы. Кальцинозы показывают
нерегулярные контуры и изменяются по размеру и форме.
Рис. 18. Низкая плотность, плохо
определенная масса связанные
Рис. 18 представляет группу кальцинозов в пределах малой
плотности неточно указанной массы. Снова, эти кальцинозы
изменяются по размеру, форме и плотности, предлагая, что их причиной является
рак.
Наконец,
рис. 19 пример карциномы, которая произвела высокоплотный
узел с нерегулярными игольчатыми краями.
В
то время как в области рака присутствуют кальцинозы,
почти все они сферические по форме и похожи по плотности. Эта высокая степень
закономерности предполагает доброкачественное происхождение. В биопсии, узелок
оказался раковой опухолью, в то время как кальцинозы
были связаны с доброкачественным кистозно-фиброзным изменением.
Существуют компьютерные диагностические
исследования, которые стремятся улучшить ситуацию [97; 142–143; 152–153].
Обычно извлечение знаний в медицинской диагностике
включает два основных шага:
(S1)
извлечение диагностических признаков;
(S2)
извлечение диагностических правил, основанных на этих признаках.
Типичное
извлечение знаний в диагнозе рака груди
включает:
(C1)
несколько сотен единиц данных,
Рис. 19
(C2) приблизительно
дюжину диагностических признаков, данных либо извлеченных из изображений,
(C3)
процесс извлечение знаний.
Нейронные
сети, методы ближайшего соседа, дискриминантный
анализ, кластерный анализ, линейное программирование и генетические алгоритмы –
это наиболее известные методы извлечения знаний. Анализ данных в других
областях имеет тенденцию использовать большие базы данных и обнаруживать
большие наборы правил, используя эти методы. В то же самое время архивы
маммографии в больницах во всем мире содержат миллионы результатов биопсии и маммограмм. В настоящее время Американский Колледж
Рентгенологии (ACR) поддерживает национальную базу данных маммографии, проект
(http://www.eskimo.com/~ briteoo/nmd)
с объединенным набором признаков [92]. Несколько университетов и больниц создали базы
данных изображений маммографии, которые являются доступными в Интернете. Такие
усилия обеспечивают возможность масштабного анализа данных и извлечения знаний
в диагностике рака груди. Анализ данных в бизнес приложениях применениях
показал, что большая база данных может быть источником полезных правил, но
полезные правила могут сопровождаться большим набором несоответствующих или
неправильных правил. Много времени необходимоэксперту
для отбора только нетривиальных правил. Мы предлагаем метод извлечения правил
совместимых с экспертным мнением.
Традиционные
экспертные системы опираются на диагностические правила, извлеченные из эксперта. Системы, основанные на методах Machine Learning, опираются на имеющиеся базы данных для того, чтобы обнаружить
диагностические правила. Эти два множества правил могут противоречить друг
другу. Радиолог, возможно, не доверяет правилам, поскольку они могут
противоречить его / ее правилам и опыту. Также радиолог может иметь
сомнительные или неправильные правила, в то время как базы данных и снимков
могут иметь сомнительные или неправильные отчеты. Это делает проект
автоматизированной диагностической системы чрезвычайно сложным.
В
нем можно выделить две задачи:
(T1)
идентифицировать противоречия между диагностическими правилами и
(T2)
устранить противоречия.
Если
первая задача решена, ко второй можно приблизиться при помощи чистки записей в
базе данных, добавлением признаков, использованием более сложных методов
извлечения правил и проверкой компетентности медицинского эксперта.
В работе мы концентрируемся на извлечении правил из
эксперта и из данных, а затем из идентификации противоречий. Если извлечение правил выполнено не имея в виду эту цель, то трудно найти
противоречия. Кроме того, правила, извлеченные из данных и из эксперта, могут
быть неполными, поскольку охватывают только маленькую часть возможных
комбинаций признаков. Это может сделать невозможным
подтвердить совместимость правил с базой данных. Дополнительные новые
случаи или признаки могут сделать эти противоречия видимыми. Поэтому главная
проблема здесь – обнаружить достаточные,
полные и сопоставимые наборы правил, извлеченных из данных и экспертных правил.
Полнота является критической для сравнения. Например, предположим, что эксперт
и правила, выводимые из данных, охватывают только 3 % возможных комбинаций
признаков и предполагают, что нет никаких противоречий между этими правилами,
тем не менее остается огромное место для противоречий
на остающихся 97 % случаев.
Мы
разработали методы обнаружения полных наборов экспертных и выводимых из данных
правил. Эта цель приводит нас к экспоненциальной и сложной проблеме извлечения
диагностических правил. Лобовой метод может потребовать задания тысяч вопросов
эксперту. Это известная проблема при разработке экспертных систем. Например,
для 11 бинарных диагностических признаков сгруппированных кальцинозов
есть (211 = 2 048) комбинаций признаков, каждый
из которых представляет новый случай. Лобовой метод потребовал бы опроса
радиолога для каждой из этих 2 048 комбинаций.
Дополнительная
проблема состоит в том, что в попытке проанализировать сложную систему, для
экспертов может быть трудно или даже невозможно ясно и уверенно сформулировать
большое количество взаимодействий между признаками. Обычно порядка 60–70 %
времени при разработке системы, основанной на правилах, тратиться на извлечение
знаний. Таким образом, инженерия знаний при извлечении сотен правил становится
узким местом в этом процессе. Возможно самая важная причина для рассмотрения
подхода, основанного на экспертных системах, состоит в том, что системы,
основанные на правилах, стремятся вести себя как эксперт. Это показывает
«чувство» эксперта по объяснению и оправданию заключения. Эксперт обдумывает
альтернативные сценарии и, говорит: «Я думаю, что при обстоятельствах, X,
наиболее вероятное заключение – Y, но если есть дополнительный факт, скажем F,
то более вероятное заключение могло бы быть P». Если проблема «разложима», взаимодействия
между переменными ограничено и эксперт может ясно
сформулировать процесс принятия решений надежно, то подход, основанный на
правилах, подходит для создания диагностической системы и она может хорошо себя
показать.
Мы
разработали эффективный механизм для декомпозиции знаний на основе свойства
монотонности для решения этой проблемы.
Создание
совместной базы знаний, основанной на правилах, включает следующие шаги:
1)
обнаружение правил в данных, не обнаруженных в процессе опроса
эксперта;
2)
анализ данных правил экспертом медиком на основании доступных доказанных
случаев. Список этих случаев от базы данных может быть представлен эксперту.
Эксперт
может проверить:
2.1.
Обнаружено ли новое правило из-за
вводящих в заблуждение случаев. Правило может быть отклонено и обучающие
данные должны быть расширены.
2.2.
Подтверждает ли правило
существующее экспертное знание? Возможно, правило недостаточно прозрачно для
эксперта. Эксперт может найти, что правило совместимо с его / ее
предыдущим опытом, но он / она хотел ли бы, чтобы оно было более
очевидно. Правило может увеличить надежность его / ее
практики.
2.3.
Идентифицирует ли правило новые
отношения, которые не были до этого известны эксперту? Эксперт может найти
правило обещающим;
3)
обнаружены правила, которые противоречат к его / ее
знанию или пониманию. Правила выражают взаимосвязи признаков, представленных в
обучающем материале. Это означает, что есть две возможности:
3.1.
правило было обнаружено путем использования вводящих в заблуждение случаев.
Правило должно быть отклонено и обучающиеся данные должны быть расширены.
3.2.
Эксперт может признать, что его / ее знания
не имеют под реального основания. Система улучшает опыт эксперта.