Летняя Вероятностная Школа 2022
Новые статистические методы анализа текстов на естественном языке

Курс лекций начнется с демонстрации того, насколько изменчивыми могут быть статистики текста у одного автора. В связи с этим мы поставим задачу поиска характеристик, сохраняющихся в произведениях некоторого автора и отличающихся у других. Кроме того, в этой части курса обсудим задачу атрибуции текстов, состоящую в проверке их принадлежности одному автору.

Далее будет разработан класс методов анализа однородности текста и разбиения его на фрагменты, принадлежащие разным авторам, то есть методов апостериорного обнаружения разладки в последовательности наблюдений. Мы исследуем вероятностную модель, приводящую к закону Ципфа для частот слов, изучим теоретические свойства этой модели и практические следствия из них.

В заключительной части курса будут предложены методы оценивания параметра Ципфа по тексту и проведено их сравнение. Мы изучим модификации закона Ципфа и оценки возникающих в них параметров. Разработаем метод анализа однородности текста по последовательности количеств разных слов, применяющийся для фрагментации текстов на естественном языке.

В курсе лекций будут предложены задачи (вопросы, на которые лектор знает ответ) и темы проектов (вопросы, на которые лектор не знает ответа).


Ковалевский Артем Павлович окончил механико-математический факультет НГУ в 1992 году и закончил магистратуру НГУ не только по математике, но еще и по философии, где исследовал границы применимости теории вероятностей, статистическую устойчивость и статистическую независимость - вопросы, возникающие в том числе и при анализе текстов. Защитил кандидатскую диссертацию “Метод жидкостной аппроксимации и его применение к системам поллинга с несколькими приборами” под руководством С.Г. Фосса в 1999 году. Получил степень доктора физико-математических наук за работу под названием “Статистические критерии апостериорного обнаружения разладки временных рядов и их применения” в 2019 году.

Основные научные интересы: статистический анализ текстов, задача о разладке и ее приложения, моделирование, идентификация и прогнозирование процессов с сильно зависимыми приращениями, возвратность и эргодичность марковских процессов, в том числе возникающих в теории систем массового обслуживания.

Спонсоры
* Конференция проводится при поддержке Математического центра в Академгородке, соглашение с Министерством науки и высшего образования Российской Федерации № 075-15-2022-282.