ГлавнаяВ РоссииНоваторы МГУ улучшают сортировку почты: Татьяна Захарова и Кирилл Кодряну

Новаторы МГУ улучшают сортировку почты: Татьяна Захарова и Кирилл Кодряну


scientificrussia.ru
Источник: scientificrussia.ru

Ученые факультета вычислительной математики и кибернетики (ВМК) МГУ предложили метод для более точной оценки качества систем автоматической классификации электронной почты. Эта работа фокусируется на усовершенствовании способов проверки эффективности подобных алгоритмов.

Исследование выявило структурные особенности почтовой переписки, ключевые для точности рекомендаций по распределению входящих сообщений.

Объем деловой электронной почты неуклонно растет, делая ручную сортировку все более затратной. Алгоритмы автоматически предлагают папку для каждого нового письма. Эти системы анализируют текст сообщения, историю общения и действия пользователя — к примеру, перемещение аналогичных писем ранее.

Задача заключается в выборе оптимальной папки: система создает перечень возможных вариантов, упорядоченных по предполагаемой релевантности. Качество рекомендаций измеряется метриками, учитывающими не только верность выбора папки, но и ее позицию в итоговом списке.

Главная сложность — тесная взаимосвязь писем: они объединяются в цепочки переписки, проектные группы или по отправителям. Данные нельзя считать полностью независимыми, что завышает результаты стандартных методов оценки.

Для получения корректных оценок исследователи внедрили "кластерный бутстрэп". Этот метод проводит анализ не на уровне отдельных писем, а на уровне групп взаимосвязанных сообщений. Такой подход учитывает зависимость данных и обеспечивает более надежные оценки качества моделей.

"При анализе почтовых данных важно учитывать, что письма связаны между собой и не являются независимыми. Использование кластерных методов позволяет более точно оценивать качество моделей", — подчеркнула доцент кафедры математической статистики ВМК МГУ Татьяна Захарова.

"Мы стремились проверить, насколько эффективно можно использовать структурные свойства переписки без анализа текста и сложных алгоритмов машинного обучения. Результаты показали, что даже минимальные признаки принадлежности письма к цепочке могут давать сильный классификационный сигнал", — добавил Кирилл Кодряну.

Полученные результаты найдут применение при создании корпоративных почтовых систем и сервисов автоматической обработки сообщений.

Работа была успешно представлена на научной конференции "Ломоносовские чтения" факультета вычислительной математики и кибернетики МГУ.

Информация предоставлена пресс-службой МГУ.

Источник фото: ru.123rf.com

Источник: scientificrussia.ru

Разное