Научный прорыв: новые технологии распознавания искусственного интеллекта

Российские и международные исследователи разработали инновационные модели искусственного интеллекта для обнаружения сгенерированных фрагментов в научных текстах. Две передовые системы — AIpom и Papilusion — демонстрируют впечатляющие результаты в идентификации контента, созданного нейросетями.
В эпоху стремительного развития языковых моделей, включая передовые разработки в области генеративного ИИ, возрастает потребность в надежных инструментах верификации текстов. Особую актуальность приобретает проверка подлинности научных публикаций и академических работ. Новые технологические решения успешно представлены на престижных международных соревнованиях SemEval 2024 и DAGPap24.
Система AIpom представляет собой уникальное сочетание декодера и энкодера, что значительно повышает точность определения границ между оригинальным и сгенерированным текстом. Алгоритм работы включает двухэтапный анализ: сначала декодер обрабатывает текст на основе заданных инструкций, затем энкодер уточняет результаты, классифицируя каждую текстовую единицу.
Инновационный подход позволил системе AIpom занять престижное второе место на международном соревновании, подтверждая эффективность комбинированного использования различных типов моделей.
Papilusion, вторая разработанная система, специализируется на более детальной классификации текстовых фрагментов. Она способна различать четыре типа контента: оригинальный текст, версии с синонимичными заменами, полностью сгенерированные фрагменты и краткие пересказы. Система использует три независимых энкодера, что обеспечивает высокую точность определения категорий.
Особенность обучения моделей заключается в применении метода «замораживания» нижних слоев, что позволяет сохранить базовые знания при корректировке более специфических навыков. Этот подход аналогичен точечной работе над определенными элементами в спортивной тренировке.
Несмотря на впечатляющие результаты, технологии продолжают совершенствоваться. Основные направления развития включают расширение обучающих данных, увеличение разнообразия тематик и языков, а также создание более сложных сценариев использования ИИ для формирования реалистичных тестовых материалов.
Перспективы развития технологий верификации текстов связаны с созданием более сложных датасетов, включающих применение различных ИИ-моделей и методов модификации текста. Важным направлением является расширение языкового охвата и тематического разнообразия обучающих материалов.
Разработанные системы открывают новые возможности для обеспечения достоверности научных публикаций и повышения качества академической деятельности в целом. Это значительный шаг вперед в развитии инструментов верификации контента в эпоху цифровых технологий.
Источник:www.kommersant.ru