Нейросеть оценила сложность текстов на русском языке
Ученые из Казанского федерального университета, Университета Иннополис совместно с коллегами из Национального политехнического института Мексики сравнили результаты применения машинного обучения с результатами, полученными по формулам удобочитаемости, в основе которых лежат длина предложения и длина слова. Оказалось, что машинное обучение намного лучше показывает, будет ли текст на русском языке понятен заданной целевой аудитории. Статья, посвященная работе, опубликована в Journal of Intelligent & Fuzzy Systems.
«Мы впервые предложили математически обоснованный и экспериментально доказанный метод оценки читаемости текстов на русском языке, в частности, учебных материалов. Это может помочь в повышении уровня обучения в России, в продвижении нашей страны в международном рейтинге образования», — подчеркнул один из авторов статьи, профессор Казанского федерального университета Валерий Соловьев.
Читайте также
Наиболее популярным методом для оценки сложности текста считается использование индексов удобочитаемости. Они помогают определить, насколько текст легко читать и понимать. Наиболее часто используемые — это индекс Флеша (FRE) и индекс Флеша–Кинкейда (FKG), изначально созданные для английского языка, но впоследствии адаптированные и для русского. Они рассчитываются по формулам читаемости, но с их помощью можно проанализировать текст не более чем по двум критериям, таким как количество слов в предложении и количество слогов в слове. Однако двух критериев недостаточно для глубокого текстового анализа: удобочитаемость текста обеспечивается десятками параметров.
Исследователи, поддержанные грантом Российского научного фонда, решили использовать современные методы, которые позволят учесть гораздо большее число критериев. Для тестирования системы ученые выбрали школьные учебники по обществознанию для 5–11 классов, так как в них было меньше всего картинок и схем. Тексты учебников разделили на группы, каждую из которых анализировали по нескольким критериям: количество слов в предложении, количество слогов в слове, частота встречаемости длинных слов, содержание различных частей речи, доля слов в именительном и родительном падеже и прочее — всего было отобрано 11 параметров, влияющих на сложность восприятия текста. Например, чем меньше в тексте слов из большого количества слогов и чем больше глаголов, тем он легче будет читаться. Анализ групп проводился с помощью нейросетей.
По результатам исследования ученые выявили наиболее эффективный метод машинного обучения и подобрали оптимальные настройки для него: лучшие результаты для самых длинных текстов получили при анализе полного набора признаков. Таким способом можно оценить академический текст по целому ряду критериев и сделать более точный вывод о соответствии учебных материалов уровню восприятия учеников, чем при использовании индексов удобочитаемости.
Исследователи провели сравнение результатов своей работы с выводами других исследований, в которых оценивалась сложность текстов. Оказалось, что в этом случае с помощью машинного обучения уровень оценить гораздо проще. Это связано с тем, что сложность текста для русскоговорящего человека определяется не столько свойствами самого текста, сколько особенностями читающего, например, его словарным запасом. В то же время иностранец, знающий язык на определенном уровне, будет нуждаться в тексте, содержащем в основном известные ему слова и грамматические конструкции.
Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.
Пресс-релизы о научных исследованиях, информацию о последних вышедших научных статьях и анонсы конференций, а также данные о выигранных грантах и премиях присылайте на адрес science@indicator.ru.