Математика и Computer Science3 мин.

Новый подход повысит эффективность моделей, анализирующих тональность текстов в интернете

© Piqsels

Российские ученые разработали подход к обучению моделей, анализирующих тональность интернет-текстов, то есть определяющих, выражают они позитивное или негативное отношение автора к тому или иному вопросу. Эта технология помогает, например, в более точном подборе необходимого продукта для потребителя. Разработанный подход позволяет быстро и недорого дообучить модель, чтобы использовать ее в различных областях, в том числе, в маркетинге, в политологических и социологических исследованиях. Работа была опубликована в журнале IEEE Access.

Анализ тональности — это процесс выявления, измерения и интерпретации позитивных или негативных мнений, выраженных в больших объемах текстовых данных в интернете. Этот метод используется в рекомендательных системах, при анализе новостей, в политологических, маркетинговых и социологических исследованиях. Анализ тональности текста может помочь покупателям при выборе товаров на основе отзывов, выявить настоящие поисковые потребности пользователей, а также определить экстремистские ресурсы. Кроме того, такой анализ может использоваться, чтобы изучить влияние сообщений в социальных медиа на эффективность маркетинговой политики, реакции потребителей на продукцию компании и даже чтобы предсказать движения фондового рынка по настроениям в социальных сетях.

За последние несколько лет был достигнут значительный прогресс в анализе тональности, особенно благодаря применению глубоких нейронных сетей для обработки текстов. Однако если переносить обученную модель из одной области в другую, то появляются проблемы. Например, модель анализа отзывов о ресторанах будет плохо работать с отзывами на банки. Ученые сегодня пытаются найти способ ускорить перенос моделей между областями и сделать его более эффективным — это сэкономило бы много денег и сил. Другая задача, которая стоит перед учеными, — это быстрое и недорогое повышение качества анализа тональности при помощи нейросети в конкретной области.

Ученые из Лаборатории интеллектуальных систем Вятского государственного университета разработали подход, который позволяет достаточно быстро переносить модель анализа тональности из одной области в другую. Авторы выяснили, что при переносе некоторой универсальной модели анализа тональности, которая была обучена на большой коллекции разных текстов из определенной области, в другую область качество работы будет невысоким. Это значит, что модель необходимо дообучить. Авторы определили, что для дообучения универсальной модели требуется всего несколько сотен размеченных текстов из новой области, а не тысячи или десятки тысяч как для первичного обучения. Исследование отличается масштабностью: впервые для русского языка проведены сотни экспериментов с 30 аннотированными по тональности коллекциями из 12 областей, которые содержали более 280 тысяч текстов. Такой большой объем материалов исследования подкрепляет обоснованность выводов.

Дополнительно авторы обучили кросс-доменную русскоязычную модель, которая позволяет эффективно распознавать тональность в разных областях, и предоставили ее в общий доступ. Также они разметили по тональности и предоставили в общий доступ новую коллекцию текстов «RuNews», включающую 1823 новостных сообщения, и получили оценки качества анализа тональности, превосходящие лучшие современные оценки, для 7 тестовых коллекций.

«Основная задача, которую мы решаем в нашей работе, — это повышение качества анализа тональности при помощи нейросети в некоторой предметной области (например, при анализе отзывов о банках). Желательно это сделать быстро и дешево. Ключевая проблема в этом случае состоит в том, что в интересующей области, как правило, отсутствует качественная размеченная коллекция текстов, то есть текстов, которые были обработаны и снабжены дополнительной информацией, такой как метки, теги или описание», — рассказывает руководитель проекта, Евгений Котельников, профессор Вятского государственного университета.

Материал подготовлен при финансовой поддержке Минобрнауки России в рамках федерального проекта «Популяризация науки и технологий».

Автор:Indicator.Ru