Побочные эффекты лекарств выявили по постам в твиттере

Россия впервые приняла участие в международном соревновании SMM4H Shared Task 2020 по выявлению упоминаний о побочных эффектах приема лекарственных препаратов по постам в социальных сетях. Мероприятие объединяет ученых из разных стран и призвано облегчить и ускорить разработку автоматических методов сбора, извлечения, представления и анализа данных социальных сетей по теме здоровья. Описание разработки опубликовано в посвященном соревнованию сборнике.

Научная группа из России собирает новые корпуса пользовательских текстов медицинской направленности, создает модели, улучшающие существующие методы извлечения информации из отзывов и коротких сообщений, посвященных лекарственным препаратам и реакциям на них, разрабатывает программные средства обработки текстов на английском и русском языках.

«Научная группа из Пенсильванского университета создала инициативу #SMM4H, чтобы облегчить и интенсифицировать разработку автоматических методов сбора, извлечения, представления, анализа данных социальных сетей по теме здоровья. В этом году она проводилась в пятый раз и первый раз включала в себя данные на русском языке, которые предоставляли мы с коллегами из Казанского федерального университета», — объясняет одна из организаторов соревнования и руководитель проекта по гранту Российского научного фонда, старший научный сотрудник КФУ Елена Тутубалина.

Огромный объем информации в социальных сетях представляет возможности для использования в качестве ресурса для здравоохранения. Через интернет-ресурсы пользователи получают возможность обмена мнениями и почти неограниченный доступ к информации о фармацевтическом рынке. Кроме того, клинические испытания не всегда позволяют обнаружить полный перечень побочных эффектов, которые часто начинают проявляться после длительного приема препарата или же оказывают эффект только на определенную группу пациентов. Решение этих проблем ученые предлагают искать с помощью интеллектуального анализа отзывов пользователей о лечении.

В этом году участники SMM4H Shared Task должны были разработать методы классификации публикаций в Твиттере о неблагоприятных лекарственных эффектах. В исследованиях было задействовано 9,5 тысячи русскоязычных твитов о 70 антидепрессантах, противовирусных, бронхорасширяющих и противодиарейных препаратах. Командам из России, Финляндии, США, Хорватии и Великобритании необходимо было предложить способы автоматизации классификации, используя современные языковые модели и методы машинного обучения.

По результатам подготовлен и опубликован новый размеченный корпус твитов на русском языке. Готовые корпуса могут быть использованы для обучения моделей, которые в дальнейшем можно будет применять для автоматической разметки текстов и других задач программистов и исследователей.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Пресс-релизы о научных исследованиях, информацию о последних вышедших научных статьях и анонсы конференций, а также данные о выигранных грантах и премиях присылайте на адрес science@indicator.ru.

Автор: Александра Медведева

Теги #Машинное обучение #Российская наука #Открытия российских ученых #Нацпроект «Наука» #Нацпроекты #Российский научный фонд