Математика и Computer Science

Нейронную сеть научили отбирать потенциальные противораковые лекарства

Mail.Ru Group/Insilico Medicine/МФТИ

Разработчики из России, Великобритании и США впервые применили нейронную сеть для создания новых лекарственных препаратов. Использование технологий генеративных нейронных состязательных сетей, обученных «придумывать» молекулярные структуры, может в разы сократить время и стоимость поиска веществ, обладающих потенциально лечебными свойствами. С российской стороны в исследовании принимали участие специалисты из Казанского федерального университета, Санкт-Петербургского отделения Математического института имени В.А. Стеклова РАН, МФТИ и Mail.Ru Group. Результаты опубликованы в журнале Оncotarget.

За основу была взята архитектура состязательных автокодировщиков, являющаяся расширением генеративных состязательных сетей. Для обучения использовались молекулы с известными лечебными свойствами и эффективной концентрацией. Информацию о такой молекуле подавали на вход сети. Сеть настраивали так, чтобы на выходе получить точно такие же данные. Она была составлена из трех структурных элементов (кодировщика, декодера и дискриминатора), каждый из которых выполнял свою специфическую роль, «сотрудничая» с двумя другими. Кодировщик совместно с декодером обучался сжимать и затем восстанавливать информацию об исходной молекуле, а дискриминатор помогал сделать сжатое представление более подходящим для последующего восстановления. После того как сеть обучалась на множестве известных молекул, кодировщик вместе с дискриминатором «выключались», и сеть, используя декодер, генерировала описание молекул уже сама.

Обучение нейронных сетей зависит от количества входных данных и от размеров самой сети. В среднем хорошая нейронная сетка обучается в течение недели (зависит как от сети, так и от данных и железа). На то, насколько хорошо идет воспроизведение, влияет конфигурация слоев. Поиск оптимального решения архитектуры сети может занять несколько месяцев.

Mail.Ru Group/Insilico Medicine/МФТИ

Все молекулы имеют представление в виде смайлзов — буквенных аннотаций химического вещества, которые позволяют восстановить его структуру. Стандартная запись, которой обучали в школе, не подходит для обработки сетью, но и смайлз не очень подходит: он имеет произвольную длину от одной буквы до двухсот. Для обучения нейронной сети требуется одинаковая длина описания (вектора). Решает эту задачу фингерпринт (в переводе — «отпечаток пальца») молекулы. Фингерпринт содержит в себе всю информацию о молекуле. Существует множество способов построения «отпечатка», исследователи использовали самый простой бинарный из 166 цифр. Они конвертировали смайлзы в фингерпринты и на них уже обучали сеть.

Для проверки сети использовали патентную базу противораковых лекарств. Сначала обучали сеть на части лекарственных форм и проверяли на второй части. Задача была в том, чтобы предсказать уже известные формы, но такие, которых не было в обучающей выборке. На 69 из предсказанных веществ уже есть патенты.

«Генеративные состязательные сети с применением обучения с подкреплением — это будущее фармакологии, — рассказал один из авторов исследования, глава Insilico Medicine и международный адъюнкт-профессор МФТИ Александр Жаворонков. — В этой статье мы показали первое применение генеративных состязательных автокодировщиков, GAN’ов, для создания новых молекулярных структур противоопухолевых препаратов по определенным параметрам. Эта работа была сделана еще летом, с тех пор мы значительно продвинулись в этом направлении. Я очень надеюсь, что в скором времени мы сможем разрабатывать индивидуальные лекарства для лечения редких заболеваний и даже для лечения отдельных пациентов».

Пресс-релизы о научных исследованиях, информацию о последних вышедших научных статьях и анонсы конференций, а также данные о выигранных грантах и премиях присылайте на адрес science@indicator.ru.