В России создали модель для ускоренной разработки лекарств
Исследователи из МГУ разработали новую модель для ускоренной разработки лекарств. Она генерирует 90% химически валидных лекарственных соединений, способных связываться с заданным белком, используя лишь его аминокислотную последовательность. Модель позволит существенно ускорить и упростить процесс создания новых препаратов. Статья опубликована в журнале Scientific Reports.
«Мы использовали глубокую нейронную сеть “Трансформер”. Эту архитектуру придумали исследователи из Google Brains в 2017 году для обработки естественного языка. Трансформер состоит из энкодера и декодера. Энкодер отображает входную последовательность символов в некоторый вектор. Затем декодер посимвольно генерирует на выходе последовательность, используя этот вектор. Одной из важнейших особенностей Трансформера являются self attention-слои. Self attention — это механизм внимания, который устанавливает связи между различными участками одной и той же последовательности и на основании этой информации строит ее представление. В нашей задаче в качестве слов мы рассматриваем аминокислоты и отдельные символы строкового представления молекулы (SMILES)», — рассказала соавтор исследования Дарья Гречишникова.
Разработка лекарственных препаратов — дорогой и долгий процесс, один из его важнейших этапов — поиск молекулы, способной воздействовать на белок-мишень. Большинство методов основывается на трехмерной структуре белка или же на информации об уже известных лигандах, связывающихся с данным белком-мишенью. В настоящее время активно исследуется возможность применения методов машинного обучения для решения этих задач.
Self attention-слою требуется константное число последовательных операций для установления связей между любыми элементами последовательности, что позволяет ему справляться с длинными последовательностями. Этот механизм подходит для задачи перевода последовательности белка в строковое представление лиганда по двум причинам. Ученые впервые представили белок-специфичный дизайн лекарств как проблему перевода между «языком» аминокислот и строковым представлением молекулярной структуры. При этом белок рассматривается как «контекст» для генерации связывающейся с ним молекулы. Такая постановка задачи позволила ученым адаптировать одну из самых успешных архитектур в области машинного перевода к задачам генерации молекул. Оказалось, что аминокислотной последовательности белка достаточно для того, чтобы сгенерировать молекулы, связывающиеся с заданным белком.