«Герой нашего времени»: заменят ли нейросети человека в предсказательной химии

Что из себя представляет сообщество хемоинформатиков в России

© Biff Tenon/Getty Images/Pixnio/Indicator.Ru

Чем задачи предсказательной химии отличаются от медицинской, как построить карты молекулярного «населения» и боятся ли российские хемоинформатики искусственного интеллекта — в материале Indicator.Ru.

Сателлитный симпозиум по предсказательной химии стал едва ли не самым коротким мероприятием поддержанного благотворительным фондом «Искусство, наука и спорт» XXI Менделеевского съезда по общей и прикладной химии: все доклады были заслушаны за два дня. Его название — «От эмпирической к предсказательной химии» — уже стало брендом: под таким же названием встреча хемоинформатиков проходила на предыдущем Менделеевском съезде три года назад, а в Казанском федеральном университете уже трижды проводилась школа-семинар с таким названием. Такое постоянство — признак небольшого и тесно связанного сообщества.

Всего за два дня химики представили чуть больше 20 работ, не считая постерной сессии. Кроме российских коллективов с нескольких факультетов МГУ, из СПбГУ, Санкт-Петербургского государственного технологического института, КФУ, Волгоградского медуниверситета, химических и биотехнологических исследовательских центров, выступили исследователи из Франции, Швеции, Чехии и Украины. Большинство тем так или иначе были связаны с вычислительными методами для задач медицинской химии. Независимо от того, шла ли речь о нейронных сетях для обработки содержащейся в базах данных химической информации, механизмах докинга («стыковки» молекул) или об особенностях дизайна новых веществ, конечная цель исследователей почти всегда — в создании биологически активных соединений и лекарств на их основе. И это не случайно.

Тема конструирования лекарств, отмечает один из сопредседателей симпозиума Владимир Поройков, заведующий отделом биоинформатики и лабораторией структурно-функционального конструирования лекарств НИИ биомедицинской химии им. В. Н. Ореховича, исключительно важна и неисчерпаема. «Процесс создания лекарства занимает 10–12 лет и оценивается в 1,5–2 млрд долларов. При этом доля веществ, которые становятся лекарственными препаратами после клинических испытаний, не превышает 5%. Узнав на последних стадиях клинических испытаний, что разработанное вещество вызывает, например, цирроз печени, компания понесет огромные финансовые потери, не говоря уже об упущенной выгоде. А хемоинформатика существенно снижает риск, потому что с ее помощью о вероятных побочных эффектах можно узнать гораздо раньше», — отмечает ученый. Поиск и изучение каждой новой молекулы всегда сопровождают или предвосхищают анализ мишеней, на которые она должна воздействовать, их роли в регуляторных сигнальных сетях в норме и при патологиях и другие подобные исследования.

Конечно, будет неправильно называть симпозиум по предсказательной химии филиалом секции по медицинской химии, которая еще продолжает работу на съезде. На симпозиуме были представлены доклады и по вопросам конструирования новых материалов (например, два доклада Александра Квашнина и Евгения Подрябкина — молодых ученых Сколтеха из группы Артема Оганова), и по применению хемоинформатики для анализа свойств наночастиц, и по прогнозированию состава нефти, и по моделированию новых катализаторов. Но главное отличие двух параллельных площадок — в задачах исследований, несмотря на их общую направленность. Медицинских химиков больше волнуют свойства полученных веществ, а хемоинформатика занята методами, которые позволяют находить нужные соединения быстрее, дешевле и эффективнее. Она разрабатывает способы представления состава и структуры химических веществ в виде графов, дескрипторов (численных величин, характеризующих свойства молекулы), текстовых строк и методы анализа этой информации.

Несмотря на то, что одно и то же соединение можно представить разными способами, а базы данных химической информации полны ошибок, хемоинформатика активно используется и в науке, и в практике. Разрабатываются и совершенствуются математические модели, которые помогают по данным о структуре вещества, сохраненным в базах, предсказать его свойства, найти похожие соединения или создать новые структуры по заданным параметрам. В том, что касается моделирования отдельных молекул и поиска (или предсказания) соединений с нужными свойствами, по словам сопредседателя симпозиума, руководителя лаборатории хемоинформатики Страсбургского университета Александра Варнека, достигнут большой прогресс. Более сложная задача — моделирование химических реакций. Над этой проблемой Варнек работает вместе с химиками Казанского федерального университета, где в 2012 году при его участии была открыта первая в России магистратура по хемоинформатике. На симпозиуме казанские химики представили три доклада. «Мы учим компьютер предсказывать пути синтеза сложных молекул: какие взять исходные материалы, сколько этапов необходимо, какими должны быть оптимальные экспериментальные условия», — поясняет Варнек.

Трудности связаны с тем, что для моделирования реакции требуется представить как химические соединения (реагенты и продукты), так и условия, а существующие программы рассчитаны на работу с отдельными молекулами. Группа Варнека разработала методологию, по которой химическая реакция рассматривается как одна псевдомолекула, и для ее описания можно использовать аналогичные традиционным дескрипторы. Это позволяет использовать в работе с реакциями весь тот же спектр методов хемоинформатики, что и для химических соединений, в том числе предсказывать, возможна ли реакция и при каких параметрах она будет протекать. Еще один оригинальный подход, разработанный хемоинформатиками Страсбургского университета, — химическая картография. «Она позволяет представить большие массивы химических данных в виде карт, на которых можно найти зоны, "заселенные" молекулами с определенными свойствами, скажем, активными против той или иной патологии, — рассказывает Варнек. — Мы стараемся сконструировать новые химические структуры, которые попадают в интересующие нас зоны. Это позволяет значительно ускорить процесс поиска новых структур или материалов в совместных проектах с нашими партнерами — химиками, биологами, материаловедами».

Конечно, работа хемоинформатика мало похожа на фантастические фильмы и не заканчивается, когда компьютерная модель предлагает варианты химических структур с желаемыми свойствами. Синтезировать предсказанные вещества, исследовать их, многократно оптимизировать — задачи, в которых методы хемоинформатики лишь отчасти помогают ученым. Варнек, правда, предполагает, что в ближайшем будущем все может измениться. Уже существуют образцы полностью автоматизированных систем синтеза новых веществ и материалов, реализованные на микрочипах. «Схематично такие системы состоят из компьютерного, химического и биологического модулей. В химическом синтезируется предсказанное компьютером вещество, в биологическом тестируется, а результат поступает в компьютер. Он адаптирует модель с учетом только что полученных данных, и круг повторяется. Это, конечно, впечатляющее достижение, и крупные фармацевтические фирмы уже пытаются реализовать этот процесс в больших масштабах», — говорит исследователь.

Такими системами управляют алгоритмы, основанные на машинном обучении. Постепенно его подходы внедряются и в другие направления хемоинформатики, например, позволяют генерировать огромные виртуальные библиотеки потенциально синтезируемых молекул. Помимо структуры продукта, такие библиотеки содержат описание реагентов и реакций синтеза. Владимир Поройков рассказывает, что в проекте, поддержанном в рамках совместных программ РФФИ и Национальных институтов здоровья США, его коллектив создал на основе кластерных вычислений методы, позволяющие достаточно быстро — за недели — выделять из больших данных потенциально активные молекулы. В библиотеке, которую для проекта сгенерировали в Национальном институте рака США (NCI/NIH), уже больше миллиарда потенциальных активных молекул, а на следующем этапе ее пополнят еще три миллиарда соединений. «Задача состоит в том, чтобы найти в этих библиотеках антиретровирусные соединения для терапии ВИЧ/СПИД и сопутствующих инфекций. Из 800 млн выделили порядка 60 тысяч, и на следующем этапе для этих десятков тысяч предсказанных соединений уже можно применять методы молекулярного моделирования, чтобы оценить, могут ли они связываться с целевыми рецепторами».

Чтобы создавать новые методы, в хемоинформатику приходят специалисты из разных областей, это один из самых мультидисциплинарных разделов химической науки, требующий также знаний биологии, математики, программирования. До недавнего времени, напоминает Поройков, хемоинформатики как дисциплины вообще не существовало: «Можно сказать, что Александр Варнек — один из основоположников хемоинформатики в Европе, добившийся ее официального включения в перечень магистерских программ (первая европейская магистратура по этому направлению открылась в Страсбурге в 2001 году, — прим. Indicator.Ru)». Сам Поройков характеризует свою научную область максимально широко — Natural Science. Несмотря на то, что сейчас в России уже две магистратуры по хемоинформатике (вторая открылась в Университете ИТМО), эти программы дают главным образом технические навыки. Чтобы применять существующие методы и тем более разрабатывать новые, многому придется учиться самостоятельно. И обучение, подчеркивает Поройков, длится все время, пока исследователь активно работает. Причем спектр направлений самообразования не исчерпывается естественными и компьютерными науками: «Мы во многом примыкаем к медицинской химии, а чтобы успешно работать в этой области, нужно знать все, что относится к созданию лекарств, вплоть до патентования и регуляторных процедур. Например, «библию» медицинского химика The Practice of Medicinal Chemistry, первое издание которой вышло под редакцией Камила Вермута (сейчас опубликовано уже четвертое), подготовили около 50 авторов, обладающих знаниями в различных областях науки и технологии».

Насколько перспективна эта сложная область? Сегодня хемоинформатики создают модели для поиска новых соединений и предсказания условий реакции, но, может, недалек тот день, когда модели будут программировать себя сами вообще без участия человека? Отношение сопредседателей симпозиума к перспективам искусственного интеллекта разнится. В своем докладе Александр Варнек назвал ИИ «героем нашего времени». Он считает, что со временем машина вполне сможет конкурировать с человеком в химии. Правда, для этого нужно выполнить одно важное условие: предсказательные модели в хемоинформатике должны строиться «не только на основе известных экспериментальных данных, но и с учетом фундаментальных представлений о природе молекулярных взаимодействий и механизмах химических процессов». Иначе говоря, алгоритмы должны обрести понимание химии и физики, похожее на человеческое, а не основанное только на статистике. Варнек считает это вполне возможным.

Поройков относится к перспективам ИИ более скептически, по крайней мере в области ключевых для сегодняшней хемоинформатики задач поиска и создания биологически активных соединений. По его мнению, как созданный человеком инструмент, искусственный интеллект базируется на уже накопленных данных. А для того чтобы воссоздать в компьютерных моделях организм человека, данных просто нет: не определено до конца число закодированных в геноме белков, не известна большая часть связей между ними, от которых зависит выполнение биологических функций. «ИИ может решить счетные задачи, может превзойти человека в игре в шахматы или в го. Но в этих играх ограниченное количество фигур, и мы знаем, какие ходы им доступны. А когда мы имеем дело с человеческим организмом, мы до конца не знаем и самих "фигур", а еще меньше — "правила", по которым они друг с другом взаимодействуют». Изучать человека предстоит человеку, а не роботу, уверен Поройков. И потому для образованных и творческих людей, в том числе ученых-химиков, место в будущем найдется.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.