Химия и науки о материалах9 мин.

Нобелевская премия по химии 2024 года: снова искусственный интеллект

Слева направо: Дэвид Бейкер, Демис Хассабис, Джон Джампер

© Niklas Elmehed © Nobel Prize Outreach

Как многие наши читатели, наверное, знают, Нобелевская премия по химии и премия по физике вручаются одной и той же организацией — Шведской королевской академией наук. И в 2024 году, судя по всему, оба нобелевских комитета решили действовать сообща и присудить премии за работы, связанные с искусственным интеллектом. Однако если премия по физике стала полной неожиданностью и будет разделена меж двумя учеными поровну с одинаковой формулировкой, то с премией по химии все сложнее. Половину награды заберет себе американец Дэвид Бейкер за компьютерный дизайн белков, а половину придется разделить между собой британцам Джону Джамперу и Демису Хассабису из компании DeepMind за разработку ИИ-метода предсказания трехмерной структуры белков (программа AlphaFold). Но обо всем по порядку.

Первичная, вторичная, третичная, четвертичная…

Для начала нужно рассказать о главной проблеме, которая стоит в центре тематики Нобелевской премии текущего года. И работы Бейкера, и работы Джампера и Хассабиса начинались с проблемы фолдинга белка.

Как известно белки — пожалуй, главные макромолекулы всех живых организмов (не считая нуклеиновых кислот), и уж точно — самые разнообразные. Ферменты, рецепторы, каналы и многое другое в наших клетках — это белки. При этом практически все белки — это соединенные в той или иной последовательности два десятка аминокислот. Все белки имеют несколько уровней организации. Первичная структура — это аминокислотная последовательность. Вторичная — чаще всего — так называемая альфа-спираль, в которую сворачивается эта цепочка благодаря водородным связям, образуемым аминогруппой и карбонильной группой каждой пятой аминокислоты. Но это еще не все. При помощи совокупности других взаимодействий вторичная структура организуется в сложную трехмерную упаковку, которая организована при помощи ковалентных, водородных, ионных связей и других взаимодействий. Более того, несколько третичных структур могут образовывать комплексы из нескольких субъединиц — четвертичные структуры. Такая самоорганизация белковых молекул называется фолдингом белка.

Альфа-спираль белка

© Wikimedia Commons

«Проблема фолдинга белка» — это как раз задача предсказать третичную (как минимум) структуру белка по его аминокислотной последовательности. С 1994 года раз в два года проводится масштабный эксперимент Critical Assessment of protein Structure Prediction — CASP, в котором разные алгоритмы пытаются предсказать структуры белка по их последовательности. Именно с этого конкурса и начался путь к нобелевской вершине всех трех лауреатов.

Алфавит для небывалых структур

Исторически первыми свои работы среди всех троих сделал человек, который в ночь с 10 на 11 декабря заберет с собой в гостиничный номер половину всей нобелевской суммы — Дэвид Бейкер.

Наш герой не собирался заниматься белками, клеткой и химией с биологией вообше. Когда он начинал учиться в Гарвардском университете, он выбрал философию и социальные науки. Однако во время курса эволюционной биологии он наткнулся на первое издание ставшего классическим учебника «Молекулярная биология клетки». Бейкер проникся красотой и сложностью работы клеток настолько, что он полностью поменял свою жизнь. Он начал изучать клеточную биологию и в конце концов увлекся белковыми структурами. В 1993 он начал исследовать, как сворачиваются белки, а в конце 1990-х он решил компьютеризировать этот процесс и принять участи в гонке под названием CASP. Бейкер дебютировал на третьем в истории конкурсе CASP в 1998 году со своей программой Rosetta и, по сравнению с другими участниками, у него это получилось действительно хорошо. Однако этот успех привел Бейкера к гениальной идее: что, если развернуть задачу наоборот: вводить желаемую третичную структуру белка (например, хотим сделать рецептор к какой-то молекуле, которого нет в природе) — и пытаться предсказать первичную структуру. Дальше синтезировать такой белок станет делом техники. Как сказал много позже сам Бейкер, если вы хотите построить самолет, вы не начинаете с модификации птицы; вместо этого вы понимаете основные принципы аэродинамики и строите летательные аппараты на основе этих принципов.

Область, в которой конструируются совершенно новые белки, называется протеиновый дизайн de novo. Исследовательская группа «нарисовала» белок с совершенно новой структурой, а затем попросила Rosetta вычислить, какой тип аминокислотной последовательности может привести к получению желаемого белка. Для этого Rosetta выполнила поиск в базе данных по всем известным структурам белков и искала короткие фрагменты белков, которые имели сходство с желаемой структурой. Используя фундаментальные знания об энергетическом ландшафте белков, Розетта затем оптимизировала эти фрагменты и предложила аминокислотную последовательность.

Чтобы выяснить, насколько успешным было это конструирование, исследовательская группа Бейкера создала ген для предлагаемой аминокислотной последовательности и внедрила его в бактерии, которые производили желаемый белок. Затем они выделили спроектированный алгоритмом белок и определили его структуру при помощи рентгеновской кристаллографии.

Оказалось, что Rosetta действительно может создавать белки. «Нарисованный» исследователями и рассчитанный программой белок, Top7, имел почти в точности ту трехмерную структуру, которую они разработали.

Top7 - первый белок, сконструированный Бейкером

© Terezia Kovalova/The Royal Swedish Academy of Sciences

Top7 стало неожиданностью для исследователей, работающих над дизайном белков. Те, кто ранее создавал белки de novo, могли лишь имитировать существующие структуры. Уникальной структуры Top7 не существовало в природе. Кроме того, благодаря 93 аминокислотам белок был крупнее всего, что ранее производилось с использованием технологии de novo.

Бейкер опубликовал свое открытие в 2003 году в журнале Science. Это был первый шаг в том, что можно охарактеризовать только как экстраординарное развитие; некоторые из многих впечатляющих белков, созданных в лаборатории Бейкера, можно увидеть на рисунке. Кроме этого, Бейкер также опубликовал программный код алгоритма Rosetta, поэтому мировое исследовательское сообщество продолжило разрабатывать программное обеспечение, находя новые области применения.

Белки, сконструированные программой Rosetta

© Terezia Kovalova/The Royal Swedish Academy of Sciences

«Глубокий разум»

Выше мы уже рассказали о конкурсе CASP, который проводился каждые два года с 1994 года — и первые 24 года особых прорывов не было. Нужно отметить, что конкурс-эксперимент проводится двойным слепым методом, ни организаторы, ни участники, ни эксперты не знают структуры белка, а только аминокислотную последовательность. Более того, часто тестируются структуры, еще не разрешенные другими методами – ЯМР или рентгеновской кристаллографией. Прорыв случился в 2018 году, когда в дело вступил шахматист, нейробиолог и программист в одном лице.

Демис Хассабис начал играть в шахматы в возрасте четырех лет и достиг уровня мастера в 13 лет, тренируясь играть с программой на ZX Spectrum. В подростковом возрасте он начал карьеру программиста и успешного разработчика игр. Он начал изучать искусственный интеллект и занялся нейробиологией, где сделал несколько очень неплохих работ, посвященных эпизодической памяти и амнезии. Они были опубликованы в журналах в Nature Neuroscience, Neuron, PNAS и Science.

Хассабис использовал то, что узнал о мозге, для разработки более совершенных нейронных сетей для искусственного интеллекта. В 2010 году он стал соучредителем DeepMind («Глубокий разум»), компании, которая разработала искусные модели искусственного интеллекта для популярных настольных игр. Компания была продана Google в 2014 году, а два года спустя DeepMind привлекла всеобщее внимание, когда их программа AlphaGo достигла того, что многие тогда считали святым граалем искусственного интеллекта: победила чемпиона-человека в одной из старейших настольных игр мира, Go. Потренировавшись на этой игре, DeepMind нацелился на более сложную вершину — CASP.

Как работает AlphaFold

© Terezia Kovalova/The Royal Swedish Academy of Sciences

В предыдущие годы точность белковых структур, которые исследователи предсказали для CASP, достигала в лучшем случае 40%. AlphaFold Хассабиса в 2018 году достигла почти 60%. Они выиграли, и превосходный результат застал многих врасплох — это был неожиданный прогресс, но решение все еще было недостаточно хорошим. Для успеха предсказания точность должна была составлять 90% по сравнению с целевой структурой.

А дальше случился тупик, из которого DeepMind вывел новый сотрудник, которого звали Джон Джампер.

По своему происхождению Джампер был физиком-теоретиком: именно теорфизике была посвящена его диссертация, защищенная в 2011 году. При этом еще в 2008 году он пришел работать в компанию, которая занималась использованием суперкомпьютеров для расчета структуры белка. Джампер решил применить в этой работе свои знания физики, а когда прослышал, что в область фолдинга белка пришла DeepMind, отправил им свое резюме.

Новая версия — AlphaFold2 — была дополнена знаниями Джампера о белках и о расчетах их структур. Команда также начала использовать инновацию, стоящую за недавним огромным прорывом в области искусственного интеллекта: нейронные сети под названием трансформеры. Такие сети могут находить закономерности в огромных объемах данных более гибким способом, чем раньше, и эффективно определять, на чем следует сосредоточиться для достижения конкретной цели.

Команда обучила AlphaFold2 работе с обширной информацией из баз данных обо всех известных структурах белков и аминокислотных последовательностях, и новая архитектура искусственного интеллекта начала показывать хорошие результаты как раз к четырнадцатому конкурсу CASP.

Структуры белка, рассчитанные AlphaFold

© Terezia Kovalova/The Royal Swedish Academy of Sciences

В 2020 году, когда организаторы CASP оценили результаты, они поняли, что 50-летняя задача биохимии решена. В большинстве случаев AlphaFold2 работал почти так же хорошо, как рентгеновская кристаллография, что было поразительно. Когда один из основателей CASP, Джон Моулт, завершил конкурс 4 декабря 2020 года, он спросил — что теперь?

Когда Демис Хассабис и Джон Джампер подтвердили, что AlphaFold2 действительно работает, они вычислили структуру всех человеческих белков. Затем они предсказали структуру практически всех 200 миллионов белков, которые исследователи к настоящему времени обнаружили при составлении карт организмов Земли.

Google DeepMind также сделал общедоступным код AlphaFold2, и к нему может получить доступ любой желающий. Модель искусственного интеллекта стала золотой жилой для исследователей. К октябрю 2024 года AlphaFold2 использовали более двух миллионов человек из 190 стран. Сейчас уже есть версия AlphaFold3, которая «замахнулась» и на белково-нуклеиновые комплексы, и на комплексы белков с ионами.

Тем не менее,нельзя сказать, что AlphaFold стал «магической пулей». Совсем недавно, в августе 2024 года вышла работа, которая сумела найти фундаментальные ограничения в алгоритме и пролить на свет на то, как он работает. Группа Лорен Портер из США показала, что предсказательные возможности алгоритма (как второй, так и третьей версии) в области тех белков, которые могут переключаться между несколькими третичными структурами, внезапно оказались весьма низкими. Это позволило немного заглянуть в «черный ящик» AlphaFold.

«Полученные нами данные указывают на то, что речь идет о запоминании структур [на которых натренирован алгоритм], а не о том, как аминокислоты совместно эволюционируют в родственных белках, как, по предположению ученых, происходит при использовании некоторых методов. Если мы хотим эффективно использовать [AlphaFold], нам нужно понять, что лежит в основе этих прогнозов», — говорит член команды Лорен Портер, Девлина Чакраварти.

Возможно, в этой же плоскости лежит еще одна «дырка» в алгоритме, обнаруженная российскими школьниками вместе с учеными Сколтеха. «Мы решили проверить, предскажет ли AlphaFold изменения в стабильности белка вследствие появления одиночной мутации. То есть вы берете некоторый известный белок, вносите в него минимально возможное изменение и хотите знать, полученный мутант будет стабильнее или нестабильнее и насколько. С этой задачей AlphaFold не справился: предсказания никак не согласуются с известными экспериментальными данными», — объяснил старший преподаватель Сколтеха Дмитрий Иванков.

Тем не менее, конечно же, работы нобелевских лауреатов очень ценны, обладают огромным потенциалом и полностью соответствуют завещанию Альфреда Нобеля. Возможно, Нобелевскому комитету не стоило поддаваться ИИ-ажиотажу и подождать с премией Джамперу и Хассабису (в отличие от премии Бейкеру) до момента, когда цикл хайпа Гартнера в области ИИ-технологий в химии с пика завышенных ожиданий пройдет спад разочарования и выйдет на плато продуктивности, но в Стокгольме решили иначе.