AlphaFold: алгоритм, который свернул туда

Как нейросети предскажут нам все структуры белков

Чем цепи аминокислот похожи на ювелирные браслеты, в чем заключается парадокс Левинталя и почему он доставляет молекулярным биологам такие трудности, как принадлежащая Google компания перешла от игр в го к «сворачиванию» белков и насколько сильно предсказания их алгоритма могут повлиять на нашу жизнь – обо всем этом повествует материал Indicator.Ru.

Парадокс Левинталя и браслеты вместо бус

Белки — невероятно разнообразные биологические молекулы, которые участвуют в огромном множестве реакций организма. Антитела на страже нашего здоровья, двигательный механизм наших мышц, клеточные «электростанции» для выработки энергии, система переноса кислорода в крови — это лишь немногие примеры систем, построенных на основе белков. Белок строится из компонентов-аминокислот, каждая из которых закодирована в ДНК организма тремя «буквами» — нуклеотидами. Полвека назад, в 1972 году, нобелевский лауреат по химии Кристиан Анфинсен в своей речи на церемонии награждения предположил, что последовательность аминокислот в белке в теории должна предопределять его структуру.

Но аминокислоты могут быть заряжены положительно, отрицательно или оставаться нейтральными, содержать серу, иметь циклы-«колечки», отличаться по форме и размеру. Поэтому цепь аминокислот уже на первом этапе сборки белковой молекулы выглядит не как нитка жемчугов (как ее часто рисуют), а скорее как браслет из Pandora: фрагменты располагаются в разных плоскостях и могут поворачиваться, как на шарнирах, да и сама «основа» выписывает зигзаги. Правда, никакой нити для нанизывания в этом случае нет: весь наш «браслет» состоит из подвесок, которые состыкованы под определенным углом, характерным для конкретной химической связи.

Первичная структура белка

На «шармах» история не заканчивается: как мы уже говорили, многие аминокислоты имеют свой заряд и другие возможности образовывать связи (помимо тех, которыми они соединены в цепь). На выходе мы имеем вторичную структуру — чаще всего либо α-спирали, либо β-листы (слои из цепочек, уложенные стопкой). Держат такую конструкцию вместе водородные связи. Вторичные структуры организованы и уложены в пространстве и формируют третичную 3D-структуру причудливой формы, которая скреплена не только водородными, но и ионными и дисульфидными связями. В таком виде, как ежик пузико, белок прячет свои гидрофобные участки внутрь. Но и это еще не все: на следующем, четвертичном, уровне несколько свернутых в третичную структуру цепей сплетены в клубки-глобулы, канаты-фибриллы и насосы в мембране клетки. От этой окончательной формы и зависит, как белок выполняет свою работу, где его активные центры, ждущие шанса встретиться и прореагировать с какими-либо веществами, как они смогут захватить другие молекулы, поменять свою форму из-за взаимодействий и так далее. Неудивительно, что прионные белки, которые вызывают у других белков «эпидемию» неправильного сворачивания, в масштабах всего организма могут быть причиной смертельных болезней.

И здесь начинается самое интересное. В 1969 году американский молекулярный биолог Сайрус Левинталь подсчитал, что у цепочки из 150 аминокислот будет 450 степеней свободы. Таким образом, даже зная углы связей между аминокислотами с точностью до одной десятой радиана, мы получим 10³⁰⁰ теоретических конфигураций белка. Проблема в том, что белок в доли миллисекунды свернется «как ему надо», почти всегда без посторонней помощи, даже если мы нарушим его четвертичную, третичную или даже вторичную структуру непривычной кислотностью или соленостью раствора, а потом вернем условия в норму. Почему и как это происходит? Очевидный, на первый взгляд, ответ на этот вопрос, что белок ищет самое низкоэнергетическое состояние, — далеко не единственный верный вариант. На сегодняшний день ученым удалось воссоздать пространственную структуру лишь малой толики из 200 миллионов известных человечеству белков. Почему так мало? Рентгеновская кристаллография, криоэлектронная микроскопия и другие методы, создателей которых наградили несколькими Нобелевскими премиями, до сих пор остаются слишком трудоемкими. Изучать с их помощью один белок можно годами, а оборудование для таких изысканий стоит миллионы долларов.

Пространственная структура белков: понять, простить

Здесь на помощь приходит компьютерное моделирование. Так, проект Rosetta предложил инструменты для расчета вариантов структур с наименьшей энергией и даже выпустил компьютерную игру Foldit (дословно — «сверни это»), где обычные участники могут поиграть с параметрами и предложить свои решения (за что не раз становились соавторами научных статей). Компания DeepMind, принадлежащая корпорации Google и известная разработкой искусственного интеллекта, обыгрывающего чемпионов в го, развила очень успешный «сворачивательный» алгоритм AlphaFold. В какой-то момент у компании появился серьезный конкурент, гарвардский ученый Мохаммед Аль-Караиши, который обучил нейросеть при помощи рекуррентного геометрического подхода сворачивать фрагменты белковой структуры «в контексте» того, что идет до и после них.

В международном соревновании 2018 года Critical Assessment of Protein Structure Prediction (что переводится как «критическая оценка предсказания белковых структур») алгоритм оказался примерно в миллион раз быстрее AlphaFold, но проиграл ему в точности. В этом чемпионате, проводящемся раз в два года, конкурсанты рассчитывают структуры белков, которые либо недавно определили экспериментально, либо пока только исследуют. Таким образом, «правильный ответ» к моменту соревнований еще не опубликован и известен только жюри.

Белок с конкурса 2018 года

Как же работает подход проекта-победителя? Первая стадия называется множественным выравниванием последовательностей. Алгоритм ищет похожие участки у других белков в базе данных и обнаруживает в них пары аминокислот, которые не лежат друг за другом в цепочке первичной структуры, но работают сообща — а значит, скорее всего, сближаются во время сворачивания. Нейросеть предсказывает расстояния между такими парами аминокислот в итоговой 3D-структуре и сравнивает свои предположения с реальными данными измерений других белков. В то же время параллельная нейросеть предсказывает углы соединений наших подвесок в браслете.

Схема архитектуры алгоритма AlphaFold

Но порой в новом белке предсказанные по известным примерам углы и расстояния оказываются физически невозможны. Для решения этой проблемы AlphaFold на второй стадии предлагает практически случайную, но «жизнеспособную» по всем физическим законам версию этого белка. При помощи элегантного и почти полностью автоматического метода оптимизации под названием градиентный спуск эта версия подгоняется к предсказаниям с первой стадии. Многие команды применяли один из подходов, но никому не удалось объединить их, да еще и упростив вторую ступень.

«Это изменит все»

Из следующего соревнования Critical Assessment of Protein Structure Prediction, которое завершилось 30 ноября, алгоритм AlphaFold вновь вышел победителем, опередив около сотни команд. Как отметил Джон Молт, вычислительный биолог из Мэрилендского университета, организовавший первый такой конкурс в 1994 году, после таких выдающихся результатов «в каком-то смысле проблема решена». По его словам, точность около 90 из 100 по оценке Global Distance Test соперничает с экспериментальными методами. В соревновании 2020 года средняя точность AlphaFold достигла 92,4 по всем мишеням — с погрешностью в 1,6 ангстрем, что сравнимо с шириной атома. Даже для самых сложных белков из категории свободного моделирования средний результат оставался высоким — 87 из 100.

Ожидания (синий) vs реальность (зеленый): предсказания AlphaFold практически идентичны реальной молекуле

«Это кардинально меняет правила игры», — считает эволюционный биолог из Института биологии развития им. Макса Планка в Германии Андрей Лупас, который оценивал выступления команд в конкурсе. Лаборатория Лупаса билась над «решением» структуры одного бактериального белка почти десять лет. Ничто не помогало превратить сырые данные рентгеновской кристаллографии, похожие на пятна Роршаха, в осмысленную пространственную конфигурацию. AlphaFold решил проблему за полчаса.

«Я и не думала, что эта проблема будет решена при моей жизни», — соглашается с коллегой Джанет Торнтон, структурный биолог в Европейском институте биоинформатики в Хинкстоне, Великобритания. «Это изменит медицину. Это изменит исследования. Это изменит все», — уверен Андрей Лупас. Каким же будет этот дивный новый мир? По мнению Лупаса, после такого прорыва в биологии потребуется «больше думать и меньше капать». Исследователи поясняют, что необходимость в лабораторных экспериментах, конечно, не исчезла. Но добавляют амбициозное «пока».

Однако не все будут рады этому успеху. «Справедливо предполагать, что это разрушительно повлияет на сферу предсказания белковых структур, — говорит Мохаммед Аль-Караиши, который теперь работает в Колумбийском университете в Нью-Йорке. — Предполагаю, многие оставят это поле, так как главная проблема в нем, судя по всему, решена. Это исключительный прорыв, очевидно, один из самых значительных научных результатов моего времени».

Сами авторы открытия считают, что их подход к расшифровке структуры (а значит, и функций) белков поможет значительно повлиять на лечение заболеваний, переработку отходов и другие сферы нашей жизни. Игры с компьютером в го, конечно, были очень увлекательны и полезны для разработки новых нейросетей и алгоритмов, но все это время компания стремилась добиться и прикладных, социально значимых результатов. Кажется, теперь это может получиться. «С мотивированной командой, которая сконцентрирована на изучении того, как машинное обучение может продвинуть вперед мир науки, мы с нетерпением ожидаем увидеть новые пути, при помощи которых наша технология может изменить мир к лучшему», — отмечают представители DeepMind в своем блоге.

Понравился материал? Добавьте Indicator.Ru в «Мои источники» Яндекс.Новостей и читайте нас чаще.

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.

Автор: Екатерина Мищенко

Теги #Белок #Нейросеть #Аминокислота