“Искусственный интеллект - это хитрый, сложный, но все-таки алгоритм”

Интервью с Сергеем Колесниковым

В последнее время крупные корпорации - не обязательно IT - все активнее и активнее начали двигаться в область собственной науки, собственных исследований. Мы поговорили с руководителем одного из таких подразделений корпоративной науки - руководителем Tinkoff Research Сергеем Колесниковым.

Как появился Tinkoff Research?

Когда в 2020 году Тинькофф решил сделать свой центр экспертизы по искусственному интеллекту, появилась возможность для создания чего-то нового, чего еще не было в Тинькофф. В тот момент я предложил: раз мы действительно создаем свой центр экспертизы, пусть в нем будет и отдел исследований, чтобы не только использовать текущие технологии и делать классные продукты, которыми славится Тинькофф, но и создавать новые технологии и задавать технологические тренды. Так как я успел до этого момента поработать в компании и сформировать кредит доверия для запуска таких «эзотерических» вещей (с точки зрения больших компаний), эту идею поддержали. С тех пор мы начали собирать отдел исследований и писать статьи.

Вы — физтех. Хорошо известна некая - реальная или вымышленная - высокомерность выпускников МФТИ по отношению ко всем остальным. Существует ли напряженность между физтехами и не-физтехами, и как в Тинькофф проявляется корпоративность физтеха?

Сразу скажу, что правила «только физтех» у нас нет. На самом деле мы куда больше смотрим на мотивацию, критическое мышление человека и его идеи, чем на какие-либо регалии. У нас есть ребята, безусловно, из МФТИ, но также из ВШЭ, Иннополиса и МИСИС. В этом плане мы совершенно открыты. Главное, опять же, чтобы была мотивация. Остальное мы прокачаем.

Много ли у нас физтехов? Есть такое. Но тут надо отметить один занимательный факт, что у Тинькофф есть аспирантура при МФТИ и в этой аспирантуре сейчас устроена половина отдела исследований. Поэтому физтехов у нас действительно много.

Как выстраиваются отношения Tinkoff Research с академической наукой? Есть ли у компании какое-то международное сотрудничество?

Tinkoff Research в этом плане довольно независимая индустриальная лаборатория. Мы не привязаны к каким-либо конкретным вузам и академиям. И как лаборатория мы довольно молоды: нам всего 2 года. Поэтому на текущий момент мы больше нарабатываем некоторые академические регалии. Например, в прошлом году выпустили две статьи на ICML и NeurIPS, обе получили Spotlight. В этом году выпустили уже шесть статей. Кстати говоря, сейчас я рассказываю только про основные конференции, потому что с некоторых пор количество статей, которые у нас приняли на воркшопы, мы просто перестали считать: стало непоказательно. Что касается коллабораций с другими лабораториям, на текущий момент мы про них рассказать не можем. Однако с учеными, с которыми за два года успели познакомиться, некоторые совместные проекты начинаем. Но это все на начальной стадии — больше расскажем в следующем году.

Хорошо известно, что у понятия ИИ много толкований. Как формулируют определение «искусственный интеллект» в Тинькофф?

Когда мы говорим про определение «искусственный интеллект», нельзя не вспомнить замечательный мем: «ML — это когда говорим про Python и что-то реальное, AI — когда хотим кому-то что-то продать». Но если говорить более серьезно, то ИИ, в моем понимании, — это любые алгоритмы, способные выполнять задачи, требующие интеллекта: по распознаванию образов, пониманию естественного языка, решению каких-то логических задач, структуризации информации. Если покопаться в этом определении, почему здесь важно слово «интеллект»? Это логические задачи и работа со структурированной информацией. И мне кажется важным подчеркнуть, что ИИ работает, возможно, со сложными, запутанными, но правильно поставленными и структурированными задачами. А условная смекалочка и мудрость — это больше про людей, отдельное.

Если мы говорим про ИИ сейчас, какие его практические приложения вы видите? И чем в этой области занимается Tinkoff Research?

Что касается практики индустрии, я бы выделил довольно материальные вещи, а именно compute, scalability и fairness. Последние два года наблюдается экспоненциальный рост по вычислительным мощностям, которые требуются для обучения текущих моделей. Да и запускать их на миллионы пользователей тоже недешево. К тому же все должно работать корректно, стабильно, с SLA — это требует определенного навыкаремесла, над которым индустрия сейчас активно работает.

Кроме того, в последнее время заметно сильное развитие генеративного искусственного интеллекта, когда он что-то нам предлагает, как-то отвечает. И здесь возникает огромное количество вопросов как с точки зрения безопасности генерируемого контента, так и к авторским правам по нему. Условно, ИИ обучается на каких-то данных, и есть ситуации, когда какая-то картинка просто запоминается, а потом выдается как сгенерированное изображение, что создает ряд казусов, которые индустрия пытается решать.

Если же говорить с академической точки зрения, про что-то более техническое и фундаментальное, я бы выделил несколько горячих тем. Во-первых, конечно же, большие лингвистические модели (LLM) — по-моему, последний год только про них и говорят, — нашумевший RLHF и темы рядом. Если посмотреть, что происходит в академии, то текущие LLM где только не применяли: в картинках, звуке, роботике, селфдрайвинге, биологии. По сути, на хайпе того, что LLM хорошо работают со структурированным текстом, а текст у нас повсюду, и LLM пытаются применить повсюду.

Кроме того, если затрагивать горячие академические темы, нельзя не вспомнить fairness и unlearning — условно, как не запоминать какую-то, возможно, приватную информацию из обучающих данных. Далее хочется отметить направление meta-learning, которое пытается учить алгоритмы обучаться, in-context learning, генерализацию и адаптацию к новым задачам. Ну и безусловно, мультимодальные модели. Все видят, что LLM хорошо работают со структурированным текстом, и пытаются объединить LLM с другими модальностями — картинками, звуком, видео, — чтобы получить там них лучшее качество.

Мы на все это, конечно, смотрим, пробуем, экспериментируем. У нас есть трек и по большим лингвистическим моделям, и по RLHF, и по aligment, и по мультимодальным моделям. И in-context развиваем — в контексте как deep learning, так и reinforcement learning. В общем, пытаемся держать руку на пульсе и не отставать. Благо удивительным образом это удается и все успевается.

Насколько сильный искусственный интеллект — возможная реальность? Или это пока все-таки журналистская штука, о которой все говорят?

Сильный искусственный интеллект всегда был журналистской страшилкой. Но, если начать разбираться, обычно сильный искусственный интеллект красиво называют словом AGI (artificial general intelligence). И здесь же можно прикопаться к термину: что такое general? General значит, что он умеет решать разные или общие задачи и может эффективно обучаться, т. е. последовательно решать задачи, решать больше и больше этих самых general-задач, тем самым расширять границы своей генерализуемости. Опять же, с максимально достижимым для человека качеством. И если смотреть в этой парадигме, это можно легко перевести в ресерч-направленияе. Это условный multitask learning, continual learning, in-context learning, out-of-distribution generalization, meta learning — давно известные и структурированные направления AI-исследований, которые близки по духу General AI.

Достижим он или недостижим? Узконаправленно, безусловно, много где уже достижим. А вот General AI скорее не видно, чтобы был достигнут, хотя последнее достижение мультимодальных моделей, условная ChatGPT, кажется, максимально близко к нему подобралась. Ведь если посмотреть, у нас есть огромная модель, которая может принимать и текст, и картинки. Она умеет генеративное отвечать на любые вопросы, обучаться и расширять границы своей генерализуемости через тот самый RLHF и постоянное дообучение через разметчиков. И за счет активного использования становится все более general. Но насколько это прямо General AI? Пока еще нет.

И если говорить про все эти страшилки, то страшна не сама модель, а то, как ее используют. Надо следить за тем, как ее будут применять люди, и обсуждать образовательные моменты: как люди реагируют на этот «уже не то чтобы слабый искусственный интеллект» и насколько будут готовы воспринять тот факт, что то, с чем они могут общаться, — просто алгоритм. Пусть даже действительно сложный, хитрый и комплексный алгоритм, который прочитал Википедию и вообще всю информацию человечества и сжал в себя.

Можете ли вы назвать три нерешенные задачи AI, которые сейчас предстоит решить?

Начнем с чего-то более конкретного, что я вижу на горизонте года-двух. Я все еще ожидаю большого прогресса в LLM и мультимодальных моделях. По моим ощущениям и тому, что я вижу сейчас в контексте научных статей, текущие достижения больших лингвистических моделей далеко не финальны. Там есть еще точки роста — как архитектурные, так и с точки зрения данных и размера этих моделей.

Кроме того, я очень жду большой генерализации и адаптивности ИИ. Если посмотреть на области, которые занимаются адаптивностью, робастностью, там есть еще куда копать. Далеко не все решено так хорошо, как можно себе представлять.

Ну и последнее: NetHack. Есть такая очень старая, древняя игра из 90-х, называется NetHack. Думаю, все слышали про нашумевшие Deep Blue, AlphaGo, AlphaStar и прочие вещи, которые играют, казалось бы, в поразительно сложные игры даже лучше человека. Есть даже агенты, которые решают Minecraft. А есть NetHack, который заточен на генерализацию и адаптацию, и там все не так радужно. Этой задачей также немного занимаемся. Очень хочется, чтобы на горизонте мы все-таки ее решили. Это направление кажется мне интересным, ибо генерирует очень большое количество академических челленджей, проблем, которые хочется решать, чтобы прийти к более сильному искусственному интеллекту.

Автор: Алексей Паевский