Технические науки

Школьники поиграли в будущее: спецы по нейронным сетям помолодели

Специалистом по нейронным сетям можно стать еще до вуза

© Пресс-служба РВК

О школьниках 8-11 классов, которые способны создать самообучающиеся нейронные сети, Indicator.Ru рассказал куратор трека Олимпиады НТИ «Машинное обучение и большие данные» Николай Князев, выпускник ВМК МГУ, сотрудник IT-компании Mentor Graphics

О школьниках 8-11 классов, которые способны создать самообучающиеся нейронные сети, Indicator.Ru рассказал куратор трека Олимпиады НТИ «Машинное обучение и большие данные» Николай Князев, выпускник ВМК МГУ, сотрудник IT-компании Mentor Graphics.

— Где связь между тем, что делают сейчас школьники в рамках Олимпиады НТИ, и такими рынками будущего НТИ, как Нейронет и Технет?

— У нас сейчас есть задачи машинного обучения и аналитики больших данных, которые получили развитие буквально лет пять назад. В этих областях есть очень много разных задач, много разных подходов. Можно брать любую задачу и выбирать подход для ее решения. Задач много, а специалистов, способных их решить, мало. Например, одна их олимпиадных задач заключалась в том, что у участников было очень много неразмеченных данных, и требовалось не просто обучить с их помощью нейросеть, но и сделать так, чтобы она обучалась самостоятельно.

Олимпиада НТИ — всероссийская инженерная олимпиада школьников, которая проводится под эгидой Национальной технологической инициативы. Проводится по 12 профилям, участвовать может любой ученик 7-11 классов. В рамках профиля (трека) «Машинное обучение и большие данные» школьники 8-11 классов писали работающие нейронные сети, позволяющие успешно решить комплекс задач для выборки данных в несколько десятков тысяч элементов. Ребята обучали нейросети работать с неразмеченными данными, а также заставляли их самообучаться на этих данных. В роли таких данных выступал большой корпус текстов с дневниками поэтов и известных литераторов конца XIX – начала XX века. Другим заданием участников стало обучение нейросети выявлению именованных сущностей (имя, место рождения, приговор) на основе анализа личных карточек людей, репрессированных в середине ХХ века.

Indicator.Ru
Справка

Сейчас в Интернете очень много данных, и их для чего-то нужно использовать. Но для того, чтобы использовать их с классическими алгоритмами, нужен человек, который будет сидеть и, условно говоря, анализировать твиттер, помечать каждый твит: «добрый», «злой». И одно дело, когда это делает человек, а другое, когда человек разметил десять твитов, сказал, что в целом это эмоциональные, это — негативные, а работе со всеми остальными десятью тысячами сеть уже обучилась сама.

В другой задаче все то же самое, только там речь идет про анализ дневников. Мы даем пару записей из каждого дневника, люди должны вычислить лексикографические особенности. Например, можно сначала вычислять, кто является автором текста, мужчина или женщина. Это сделать довольно легко — по окончаниям. Потом можно определять географию по топонимам, распознать, что женщина, например, из Москвы.

— И участники должны продумать, какие принципы для этого внедрять?

— Да. У них есть пример, который решает эту задачу, но плохо. Мы специально даем такой пример, чтобы его нельзя было сдать как решение задачи. Но он подготавливает данные для аналитики и выходные данные. Это уменьшает количество технической работы, чтобы оставалось больше времени на разработку алгоритмов. Получается максимальное приближение к производственному процессу. У вас есть время, у вас есть результат, все мощности мира, сервера с хорошими техническими характеристиками, которые могут быть в компаниях, Интернет, задача… Все остальное зависит только от ребенка.

— А откуда у участников Олимпиады изначально появляются нейронные сети?

— Сами создаются. Мы предустанавливаем стандартные известные библиотеки SkLearn, Keras, TensorFlow, Theano, которые обычно используются для машинного обучения нейронных сетей или иных типов машинного обучения. Несмотря на то, что нейросети популярны, не все задачи оптимально решаются с их помощью. Есть другие алгоритмы машинного обучения, например опорные вектора. Кроме того, сейчас активно развиваются рекуррентные нейросети, их специально создают для анализа текстов. Смысл такой нейросети в том, что она воспринимает не отдельные слова, а именно текст и сохраняет контекст. Таким образом, она может анализировать сами фразы и смысл, а не просто статистику по словам.

— Все-таки вернемся к взаимосвязи с НТИ: насколько это сейчас востребовано и своевременно?

— Даже не знаю, как описать востребованность. Например, если человек ведет очень популярный блог, он, вероятно, готов платить деньги за то, что ему скажут о реакции соцсетей на каждый его пост, позитивной или негативной она была и почему, к чему читатели придирались. Можно говорить про анализ медицинских данных: сейчас 30% всех денег, которые крутятся в связанной с машинным обучением сфере, находятся именно там. Медицинские данные одни из самых популярных, это оценка истории болезни. Анализируя карточки — информацию о том, чем человек болел раньше, — можно понять, чем он болеет сейчас. Это тот же самый анализ текста. Понятно, что массово обработать сейчас медицинские карточки мы пока не можем, много проблем с количеством данных, но, может быть, к следующему году удастся с кем-то договориться по этой задаче.

— Ребята понимают, что они работают на перспективном рынке, связанном с Национальной технологической инициативой, или они об этом не думают?

— Можете у них спросить, мне сложно за них говорить. Они понимают, что машинное обучение — это тот смысл, который закладывается в Национальную технологическую инициативу, понимают, что являются теми самыми людьми, которые будут на этом рынке, если мы его займем. Мы как НТИ говорим: вот вам олимпиада, вот вам сервера, вот вам ваши стартапы, если вы хотите дальше развиваться, вот вам поддержка. Но сам код, саму аналитику никто, кроме них, не сделает. Мы можем сделать инфраструктуру и помочь, но работают люди.

— Чем больше я вас слушаю, тем больше понимаю, что каждый из этих детей — это готовый специалист, с которым можно работать.

— Посмотрите сами на баллы: 74% точности. Это два десятиклассника и один из одиннадцатого класса. Сложно что-то добавить к этому. Я приведу еще один хороший пример: я был две недели назад в Санкт-Петербурге на хакатоне, который организовывала Высшая школа экономики. Он был общий, не только для школьников, для всех. Я был там как участник, из взрослых были люди и за 50. Все участвовали, надо было тренироваться в создании стартапов. И сейчас я приезжаю и вижу много знакомых лиц, которые там были равноправными участниками. Это я к тому, что навыки у школьников есть, они уже имели практику. Не в этом году, так в следующем они выйдут уже на новый уровень. Даже не знаю, какие еще привести доказательства, что эти специалисты уже готовы. Олимпиада НТИ предлагает им возможность попасть в вуз, чтобы они не отвлекались ни на что, чтобы хорошо делали свою работу и продвигали ее, а не обучались решению задач ЕГЭ. В идеале так и должно быть, чтобы профессионал занимался своим только делом и на другие вещи не отвлекался.

— А получится сейчас привлечь школьника к какому-то реальному проекту? Учиться-то тоже надо, в университет поступать…

— Тут каждый сам для себя решает. Мое мнение, что у любого человека есть бесконечное количество времени, вопрос только в том, на что он его тратит. Если не на реальный проект, то на сидение в Вконтакте.

Я утверждаю, что любая команда, которая станет победителем трека «Машинное обучение. Большие данные», может делать стартап, и этот стартап будет дико востребован, за ним будут бегать инвесторы. Они будут иметь возможность улучшать жизнь людей в России. У организатора трека Николая Князева такой стартап уже есть, думаю, многие ребята с удовольствием пойдут к нему работать. Они придумали решение, позволяющее анализировать съемки опухоли головного мозга, давая так называемое второе мнение при постановке диагноза. Их стартап будет работать следующим образом: у вас есть поставленный диагноз, и вы не уверены в его качестве. Вы сможете взять снимок, загрузить его в онлайн-сервис и получить результат, который получен искусственным интеллектом на основе анализа больших данных. Результат будет либо подтверждать, либо опровергать поставленный вам диагноз. Это конкретная полезная штука, которая может спасать тысячи жизней. И бизнес хороший, и огромная социальная польза. Вот пример стартапа, из которого может вырасти многомиллиардная компания.

Дмитрий Песков
Директор направления «Молодые профессионалы» Агентства стратегических инициатив

Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram.