Как стать миллионером, предсказывая гололедицу
Как с помощью нейросетей предсказывать обледенение на дорогах и выборы, почему в Сколтехе не любят термин Big Data и что такое решающее дерево, читайте в материале Indicator.Ru о современном предсказательном моделировании.
Миллион рублей можно получить, не только поучаствовав в телевизионной программе с Дмитрием Дибровым. Правда, нужно будет постараться чуть больше, чем просто отвечать на вопросы, зато принести при этом намного больше пользы обществу. В День российской науки правительство Москвы распределило 33 миллиона рублей среди 48 молодых ученых, которые отличились в 2017 году своими исследованиями и разработками в совершенно разных областях науки и техники, от астрономии и приборостроения до гуманитарных наук и городской инфраструктуры.
В номинации «Передача, хранение, обработка, защита информации» премию получил коллектив ученых из Сколковского института науки и технологий «за разработку методов предсказательной аналитики в задачах обработки индустриальных, биомедицинских и экономических данных», которой руководит доцент Сколтеха Евгений Бурнаев. Это не первая его награда. Например, в конце сентября прошлого года аспиранты и студенты из научной группы Евгения выиграли международное соревнование Data Science Game 2017, проходившее в Париже.
Предсказательное моделирование и зачем оно нужно
По словам Евгения, подобными задачами его научная группа занимается с 2008 года, когда на базе Института проблем передачи информации (ИППИ) РАН был организован сектор № 5 интеллектуального анализа данных и предсказательного моделирования (позже — одноименная лаборатория № 10). В 2016 году научная группа, получившая название ADASE (Advanced Data Analytics in Science and Engineering), стала работать на базе Сколтеха.
Суть предсказательного моделирования состоит в том, чтобы, располагая данными о поведении той или иной системы в прошлом, построить прогноз ее поведения в будущем и на основе этого прогноза принимать те или иные решения о ее дизайне, управлении ее поведением и тому подобное. Такие задачи регулярно возникают в самых разных сферах — от косметической промышленности до двигателестроения и от борьбы с кражами конфиденциальной информации до прогнозирования результатов терапии онкологических заболеваний. При этом в ряде случаев приходится не только строить математические модели, но и обрабатывать «большие данные» (Big Data).
«Честно говоря, мы не очень любим этот расхожий термин, Big Data. Для нас — людей, занятых решением практических задач, — этот термин имеет смысл тогда, когда анализируемая информация уже не помещается на отдельном компьютере. Приходится специальным образом организовывать работу с данными из разных источников, учитывать то, что данные могут поступать не одновременно, а вычислительных ресурсов одного компьютера оказывается недостаточно», — пояснил Евгений Бурнаев. Он также добавил, что, несмотря на популярность термина, далеко не все современные промышленные и бизнес-задачи требуют специализированного программного обеспечения, алгоритмов и инфраструктуры, которые относятся к понятию «большие данные». Иногда требуется построить предсказание на основе сравнительно небольшого объема информации.
«Допустим, у нас есть данные об эффективности косметического средства и эти данные представлены в виде таблицы, состоящей из 500 строк. Данные, конечно, не могут быть названы большими, однако это не умаляет важность самой задачи. Производителю нужно понять, какая же комбинация ингредиентов может оказаться наиболее удачной», — говорит исследователь.
Предсказательная модель может помогать не только с прогнозом поведения системы. Такая модель может выделить отклонения от нормального режима работы, и это полезно как в технике для предупреждения аварий, так и в бизнесе, например, для своевременного выявления аномальной активности работников. «Предположим, с определенного компьютера начинают каждый вечер пересылаться те файлы, которые раньше никогда не пересылались. Это может быть признаком того, что пользователь переправляет внутреннюю информацию конкурентам», — отмечает Евгений. Такие системы сейчас активно внедряют многие организации, и в их основе лежат все те же методы.
Применяются такие модели и в инженерном деле. К примеру, расчет характеристик потока жидкости или газа вокруг некоего объекта; эксперименты in silico, компьютерное моделирование, стоят дешевле экспериментов с аэродинамической трубой, но все равно требуют много вычислительных ресурсов и времени. «Например, задачи, связанные с численным решением уравнения Навье — Стокса, считаются довольно долго; с другой стороны, при проектировании изделия обычно необходимо просчитать множество разных вариантов. Набрав некоторое количество данных, мы можем сделать предсказательную модель, которая будет работать гораздо быстрее, и определить те изменения дизайна объекта, которые способны помочь в получении нужного результата».
Сокращение затрат на проектирование и моделирование в инженерных приложениях, бизнес-аналитика, контроль за износом оборудования, подбор технологических параметров на производстве — по словам Евгения Бурнаева, анализ данных может применяться в самых разных отраслях. Фактически его область применения ограничена только возможностью добычи численной информации о той или иной системе, возможностью построения адекватных моделей и экономическим интересом. «Если можно нечто математически описать и получить какой-то параметр, оптимизация которого экономически целесообразна, то нам найдется работа», — подытожил исследователь.
Предсказательное моделирование можно применять и для сугубо «гуманитарных» целей. Например, с его помощью можно прогнозировать исход выборов. Но есть и свои нюансы. «Прежде чем перейти к подобной задаче, надо потратить очень много сил и средств на чисто техническую работу, связанную с агрегацией различных источников данных, построением соответствующей инфраструктуры, приведением этих данных в подходящий для анализа вид, — отрезвляет Евгений желающих легко получить политический прогноз. — Такого рода работу и проект могли бы эффективно делать компании типа Mail.ru или Яндекса, у которых уже есть необходимая инфраструктура и данные».
Работают ученые и над другими направлениями. «Сейчас мы активно занимаемся обработкой данных дистанционного зондирования Земли, — делится Евгений Бурнаев. — Речь идет о том, чтобы по последовательным во времени снимкам со спутников для заданной территории определять, что произошли какие-то нежелательные изменения в обстановке, например, дерево упало на железнодорожные пути, или определять типы строений и потенциальное количество людей, в них проживающих. Это полезно, например, для ритейла, чтобы принять обоснованное решение о том, где же именно стоит расположить очередной магазин сети».
Другое направление исследований ученых связано с обработкой трехмерных данных. Они используются во многих областях — начиная от медицины (данные структурной и функциональной МРТ) и заканчивая IT (компьютерная графика) и горным делом. «Например, по данным структурной МРТ образца керна можно прогнозировать его проницаемость и использовать такого рода прогнозы в цифровых петрофизических моделях, которые востребованы такими компаниями, как "Газпром нефть"», — объясняет глава научной группы. Ученые используют и гораздо более традиционные данные МРТ: создают методику, которая поможет обнаруживать депрессию и эпилепсию по данным томографии.
Алгоритмы и методы
Читайте также
О том, как именно устроены алгоритмы анализа данных, рассказал коллега Евгения, аспирант Сколтеха Никита Ключников. «Модели бывают двух разных типов: интерпретируемые и неинтерпретируемые. Оба типа позволяют предсказать поведение системы или выделить аномалии, однако лишь в первом случае можно говорить о выделении некой понятной человеку закономерности. Скажем, интерпретируемая модель позволяет сказать, какие черты потенциального заемщика указывают на высокий риск невозврата кредита», — пояснил он.
Оба типа моделей строятся методами машинного обучения: такое название обозначает свойство «обучения» компьютерной системы на некой заранее сформированной выборке. Суть обучения заключается в том, что созданная тем или иным методом предсказательная система пытается сделать прогноз для ситуации, ответ в которой уже известен. Если прогноз оказывается далеким от правильного, в систему вносится определенная модификация и процесс повторяется. Иногда подобный процесс насчитывает сотни или даже тысячи шагов со все большим приближением к желаемой цели.
«Один из вариантов машинного обучения — это нейронные сети. Они очень популярны, однако это неинтерпретируемая модель, и вы зачастую не можете узнать, как конкретно она работает. Например, в Париже (во время соревнований Data Science Game 2017, — прим. Indicator.Ru) мы сфокусировались не на нейронных сетях, а на ином методе, градиентном бустинге», — говорит Никита Ключников.
Градиентный бустинг, а точнее, градиентный бустинг на решающих деревьях — это процедура последовательного построения нужного алгоритма для решения заданной задачи, например, выделения из общего перечня наименований тех запчастей, спрос на которые скоро вырастет. Решающим деревом называют совокупность переходов между вопросами вида «да/нет» по серии признаков, и для иллюстрации можно привести пример такого дерева:
1.Сейчас зима?
1а.Да. Спросом будут пользоваться зимние покрышки и жидкость для омывания стекол.
1б.Нет, задать вопрос номер 2.
2.Клиент ездит на внедорожнике?
2а.Да. Спросом пользуются лебедки для вытаскивания машины из болота.
2б.Нет. Задать вопрос номер 3.
3.Клиент живет в городе?
(…)
Реальное дерево насчитывает гораздо больше ветвей. И, что самое важное, оно «выращивается» автоматически, то есть все вопросы формулируются не человеком на основе каких-то своих соображений, а алгоритмом на основе выделенных в базе данных закономерностей. Дерево решений, полученное многошаговой процедурой минимизации ошибки, может иметь крайне сложную с человеческой точки зрения структуру и неочевидные узлы, поэтому в ряде случаев такая модель оказывается фактически неинтерпретируемой. «Чем больше итераций, тем точнее дерево, но и тем сложнее его интерпретировать», — прокомментировал Никита Ключников.
Наука в жизнь
Свои наработки ученые используют не только на соревнованиях или для получения премий. Исследователи из ADASE работали со всемирно известными компаниями: японской корпорацией тяжелого машиностроения IHI, разработчиком элементов питания и аккумуляторов SAFT, самолетостроителем Airbus, производителем космических аппаратов Astrium.
Есть у них и отечественные контракты. «Например, для компании "Минимакс" мы строим нейросетевые модели для прогнозирования температуры поверхности дороги», — рассказывает Евгений. На автомагистралях работают погодные станции, установленные компанией. Данные с них: сила ветра, давление, температура воздуха и так далее, а также прогноз погоды от Росгидромета — передаются нейросети. На основе получившегося прогноза температуры поверхности дороги современные методы машинного обучения позволяют, например, предсказывать обледенение.
Искать себе клиентов команде, работающей в Сколтехе, стены помогают. Точнее, не столько стены, сколько работающие в них коллеги. «В Сколтехе есть проектный офис, сотрудники которого проводят встречи с различными высокотехнологичными компаниями, — комментирует Евгений Бурнаев. — Они формируют портфель потенциальных задач, которые мы начинаем прорабатывать, чтобы сформулировать техническое задание и наше предложение для компании». Обращаются к ученым и стартапы из Сколково, в основном за консультациями. «В этом направлении также часто рождаются интересные проекты», — говорит Евгений.
Не последнюю роль играют и личные знакомства. Выступления на конференциях в России и за рубежом часто помогают найти нужные контакты. «Подходят люди, задают вопросы, мы знакомимся, и результаты обсуждения также иногда превращаются в проекты», — заключает ученый.
Подписывайтесь на Indicator.Ru в соцсетях: Facebook, ВКонтакте, Twitter, Telegram, Одноклассники.