Новая технология позволит безопасно и эффективно работать с данными

Ученые из СПбГЭТУ «ЛЭТИ» совместно с компанией Smartilizer исследовали новый подход к анализу данных, который не требует передачи информации от источника в место анализа. Авторы проверили эффективность существующих открытых систем на различных наборах данных: показаниях датчиков с движущихся автомобилей и рентгеновских снимках пациентов с пневмонией. Авторы оценили следующие особенности этих систем применительно к устройствам интернета вещей: простоту использования и развертывания, возможности анализа, точность и производительность. Статья о проделанной работе была опубликована в журнале Sensors.

Интернет вещей (IoT) — концепция сети передачи данных между физическими объектами, в которых есть встроенные средства для взаимодействия друг с другом или с внешней средой. Например, в концепции умного дома техника связана как между собой, так и с внешним управлением, что позволяет человеку осуществлять контроль с мобильного телефона. Типичное построение системы IoT, используемой во многих областях информационных технологий, включает в себя три уровня. Первый (уровень устройства) — аппаратные устройства, которые производят и собирают данные. Средний уровень отвечает за передачу данных с устройств на уровень приложения, который предоставляют службы или приложения, использующие или анализирующие данные.

Традиционные подходы к работе с такими системами основаны на сборе данных с устройств в одно централизованное хранилище для дальнейшего анализа. Однако они не всегда применимы из-за большого объема информации, использования каналов связи с ограниченной пропускной способностью, требований безопасности и конфиденциальности. Важными недостатками являются: увеличение времени анализа, рост сетевого трафика, повышение риска несанкционированного доступа к данным. Поэтому разрабатываются новые подходы к анализу таких данных. Одним из них является федеративное обучение (Federative Learning) — подход, который позволяет анализировать данные непосредственно в их источниках и объединять результаты таким образом, чтобы результаты анализа были не хуже, чем в традиционных подходах. Нагрузка и риски при этом меньше, потому что вся обработка данных выполняется локально, на источниках.

Одним из основных аспектов применения этой технологии в области искусственного интеллекта является безопасность и конфиденциальность персональных данных, которые собираются по всему миру буквально ежесекундно. Этот вопрос стал чрезвычайно важным после принятия нескольких законодательных положений, таких как GDPR в Европейском Союзе, CCPA в США и PDPA в Сингапуре. Они требуют прозрачной обработки персональных данных с четко указанной целью и согласия субъекта данных.

Например, в ситуации с умным домом источниками данных будут устройства в каждой квартире: будильник, кран в ванной, теплые полы и светильники. В традиционном подходе для интеллектуального управления всеми этими устройствами все данные с каждой квартиры собираются в централизованном хранилище. С их помощью происходит обучение модели (например, нейронной сети), которая затем передается обратно в систему управления устройствами квартиры. Когда человек ставит будильник перед сном в умном доме, такая модель «знает», что по звонку будильника теплый пол должен начать согреваться, ванна набираться, а свет в определенных комнатах включится. С одной стороны, сбор данных необходим, чтобы обучить такую модель, ведь чем больше данных, тем модель «умнее». С другой стороны, информация о вас: когда вы встаете, когда вы пошли в ванну, когда едите и так далее — становится доступна кому-то еще. Неизвестно кем и как эта информация может быть использована. Согласно принципам федеративного обучения данные будут обрабатываться в вашей квартире, не выходя за ее пределы. При этом общий результат будет не хуже, чем в традиционном решении, за счет того, что система будет обобщать модели, обученные внутри вашей квартиры. Благодаря этому нагрузка на систему самого умного дома будет меньше, каждое устройство будет отвечать само за себя. В результате систему труднее взломать, и людям, которые не имеют к ней доступа, сложнее ей управлять.

Ученые из СПбГЭТУ «ЛЭТИ» проверили возможности систем разных компаний: Google, Webank, Baidu, сообщества OpenMined и других. Авторы провели серию экспериментов с ними на трех различных наборах данных. Первый набор данных содержал информацию о параметрах движущегося легкового автомобиля (средняя скорость, нагрузка на двигатель и прочее) и был нужен для оценки стиля вождения человека, дорожного покрытия и характеристики дорожной обстановки, в которой машина находится. Второй содержал аналогичные сигналы для грузовых автомобилей, и анализ позволял получить информацию о работе машины. Наконец, третий набор представлял собой рентгеновские изображения, полученные от 5232 пациентов (3883 с признаками пневмонии и 1349 нормальных). Анализ позволял отличить больных людей от здоровых.

«Мы сравнили все имеющиеся в настоящее время библиотеки федеративного обучения с открытым исходным кодом и оценили их характеристики. Оказалось, что во всех трех случаях подход дает довольно точные результаты. Однако не все они сейчас могут быть использованы для промышленной разработки. Некоторые системы пока находятся на начальных стадиях и не готовы к широкому применению. Тем не менее сама по себе технология федеративного обучения очень актуальна и быстро развивается. Например, сейчас, если учесть большую загрузку серверов, которые работают с данными о коронавирусной инфекции, о ее распространении и других аспектах, с помощью такой технологии можно будет быстро анализировать данные из разных больниц и составлять статистику. При этом не будут нарушаться права пациентов, ведь информация о них не будет передаваться за пределы больницы», — говорит Иван Холод, доктор технических наук, доцент, декан факультета компьютерных технологий и информатики СПбГЭТУ «ЛЭТИ».

«Наша компания уделяет большое внимание исследованиям в области искусственного интеллекта и, в частности, федеративного обучения. Ряд платформ с открытым кодом уже в ближайшее время позволят реализовывать коммерческие проекты. Данное исследование в очередной раз показало возможность эффективного сотрудничества компании Smartilizer и СПбГЭТУ "ЛЭТИ". Мы будем продолжать совместные исследования и в 2021 году планируем приступить к коммерческому внедрению технологии федеративного обучения», — подчеркивает директор по развитию и совладелец компании Smartilizer Евгений Филиппов.

Автор: Алексей Паевский