Опубликовано 18 июля 2017, 18:41

Методом машинного обучения от Яндекса пользуются в CERN

Методом машинного обучения от Яндекса пользуются в CERN

© Яндекс

Новый метод машинного обучения CatBoost, созданный специалистами Яндекса, позволяет эффективно обучать модели на разнородных данных, таких как местонахождение пользователя, история операций и тип устройства. Библиотека машинного обучения CatBoost выложена в открытый доступ, ее могут использовать все желающие. Кроме самой компании, разработку используют в Европейской организации по ядерным исследованиям (CERN). Об этом сообщается в пресс-релизе, поступившем в редакцию Indicator.Ru.

CatBoost — это наследник метода машинного обучения Матрикcнет, который применяется почти во всех сервисах Яндекса. Как и Матрикснет, CatBoost хорошо подходит для работы с разнородными данными, но, в отличие от первого метода, который обучает модели на числовых данных, CatBoost учитывает и нечисловые, например виды облаков или типы зданий. Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде.

Благодаря этому CatBoost обучается лучше, чем аналогичные методы для работы с разнородными данными. Его можно применять в самых разных областях — от банковской сферы до промышленности.

В рамках эксперимента новый метод применялся для улучшения результатов поиска, ранжирования ленты рекомендаций и для расчета прогноза погоды. В дальнейшем CatBoost будет работать и на других сервисах. Его также использует команда Yandex Data Factory в своих решениях для промышленности, в частности для оптимизации расхода сырья и предсказания дефектов.

Кроме того, CatBoost использует Европейская организация по ядерным исследованиям (CERN) для объединения данных, полученных с разных частей детектора LHCb.

Для работы с CatBoost достаточно установить его на свой компьютер. Библиотека поддерживает операционные системы Linux, Windows и macOS и доступна на языках программирования Python и R. Яндекс разработал также программу визуализации CatBoost Viewer, которая позволяет следить за процессом обучения на графиках. Скачать CatBoost и CatBoost Viewer можно на GitHub.