CatBoost — новый метод машинного обучения от Яндекса


18 июля 2017, 21:28
138


Яндекс разработал новый метод машинного обучения CatBoost. Он придёт на смену Матрикснету, который используется в Яндексе с 2009 года. CatBoost даёт более точные результаты в задачах ранжирования, регрессии и классификации, а также учитывает данные в нечисловой форме. Библиотека машинного обучения CatBoost выложена в общий доступ — её может использовать любой желающий.

В CatBoost также используется градиентный бустинг, но он, во-первых, превосходит Матрикснет по точности предсказаний, а во-вторых, способен учитывать так называемые категориальные признаки — то есть признаки, которые принимают одно из конечного количества значений. Так, облака могут быть кучевыми, перистыми, перисто-кучевыми, слоистыми и так далее. Жанры музыки включают рок, рэп, классику, альтернативу, метал. Подобные данные больше не нужно выражать в числах: CatBoost умеет воспринимать их в исходном виде. Обученные с его помощью модели дают точные результаты и позволяют использовать всё многообразие доступных данных, не тратя время на их перевод в числовую форму.

Новый метод сейчас тестируется на сервисах Яндекса. Так, в Дзене его задействовали для ранжирования ленты рекомендаций, а в Погоде — для расчёта прогноза с помощью технологии Метеум. Во всех случаях он показал себя лучше Матрикснета. В дальнейшем планируется расширение использования этого метода.