Российские исследователи предложили способ точнее обновлять рекомендательные модели без переобучения с нуля

Фото: телеканал «Санкт-Петербург» / АО «ГАТР»

Исследователи AI VK Research и лаборатории мультиагентного моделирования и адаптивного интеллекта ИТМО представили новый способ обновления рекомендательных алгоритмов, который помогает снизить вычислительные затраты на обновления ML-моделей и сохранить совместимость с ранее обученными моделями.

Исследователи предложили новый метод обновления генеративных рекомендаций (generative retrieval). На первом этапе их обучения Semantic ID, внутренний идентификатор, отражающий смысловые и поведенческие характеристики объектов каталога (товары, единицы контента и тд), пересчитывается на свежих данных. Далее новые идентификаторы выравниваются с их старой версией.

“Такой метод может быть полезен крупным цифровым платформам, где интересы аудитории быстро меняются, а полное переобучение подобных моделей требует больших вычислительных затрат. Новый способ помогает сократить такие издержки в 8 раз по сравнению с полным переобучение модели,” – отметил Владимир Байкалов, ведущий исследователь в AI VK, инженер лаборатории компьютерных технологий ИТМО.

Ранее существовала проблема индустриального применения generative retrieval в том, что Semantic ID, которые построены с учетом коллаборативного сигнала, со временем “устаревают”: интересы аудитории и паттерны потребления меняются быстро. При этом простое дообучение на новых данных не всегда решает задачу, а полный пересчет Semantic ID без выравнивания может привести к тому, что модели будет сложнее адаптироваться к уже развернутой версии системы и ее компонентам.