AAAIJul, 2022

JDRec: 在线组合推荐系统的实用 Actor-Critic 框架

TL;DR提出了一种 Actor-Critic 强化学习框架下的组合推荐算法 JDRec,将推荐系统建模为一个组合优化问题,并通过优化列表生成和列表评估两个子问题来实现建模。通过在线和离线实验,验证其在用户交互下的有效性和实用性,在京东的推荐系统中应用,提高了点击率和综合价值。