May, 2023

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

TL;DR本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统,实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中,我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。