KDDOct, 2023

通过基于模拟的强化学习的自动音乐播放列表生成

TL;DR使用强化学习技术,在模拟的歌单生成环境中直接优化用户满意度指标,从而实现对大规模和动态候选歌曲集的个性化推荐。通过离线模拟和在线 A/B 测试验证,该方法相对于基线方法在用户满意度指标上表现更好,并且通过模拟器得到的性能评估与在线指标结果强相关。