Aug, 2024

基于强化学习的序列推荐的高效连续控制视角

TL;DR本研究旨在解决传统离线强化学习推荐系统在处理日益增长的项目时面临的效率问题。我们提出一种高效连续控制框架(ECoC),实现了统一动作表示和相应的策略评估与改进过程,有效提升了推荐决策的策略探索与控制能力。实验结果表明,与离散基线相比,ECoC在训练效率和长远收益上均表现显著优越。