Jan, 2024

级联强化学习

TL;DR在先前的研究中,瀑布式赌博未考虑用户状态和状态转换对推荐的影响,因此我们提出了一个考虑用户状态和状态转换的广义瀑布式强化学习框架。通过深入研究价值函数的属性并设计一个最优项目列表的快速查找算法,我们开发了两个算法 CascadingVI 和 CascadingBPI,它们在计算效率和样本效率上都表现出较好的结果。通过实验证明我们算法在实践中相较于现有的强化学习算法能够提供改进的计算和样本效率。