带有对抗训练的模型强化学习在在线推荐中的应用
该论文提出了一种新颖的基于生成对抗网络的强化学习框架,以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战,使用该框架开发了一个用户模型作为仿真环境,开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略,实验证明这个生成对抗用户模型可以更好地解释用户行为,并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。
Dec, 2018
该论文研究了在在线环境中无需探索的情况下,从已记录的反馈中学习互动推荐系统的问题,并提出了一种通用的离线强化学习框架用于推荐,可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习,我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配:支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验,证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。
Oct, 2023
该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题,着重介绍了现有文献在该领域的研究成果,同时强调了该领域面临的挑战、机遇和未来研究方向。
Aug, 2023
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023
本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足,为仍处于离线状态的推荐者提供强大的梯度信号支持,其中包括两个输出层;一个用于自我监督,另一个用于强化学习,从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。
Jun, 2020
本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
介绍了 RecoGym,一个基于强化学习的环境,旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息,有效地提高了推荐系统的实时性和准确性。
Aug, 2018
通过离线强化学习从真实数据中学习,我们提出了一种通用方法来优化生产环境中的竞价策略,这种方法可以用于优化任何可微分的基础策略,并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来,在训练后仅部署优化的基础策略参数,而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本,因为它直接优化现有生产流程的参数,而不是用类似神经网络的黑箱模型替换它们。
Oct, 2023