基于强化学习的推荐系统中环境模拟的研究
该论文提出了一种新颖的基于生成对抗网络的强化学习框架,以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战,使用该框架开发了一个用户模型作为仿真环境,开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略,实验证明这个生成对抗用户模型可以更好地解释用户行为,并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。
Dec, 2018
我们提出一种标准化用户模拟器构建的方法,用于评估对话系统质量。我们使用不同的对话规划和生成方法训练六个用户模拟器,并计算一组自动指标来评估这些模拟器的质量。此外,通过让人类用户评估模拟器并与训练系统交互,间接地和直接地评估了这些模拟器。本文提供了一个全面的用户模拟器研究评估框架,并更好地理解了不同用户模拟器的优缺点及其对训练系统的影响。
Sep, 2019
本文介绍了一种基于大型语言模型的推荐系统模拟器 RecAgent,旨在克服仿真研究的缺陷并突出优势,通过真实用户行为来验证其有效性。
Jun, 2023
本篇论文提出了一种基于模型的强化学习解决方案,使用生成对抗网络对用户代理交互进行建模,实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。
Nov, 2019
采用对抗训练的用户模拟器能够生成更加真实和多样化的用户行为数据,并用于训练对话系统中的策略,相比于最大似然的模拟器,能够显著提高对话系统的成功率。
Jun, 2023
通过利用大型语言模型(LLMs)模拟人类行为,本研究提出了一个综合框架,用于训练基于强化学习(RL)的推荐系统,并提供了深入的消融研究,通过电影和书籍推荐实验证明了其有效性。
Jun, 2024
提出了一种基于生成式逆强化学习的用户行为偏好建模方法,该方法可以自动学习用户的行为奖励函数,并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释,实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。
May, 2021
本篇研究利用仿真器训练上下文感知策略来处理 Long-term user engagement 优化中的现实间隙问题,该策略能够在模拟器和真实环境中学习和识别用户行为模式,并在不同环境下作出最佳决策,实验结果表明 Sim2Rec 模型在模拟环境和真实环境中均可以有效推荐。
May, 2023
本文提出一种通过用户模拟来替代人类评估的方法,以实现对话推荐系统的自动评估。作者表明,通过考虑用户的个人喜好和与系统的一般交互流程,偏好建模和特定任务交互模型都有助于实现高度自动化的绩效评估结果和人工人工评估的高度相关性。
Jun, 2020
该研究论文介绍了用于电影预订领域的用户模拟器,它利用规则和收集到的数据,并支持电影票预订和电影寻找两个任务。为了实现对对话框架的经验算法比较,论文提出了一种新的模拟框架,展示了多个代理的思路,并详细介绍了将自己的代理添加到所提出的框架中进行测试的过程。
Dec, 2016