基于 REINFORCE 推荐算法的用户满意度奖励塑造
本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足,为仍处于离线状态的推荐者提供强大的梯度信号支持,其中包括两个输出层;一个用于自我监督,另一个用于强化学习,从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。
Jun, 2020
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。
Nov, 2020
本文提出由观察和行动函数构成的势函数的差作为附加奖励的 shaping advice 来增加环境奖励的稀疏性问题的增强学习方法,分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出,使用 shaping advice 能够使规则更快地学习任务并获得更高的奖励。
Feb, 2022
在本研究中,我们提出了一种新颖的批量逆向强化学习模型,通过使用折扣的稳态分布修正结合学习奖励 (LTR) 和推荐代理评估,同时满足组合要求,并通过贝尔曼转化和 KL 正则化来改进效果和效率。
Oct, 2023
本研究探讨了基于关注度的序列推荐方法,将强化学习算法与序列建模相结合,并通过对比度目标和负采样策略来训练强化学习组件,以增加推荐系统的个性化反馈。同时,我们提出了一种增强方法,以应对真实数据集中可能出现的潜在不稳定性问题,进一步提高模型效率。
May, 2023
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023
在满足控制问题中的规范和追踪要求的过程中,需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则,如期望的调整时间和稳态误差。基于这种必要性,本文提出了一组结果和系统奖励设计过程,可以确保最优策略生成的轨迹与指定的控制要求相一致,并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法,我们的实验一致证明了我们提出的框架的有效性,突出了其确保策略符合所规定的控制要求的能力。
Nov, 2023
本文提出了一种名为 PrefRec 的新模型,它基于用户历史行为的喜好训练基于强化学习的推荐器,可有效地优化长期用户参与度,在大量的实验中,PrefRec 在所有任务中显着优于之前的最先进方法。
Dec, 2022
本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度,该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network,实验结果表明 FeedRec 能够有效地优化长期用户参与度,并且优于现有的技术水平。
Feb, 2019
通过使用基于强化学习(RL)的方法从 clickstream 数据中提取代理评分(proxy ratings),无需使用调查数据进行训练。代理评分比传统的调查数据更加直观和有用,可以有效地解决调查数据存在的各种缺陷。
Jun, 2020