面向交互推荐系统中的长期用户反馈验证

SIGIRAug, 2023

面向交互推荐系统中的长期用户反馈验证

Towards Validating Long-Term User Feedbacks in Interactive Recommendation Systems

Hojoon Lee, Dongyoon Hwang, Kyushik Min, Jaegul Choo

TL;DR通过重新访问基于回顾数据集的 IRS 实验，我们将 RL 模型与简单的奖励模型进行比较，发现简单贪婪的奖励模型在最大化累积奖励方面一直优于 RL 模型；而将长期奖励赋予更高权重会导致推荐性能下降；用户反馈对基准数据集仅有长期影响。因此，我们得出结论：数据集需要经过谨慎验证，并且在评估 RL-IRS 方法时应包含简单贪婪基线。

Abstract

interactive recommender systems (IRSs) have attracted a lot of attention, due to their ability to model interactive processes between users and recommender systems. Numerous approaches have adopted reinforcement learnin

interactive recommender systems reinforcement learning evaluation cumulative rewards long-term effects

发现论文，激发创造

通过知识图谱增强的强化学习交互式推荐系统

本研究探讨了在交互式推荐系统中，如何使用知识图谱来解决强化学习中的样本效率问题以及用户反馈稀疏问题，具体包括引导候选项选择，增强项和用户状态的表示和传递用户偏好。实验结果表明，该方法具有显著的改进优势。

Jun, 2020

强化学习优化推荐系统中的长期用户参与度

本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Feb, 2019

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

寿命价值推荐系统的自动表示

本文提出了一种新的架构，将强化学习与推荐系统相结合，以实现用户 - 系统交互的累积收益最大化，避免手动调整特征和自动化状态空间表示构建过程，同时在离线实际推荐数据上进行了实验和解决方案分析。

Feb, 2017

长期音频推荐的优化：强化学习视角

本文旨在通过强化学习模型，设计一个面向长期个性化推荐的算法，并验证其在千万用户下行业内的显著性能提升。

Feb, 2023

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

利用强化学习实现多任务融合，提升推荐系统的用户长期满意度

该研究结合用户粘性和主动性两个方面，提出了一种基于批量强化学习的多任务融合框架（BatchRL-MTF），以长期用户满意度为最终目标，部署于大规模工业短视频平台。

Aug, 2022