Sim2Rec: 基于模拟器的决策方法，优化顺序推荐系统中实际长期用户参与度

May, 2023

Sim2Rec: 基于模拟器的决策方法，优化顺序推荐系统中实际长期用户参与度

Sim2Rec: A Simulator-based Decision-making Approach to Optimize Real-World Long-term User Engagement in Sequential Recommender Systems

PDF

Xiong-Hui Chen, Bowei He, Yang Yu, Qingyang Li, Zhiwei Qin...

TL;DR本篇研究利用仿真器训练上下文感知策略来处理 Long-term user engagement 优化中的现实间隙问题，该策略能够在模拟器和真实环境中学习和识别用户行为模式，并在不同环境下作出最佳决策，实验结果表明 Sim2Rec 模型在模拟环境和真实环境中均可以有效推荐。

Abstract

long-term user engagement (LTE) optimization in sequential recommender systems (SRS) is shown to be suited by reinforcement learning (RL) which finds a policy to maximize long-term rewards. Meanwhile, RL has its

long-term user engagement reinforcement learning simulator-based recommender context-aware policy reality-gap problem

发现论文，激发创造

RecSim: 一个可配置的推荐系统模拟平台

RecSim 是一个可配置的用于制作序列交互推荐环境的平台，支持反馈学习和推荐系统技术的发展。

Sep, 2019

RecAgent: 一种适用于推荐系统的新型仿真范式

本文介绍了一种基于大型语言模型的推荐系统模拟器 RecAgent，旨在克服仿真研究的缺陷并突出优势，通过真实用户行为来验证其有效性。

Jun, 2023

基于强化学习的推荐系统中环境模拟的研究

本文介绍了一种基于生成对抗网络的用户模拟器，可以用于预先训练和评估新的基于强化学习的推荐算法，并使用真实世界的电子商务数据进行实验验证。

Jun, 2019

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

RecSim NG: 面向推荐生态系统的原则不确定性建模

本文介绍了一种名为 RecSim NG 的概率化平台，用于模拟多智能体交互的建议系统，并演示了如何使用它来生成可配置的模型，以帮助研究人员和从业者轻松地开发和训练新的算法。

Mar, 2021

强化学习优化推荐系统中的长期用户参与度

本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Feb, 2019

AdaRec：适应性顺序推荐以增强用户的长期参与

AdaRec 是一种适应性的顺序推荐模型，利用基于距离的表示损失从用户的交互轨迹中提取潜在信息，帮助策略识别推荐系统的细微变化，并通过乐观推测的方式进行探索，同时使用零阶动作优化以在复杂环境中保持稳定的推荐质量。在模拟器和实际应用中，AdaRec 在长期性能方面优于所有基准算法。

Oct, 2023

基于 LLM 的推荐系统环境

通过利用大型语言模型（LLMs）模拟人类行为，本研究提出了一个综合框架，用于训练基于强化学习（RL）的推荐系统，并提供了深入的消融研究，通过电影和书籍推荐实验证明了其有效性。

Jun, 2024

基于模型的仿真优化智能回复

本文提出一种名为 SimSR 的智能回复方法，通过模拟潜在的用户回复，直接优化 Smart Reply 的预测结果，实现对多样化回复的学习，相比于现有方法，该方法在两个公共数据集上分别提高了 21% 和 18% 的 ROUGE 得分和自对比得分。

May, 2023

零样本 Sim2Real 环境自适应

提出了使用 Reverse Action Transformation（RAT）策略的方法来解决模拟到现实世界之间的转换问题，并且和其他基线模型相比，在连续控制任务中可实现零样本适应。

Feb, 2023