在推荐系统中最小化在线实验：用户模拟以评估偏好获取策略

Sep, 2024

在推荐系统中最小化在线实验：用户模拟以评估偏好获取策略

Minimizing Live Experiments in Recommender Systems: User Simulation to Evaluate Preference Elicitation Policies

Chih-Wei Hsu, Martin Mladenov, Ofer Meshi, James Pine, Hubert Pham...

TL;DR本研究解决了在推荐系统中使用实时实验进行政策评估的高成本问题，尤其是在新用户的引导过程中。通过开发反事实鲁棒的用户行为模型和结合生产基础设施的模拟服务，提出了一种新颖的方法来减少在线实验的使用，从而可靠预测新算法的表现。该研究可能显著降低推荐系统评估的成本和时间，提高效率。

Abstract

Evaluation of policies in Recommender Systems typically involves A/B testing using live experiments on real users to assess a new policy's impact on relevant metrics. This ``gold standard'' comes at a high cost, however, in terms of cycle time, user cost, and potential user retention.

发现论文，激发创造

一种用于 REINFORCE 推荐系统的 Top-K 离线校正算法

本文提出了一种方法，在工业推荐系统中使用基于策略梯度的REINFORCE算法来解决通过学习从之前版本的推荐中观察到的数据偏差，同时通过纠正离线反馈数据的偏差来消除REINFORCE在大规模action space中的数据偏差，同时提出一种针对推荐多个项目的新型top-K保真度校正方法，并通过模拟和多个实验表明了该方法的有效性。

Dec, 2018

RecSim: 一个可配置的推荐系统模拟平台

RecSim是一个可配置的用于制作序列交互推荐环境的平台，支持反馈学习和推荐系统技术的发展。

Sep, 2019

推荐系统中在线行为建模：时间上下文的重要性

本研究探讨了在线推荐系统和离线评估之间的差异，提出了通过纳入时间因素来提高推荐系统性能的训练方法，并在实际数据集中验证了该方法的有效性。

Sep, 2020

使用模拟用户来度量推荐系统的效果

本文通过提出基于模拟框架的评估指标，研究了推荐系统中普遍存在的偏见与用户行为之间的关系，并通过经验案例研究了流行度偏见如何随时间展现。

Jan, 2021

利用基于代理的建模和仿真方法理解推荐系统的纵向动态

本研究讨论了如何使用基于代理人建模和仿真（ABM）技术来研究推荐系统的重要的长期动态，我们提供了ABM原理的概述，并概述了一个基于文献的推荐系统仿真框架以及可以用这种基于ABM的仿真框架来解决各种实际研究问题。

Aug, 2021

在推荐系统中估计和惩罚引起的偏好转变

研究表明，推荐系统展示给用户的内容会影响他们的决策，本文通过使用历史用户交互数据训练预测用户模型来评估推荐系统对用户偏好的影响，提出使用 “安全移位”的概念来规避操纵行为。模拟实验表明，优化保持“安全移位”的推荐系统能够避免 manipulative 行为同时仍然能够产生用户参与度。

Apr, 2022

Sim2Rec: 基于模拟器的决策方法，优化顺序推荐系统中实际长期用户参与度

本篇研究利用仿真器训练上下文感知策略来处理Long-term user engagement优化中的现实间隙问题，该策略能够在模拟器和真实环境中学习和识别用户行为模式，并在不同环境下作出最佳决策，实验结果表明Sim2Rec模型在模拟环境和真实环境中均可以有效推荐。

May, 2023

内容提示：建模内容提供商动态以提升推荐系统中用户福利

用户推荐系统通过内容提示政策，识别用户偏好并优化推荐，提高生态系统的健康度和用户福利。

Sep, 2023

推荐生态系统建模：机制设计、强化学习和生成模型的交叉研究挑战

在现代推荐系统中，为了最大化系统对参与者的价值并提高整体生态系统的“健康度”，必须明确地对系统中的所有参与者的激励和行为进行建模，并考虑推荐者策略引起的相互作用。这需要使用强化学习等技术进行长期优化，使用社会选择方法对不同参与者的效用进行权衡，利用机制设计的工具来减少信息不对称并考虑激励和战略行为，通过整合行为经济学和心理学的概念来更好地对用户和项目提供者的行为进行建模，以及利用生成模型和基础模型的最新进展来使这些机制可解释和可操作。基于这些不同学科的交叉点，我们提出了一个概念框架，并阐明了几个研究挑战。

Sep, 2023

算法漂移：研究推荐系统对用户偏好影响的模拟框架

本文针对推荐系统导致用户偏好的潜在负面影响进行了研究，尤其是算法建议与用户选择之间的反馈循环可能引起的偏见放大问题。研究提出了一种随机模拟框架，能够长期模拟用户与推荐系统的互动，并引入两项新指标来量化算法对用户偏好的影响，验证了该框架在多种场景下检测和量化用户偏好漂移的有效性。

Sep, 2024