通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

May, 2023

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning

Ruiyang Xu, Jalaj Bhandari, Dmytro Korenkevych, Fan Liu, Yuchen He...

TL;DR本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

Abstract

auction-based recommender systems are prevalent in online advertising platforms, but they are typically optimized to allocate recommendation slots based on immediate expected return metrics, neglecting the downstream effects of recommendations on user behavior. In this study, we employ

auction-based recommender systems reinforcement learning long-term user engagement metrics temporal difference learning online a/b test

发现论文，激发创造

长期音频推荐的优化：强化学习视角

本文旨在通过强化学习模型，设计一个面向长期个性化推荐的算法，并验证其在千万用户下行业内的显著性能提升。

Feb, 2023

强化学习优化推荐系统中的长期用户参与度

本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Feb, 2019

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

DEAR: 推荐系统中用于在线广告展示的深度强化学习

本文提出了一种基于强化学习的广告策略，通过设计一个新型的深度 Q 网络结构，可以连续更新其广告策略，在推荐列表中插入广告或不插入广告，并选择最优广告和最佳插入位置，使得推荐广告效果显著提升。

Sep, 2019

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023

寿命价值推荐系统的自动表示

本文提出了一种新的架构，将强化学习与推荐系统相结合，以实现用户 - 系统交互的累积收益最大化，避免手动调整特征和自动化状态空间表示构建过程，同时在离线实际推荐数据上进行了实验和解决方案分析。

Feb, 2017

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

面向使用人类反馈进行离线策略排序的强化学习

本文提出了一种新的离线值排名 (VR) 算法，可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量，以提高样本效率。理论和实证研究表明，EM 过程指导了学习策略，从而在没有任何在线交互的情况下享受未来回报和排名度量的优势。广泛的离线和在线实验证明了我们方法的有效性。

Jan, 2024

带有对抗训练的模型强化学习在在线推荐中的应用

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020