JDRec: 在线组合推荐系统的实用 Actor-Critic 框架

AAAIJul, 2022

JDRec: 在线组合推荐系统的实用 Actor-Critic 框架

JDRec: Practical Actor-Critic Framework for Online Combinatorial Recommender System

Xin Zhao, Zhiwei Fang, Yuchen Guo, Jie He, Wenlong Chen...

TL;DR提出了一种 Actor-Critic 强化学习框架下的组合推荐算法 JDRec，将推荐系统建模为一个组合优化问题，并通过优化列表生成和列表评估两个子问题来实现建模。通过在线和离线实验，验证其在用户交互下的有效性和实用性，在京东的推荐系统中应用，提高了点击率和综合价值。

Abstract

A combinatorial recommender (CR) system feeds a list of items to a user at a time in the result page, in which the user behavior is affected by both contextual information and items. The CR is formulated as a combinatorial →

combinatorial recommender optimization list generation list evaluation actor-critic reinforcement

发现论文，激发创造

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

组合推荐系统的顺序评估和生成框架

该研究提出了一种基于生成序列概念、以期望总效用为目标函数的组合推荐模型，包含基于搜索和增强学习的序列生成策略，以及全面考虑用户、商品信息和商品间关联的评估模型，离线实验表现出优越性能。

Feb, 2019

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

BARCOR: 面向会话推荐系统的统一框架

本文提出了一种基于 BART 的统一框架，针对面向对话推荐的两个任务（推荐和响应生成）设计了单一模型，另外还构建了一个电影领域的轻量级知识图谱，在自动化和人类评估方面都取得了最先进的表现。

Mar, 2022

AdaRec：适应性顺序推荐以增强用户的长期参与

AdaRec 是一种适应性的顺序推荐模型，利用基于距离的表示损失从用户的交互轨迹中提取潜在信息，帮助策略识别推荐系统的细微变化，并通过乐观推测的方式进行探索，同时使用零阶动作优化以在复杂环境中保持稳定的推荐质量。在模拟器和实际应用中，AdaRec 在长期性能方面优于所有基准算法。

Oct, 2023

基于对抗生成网络的强化学习推荐系统用户模型

该论文提出了一种新颖的基于生成对抗网络的强化学习框架，以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战，使用该框架开发了一个用户模型作为仿真环境，开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略，实验证明这个生成对抗用户模型可以更好地解释用户行为，并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。

Dec, 2018

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

基于模型的多智能体个性化短视频推荐系统

本文提出了一种基于强化学习框架的工业级短视频推荐排序系统，通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下，推荐会话的马尔可夫决策过程。此外，我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上，为数亿用户提供服务。

May, 2024

社交推荐系统中的分布式在线学习

分析分布式在线推荐系统中的分散序列决策制定问题，针对分布式推荐系统中信息不对称的情况，通过协作性上下文问题模型解决，实现对推荐销售的最大收益。

Sep, 2013

估计 - 行动 - 反思：走向对话型和推荐系统之间的深度交互

本文提出了一种名为 EAR 的新的 CRS 框架，旨在解决三个基本问题：何时提供推荐、什么问题可以问及什么时候以及如何应对用户的反馈。该框架包括三个阶段：估计、操作、反思。在 Yelp 和 LastFM 数据集上进行的广泛实验表明，该框架显著改进了现有方法与 CRM（32）相比，在推荐准确度上有更高的命中率和更少的对话轮次。

Feb, 2020