一类 POMDP 的在线学习：针对有反应的用户的最佳推荐

Mar, 2016

一类 POMDP 的在线学习：针对有反应的用户的最佳推荐

Optimal Recommendation to Users that React: Online Learning for a Class of POMDPs

Rahul Meshram, Aditya Gopalan, D. Manjunath

TL;DR本文提出了一种自动在线推荐系统的模型，其中用户的喜好是时变的并且可以依赖于过去的推荐历史和玩出历史，通过使用基于 Thompson 采样的在线强化学习算法，该模型可以学习优化推荐效果，并具有可证明的性能保证。

Abstract

We describe and study a model for an automated online recommendation system (AORS) in which a user's preferences can be time-dependent and can also depend on the history of past recommendations and play-outs. The three key features of the model that makes it more realistic compared to

automated online recommendation system latent user preference learning algorithms reinforcement learning thompson sampling

发现论文，激发创造

推荐系统的部分可观测马尔科夫决策过程

本研究提出了一种名为 POMDP-Rec 的部分可观察马尔可夫决策过程算法，针对在线推荐系统中存在的 “Recurrent Deterioration” 现象，解决了缺乏负面训练数据和用户兴趣演化等问题，通过优化神经网络，利用历史数据，取得了和基于公共数据集进行详尽微调的模型相当的推荐效果。

Aug, 2016

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

基于模型的多智能体个性化短视频推荐系统

本文提出了一种基于强化学习框架的工业级短视频推荐排序系统，通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下，推荐会话的马尔可夫决策过程。此外，我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上，为数亿用户提供服务。

May, 2024

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

PAC 强化学习用于预测状态表示

本文研究了在线强化学习在部分可观测动态系统中的应用，提出了一种基于模型的算法，通过可观测量学习了一个近似最优策略，其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近，可处理具有潜在大状态和观测空间的系统，并且在一些特殊模型中也得到了有效应用。

Jul, 2022

恢复奖励下的离线规划和在线学习

本文提出了一类非平稳多臂赌博问题，并设计了基于 “纯周期策略” 的算法来最大化预期累积奖励，该策略在离线和在线问题中都被证明具有高效性和近似优势，可为具有非平稳和恢复奖励的离线规划和在线学习应用提供方法参考。

Jun, 2021

基于 POMDP 的相关广告的序列选择

本研究旨在研究如何使用部分可观察的马尔可夫决策过程和相关广告的相关性来提高在线发布者广告收入的效率和持续性。研究表明，使用类似于协作过滤的公式可以自然地更新相关广告的信念状态。在一个主要搜索引擎中收集和分类的真实广告数据集上进行实验，并演示我们的算法显著优于其他强基线。

Jul, 2013

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

学习算法和推荐系统中的风险规避

研究在线学习算法中存在的风险规避现象，它如何影响推荐系统的需求和内容创作者的创作，以及如何通过平衡内容的稳定性和质量来解决这一问题。

May, 2022

POMDP 的在线规划算法

本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法，并在各种环境下对这些方法进行了评估，结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。

Jan, 2014