离线强化学习推荐系统因果决策变换器

Apr, 2023

离线强化学习推荐系统因果决策变换器

Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning

Siyu Wang, Xiaocong Chen, Dietmar Jannach, Lina Yao

TL;DR本文提出了一种基于因果决策转换器的推荐系统，即CDT4Rec，用于处理离线数据集的强化学习模型。该模型采用了变压器架构，能够处理大规模的离线数据集，并捕捉数据中的长短期依赖关系，以估计动作、状态和奖励之间的因果关系。我们通过对六个真实世界离线数据集和一个在线模拟器的实验，证明了该模型的可行性和优越性。

Abstract

reinforcement learning-based recommender systems have recently gained popularity. However, the design of the reward function, on which the agent relies to optimize its recommendation policy, is often not straightforward. Exploring the →

发现论文，激发创造

RecoGym：在线广告推荐问题的强化学习环境

介绍了 RecoGym，一个基于强化学习的环境，旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息，有效地提高了推荐系统的实时性和准确性。

Aug, 2018

基于石板的推荐系统的强化学习: 可行的分解和实用方法论

该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法，通过分解价值函数，考虑了物品组合效应，并实验证明了该方法的可行性和扩展性。

May, 2019

离线强化学习在实时竞价和推荐中的加速应用：模拟的潜在应用

利用模拟来加速离线强化学习与行动评估的实证研究：探讨离线强化学习与行动评估的实证研究如何受益于模拟，并提供了在RecSys和RTB中进一步促进实证研究的开放挑战和解决方案。

Sep, 2021

面向序列推荐系统的强化学习鲁棒目标

本研究探讨了基于关注度的序列推荐方法，将强化学习算法与序列建模相结合，并通过对比度目标和负采样策略来训练强化学习组件，以增加推荐系统的个性化反馈。同时，我们提出了一种增强方法，以应对真实数据集中可能出现的潜在不稳定性问题，进一步提高模型效率。

May, 2023

离线强化学习在推荐系统中的机遇与挑战

该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题，着重介绍了现有文献在该领域的研究成果，同时强调了该领域面临的挑战、机遇和未来研究方向。

Aug, 2023

一个通用的离线强化学习框架用于交互推荐

该论文研究了在在线环境中无需探索的情况下，从已记录的反馈中学习互动推荐系统的问题，并提出了一种通用的离线强化学习框架用于推荐，可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习，我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配：支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验，证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。

Oct, 2023

自适应掩码的保持决策转换器用于基于强化学习的推荐系统

通过采用自适应遮蔽配置进行序列决策建模，以及引入多尺度分段保留机制以提高计算效率，我们提出了一种新的离线强化学习推荐系统方法，该方法在在线模拟器和离线数据集上的实验分析中明显展示了其优势。

Mar, 2024

基于因果分离的状态表示学习方法在强化学习推荐系统中的应用

在强化学习推荐系统中，我们引入一种创新的因果方法，用于分解状态并提取因果性关键特征，从而使得决策过程更具影响力。通过利用条件互信息，我们开发了一个框架来识别生成过程中的因果关系，并从通常密集且高维的状态表示中分离出关键状态变量，进而构建因果性关键特征，使训练的策略在代理状态空间的一个更优子集上取得了更好的效果。通过广泛的实验，我们展示了我们的方法优于现有方法。

Jul, 2024

ROLeR: 离线强化学习中的有效奖励塑形在推荐系统中的应用

通过在线推荐系统中非参数奖励塑造方法和更具代表性的不确定性惩罚设计，提出了一种新颖的基于模型的离线强化学习方法，ROLeR，用于推荐系统中的奖励和不确定性估计，并通过四个基准数据集上的广泛实验验证了其在性能方面的表现。

Jul, 2024

基于强化学习的序列推荐的高效连续控制视角

本研究旨在解决传统离线强化学习推荐系统在处理日益增长的项目时面临的效率问题。我们提出一种高效连续控制框架（ECoC），实现了统一动作表示和相应的策略评估与改进过程，有效提升了推荐决策的策略探索与控制能力。实验结果表明，与离散基线相比，ECoC在训练效率和长远收益上均表现显著优越。

Aug, 2024