基于因果分离的状态表示学习方法在强化学习推荐系统中的应用

Jul, 2024

基于因果分离的状态表示学习方法在强化学习推荐系统中的应用

On Causally Disentangled State Representation Learning for Reinforcement Learning based Recommender Systems

Siyu Wang, Xiaocong Chen, Lina Yao

TL;DR在强化学习推荐系统中，我们引入一种创新的因果方法，用于分解状态并提取因果性关键特征，从而使得决策过程更具影响力。通过利用条件互信息，我们开发了一个框架来识别生成过程中的因果关系，并从通常密集且高维的状态表示中分离出关键状态变量，进而构建因果性关键特征，使训练的策略在代理状态空间的一个更优子集上取得了更好的效果。通过广泛的实验，我们展示了我们的方法优于现有方法。

Abstract

In reinforcement learning-based recommender systems (RLRS), the complexity and dynamism of user interactions often result in high-dimensional and noisy state spaces, making it challenging to discern which aspects of the state are truly influential in driving the decision-making process

发现论文，激发创造

基于解耦通用值函数的强化学习在物品推荐中的应用

本文介绍基于强化学习在推荐系统中应用的挑战及其解决方法GoalRec，提出一种新型分离式通用价值函数，可以泛化到各种不同的目标，并根据高方差的环境动态和奖励信号进行分离。在一系列模拟和实际应用中，GoalRec显示出优越的实用性，解决了大规模RL-based推荐系统的重要挑战。

Apr, 2021

基于视觉模型的强化学习因果关系发现的系统评价

本文研究在机器学习中从观察数据中识别因果关系的问题，探讨如何帮助学习高级变量及其中的因果结构，并介绍了一套基于强化学习的环境用于测试表示学习算法的性能。研究表明，模型中显式地融合结构和模块化有助于因果识别。

Jul, 2021

离线强化学习推荐系统因果决策变换器

本文提出了一种基于因果决策转换器的推荐系统，即CDT4Rec，用于处理离线数据集的强化学习模型。该模型采用了变压器架构，能够处理大规模的离线数据集，并捕捉数据中的长短期依赖关系，以估计动作、状态和奖励之间的因果关系。我们通过对六个真实世界离线数据集和一个在线模拟器的实验，证明了该模型的可行性和优越性。

Apr, 2023

用于推荐系统中偏好理解的因果分离变分自编码器

本文提出了一种新方法-因果分离变分自编码器（CaD-VAE），该方法可以从交互数据中学习因果分离表示，以改善推荐模型的鲁棒性、可解释性和可控性，结果表明此方法可以优于现有的方法

Apr, 2023

面向序列推荐系统的强化学习鲁棒目标

本研究探讨了基于关注度的序列推荐方法，将强化学习算法与序列建模相结合，并通过对比度目标和负采样策略来训练强化学习组件，以增加推荐系统的个性化反馈。同时，我们提出了一种增强方法，以应对真实数据集中可能出现的潜在不稳定性问题，进一步提高模型效率。

May, 2023

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

一个通用的神经因果模型用于交互推荐

通过建立可学习的结构因果模型，并使用古贝尔最大函数作为结构约束，应用增强优化和古贝尔-Softmax作为权衡手段来实现反事实一致性，从而减轻观察数据的幸存者偏差问题。

Oct, 2023

潜空间中干扰变量的因果结构表示学习用于推荐

用户偏好、推荐系统、混淆因素、因果图和潜在空间是本研究的关键词，研究探讨了混淆因素对用户偏好的影响和如何在潜在空间中建模，通过因果图的方式分离混淆因素和用户偏好。最后，提出了基于变分自动编码器的模型，命名为潜在空间中混淆因素的因果结构表示学习 (CSC)，通过实验证明了该模型的优越性以及对混淆因素的可控性。

Nov, 2023

重新思考因果强化学习中的状态解耦

本研究解决了在强化学习中处理噪声时，通过观测估计潜在状态的挑战。论文提出了一种新的方法，结合了强化学习的具体上下文，减少了先前识别性分析中的不必要假设，并通过简单的转移和奖励保持约束，确保算法能够有效解耦状态与噪声。实验证明，该方法在多个基准控制任务中优于现有算法。

Aug, 2024

推荐系统中的因果发现：示例与讨论

本研究解决了传统推荐系统中因果关系建模的不足，通过结合开放数据集和先验知识，构建了因果图。研究发现，只有少数变量有效影响反馈信号，这一观点与当前机器学习中日益增加变量数量的趋势形成鲜明对比。

Sep, 2024