Jul, 2024

基于因果分离的状态表示学习方法在强化学习推荐系统中的应用

TL;DR在强化学习推荐系统中,我们引入一种创新的因果方法,用于分解状态并提取因果性关键特征,从而使得决策过程更具影响力。通过利用条件互信息,我们开发了一个框架来识别生成过程中的因果关系,并从通常密集且高维的状态表示中分离出关键状态变量,进而构建因果性关键特征,使训练的策略在代理状态空间的一个更优子集上取得了更好的效果。通过广泛的实验,我们展示了我们的方法优于现有方法。