Apr, 2023

离线强化学习推荐系统因果决策变换器

TL;DR本文提出了一种基于因果决策转换器的推荐系统,即CDT4Rec,用于处理离线数据集的强化学习模型。该模型采用了变压器架构,能够处理大规模的离线数据集,并捕捉数据中的长短期依赖关系,以估计动作、状态和奖励之间的因果关系。我们通过对六个真实世界离线数据集和一个在线模拟器的实验,证明了该模型的可行性和优越性。