AAAIDec, 2023

离线强化学习的评论引导决策转换器

TL;DR离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力,通过整合学习的值函数,保证了指定目标回报和动作预期回报之间的直接对齐,从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。在随机环境和 D4RL 基准数据集上进行的实证评估表明,CGDT 方法优于传统的 RCSL 方法,展示了 CGDT 在离线强化学习领域中提升技术水平并扩展 RCSL 在广泛强化学习任务中的适用性的潜力。