Dec, 2023

离线强化学习的评论引导决策转换器

TL;DR离线强化学习中的CGDT方法结合了基于值函数的方法和决策Transformer的轨迹建模能力,通过整合学习的值函数,保证了指定目标回报和动作预期回报之间的直接对齐,从而弥合了RCSL的确定性和基于值函数方法的概率特性之间的差距。在随机环境和D4RL基准数据集上进行的实证评估表明,CGDT方法优于传统的RCSL方法,展示了CGDT在离线强化学习领域中提升技术水平并扩展RCSL在广泛强化学习任务中的适用性的潜力。