Feb, 2024

回归对齐决策转换器

TL;DR离线强化学习中的传统方法旨在学习最大化累积奖励(也被称为回报)的最优策略。本文提出了一种名为 RADT(Return-Aligned Decision Transformer)的模型,通过解耦规范输入序列来增强回报与状态以及回报与行为之间的关系,从而有效地使实际回报与目标回报保持一致。广泛的实验证明,RADT 减少了基于 DT 方法的实际回报与目标回报之间的差异。