Oct, 2024
用于非动态强化学习的回报增强决策变换器
Return Augmented Decision Transformer for Off-Dynamics Reinforcement
Learning
TL;DR本研究针对离线非动态强化学习,旨在利用易于访问的源域数据以增强目标域的策略学习。我们提出了回报增强决策变换器(RADT)方法,通过调整源域中的回报分布使其与目标域一致,从而借助回报条件监督学习(RCSL)有效解决动态变化问题。实验结果表明,我们的方法在非动态强化学习场景中通常优于基于动态规划的方法。