Oct, 2022

离线强化学习的状态优势加权

TL;DR本文提出了一种基于状态优势加权和 QSS 学习的离线强化学习方法,相比于传统的基于动作优势的方法能够更好地实现从离线到在线的转移,实验结果显示,该方法在 D4RL 数据集上表现出显著的性能优势和良好的泛化能力。