Jun, 2022

离线强化学习中的温和保守型 Q 学习

TL;DR提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。