ICLRMar, 2023

无 OOD 动作的离线强化学习:通过隐含价值规范进行样本内学习

TL;DR本论文针对离线强化学习中,在分布转变时计算 Q 值的问题,提出了基于量化回归的 IQL 策略,结合隐含值规范化框架提出了 SQL 和 EQL 算法,实验结果验证了算法的有效性和鲁棒性。