ICMLJun, 2022

将基于模型策略的稳态分布规范化以稳定离线强化学习

TL;DR该研究针对离线强化学习中策略训练不稳定的问题,通过对当前策略的无折扣平稳分布进行正则化,并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布,从而减少分布不匹配引起的误差,并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。