Jun, 2022
将基于模型策略的稳态分布规范化以稳定离线强化学习
Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning
TL;DR该研究针对离线强化学习中策略训练不稳定的问题,通过对当前策略的无折扣平稳分布进行正则化,并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布,从而减少分布不匹配引起的误差,并在广泛的连续控制离线RL数据集上展现出竞争性的性能。