Aug, 2022

无需重要性采样的 Actor-Critic 方法的离线校正

TL;DR本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。