Feb, 2024

重访可回放体验条件

TL;DR经验重播 (ER) 在深度强化学习中被认为只适用于离策略算法,然而也有一些案例表明 ER 已被应用于策略算法,表明离策略特性可能是应用 ER 的一个充分条件。本文重新考虑了更严格的 “经验重播条件”(ERC),并提出了修改现有算法以满足 ERC 的方法。为此,假设策略改进的不稳定性是 ERC 的关键点,通过度量学习的视角揭示了不稳定性因素,即 i) 来自负样本的排斥力和 ii) 不合适经验的重播。因此,得出了相应的稳定化技巧。结果通过数值模拟证实了所提出的稳定化技巧使 ER 适用于一种策略算法 —— 优势执行者 - 评论者算法 (on-policy algorithm),此外,它的学习性能与现有的离策略算法中的软执行者 - 评论者算法相当。