May, 2024

变分延迟策略优化

TL;DR在延迟观测环境中,通过包含延迟窗口内的动作来增加状态,以恢复马尔科夫特性,从而实现强化学习,但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能,本工作引入了一种称为变分延迟策略优化(VDPO)的新框架,将延迟强化学习重新构建为一个变分推断问题。该问题进一步被建模为一个两步迭代优化问题,其中第一步是在无延迟环境中进行时序差分学习,而第二步是行为克隆,其效率比时序差分学习要高得多。我们不仅从样本复杂度和性能方面进行了理论分析,而且还通过在 MuJoCo 基准测试中的实验证明,VDPO 可以与最先进的方法达到一致的性能,并且样本效率显著提高(样本量减少了约 50%)。