May, 2019

深层残差强化学习

TL;DR本文重新探讨了残差算法在无模型和有模型强化学习中的应用,提出了双向目标网络技术来稳定残差算法,在 DeepMind 控制套件基准测试中,得到了明显优于基准 DDPG 的残差版本,同时,在模型为基础的规划中,本研究发现残差算法是解决分布不匹配问题的有效方法,与现有的 TD($k$)方法相比,我们的基于残差的方法对模型做出了更弱的假设,提高了性能。