ICLRJan, 2021

随机集成双 Q 学习:在没有模型的情况下快速学习

TL;DR本文介绍了一种名为 REDQ 的简单模型无关算法,通过大比例使用的 Update-To-Data(UTD)比率,在连续动作深度强化学习(DRL)基准测试中实现了与当前最先进的基于模型算法相媲美,甚至更好的性能,同时使用比基于模型的方法更少的参数,并且具有更少的挂钟运行时间,是首个成功使用 UTD 比率 >> 1 的连续动作空间的模型无关 DRL 算法。