Dec, 2019

模型基强化学习中的复合误差对抗学习

TL;DR本文探讨了根据状态相关最大累积模型误差确定规划范围的技术及其与时间差分方法相结合的应用,实验结果表明,该算法相对于基准的基于模型和无模型方法可以显著提高策略学习效率。