ICLRNov, 2021

通过随机回报分解学习长期奖励再分配

TL;DR本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制,从而解决了强化学习中因奖励稀疏和延迟所引起的问题,并在基准任务上获得了显著的改进。