ICLRNov, 2021
通过随机回报分解学习长期奖励再分配
Learning Long-Term Reward Redistribution via Randomized Return Decomposition
Zhizhou Ren, Ruihan Guo, Yuan Zhou, Jian Peng
TL;DR本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制,从而解决了强化学习中因奖励稀疏和延迟所引起的问题,并在基准任务上获得了显著的改进。