ICLRMay, 2018

减少方差的深度强化学习奖励估计

TL;DR该研究提出使用奖励估算方法来应对机器人学习中复杂任务中可能出现的损坏或随机奖励信号,这种方法能够提高算法的稳定性和性能表现,并且应用范围广泛。