Jul, 2020

损失函数与非均匀采样在经验重放中的等效性

TL;DR本研究使用优先经验回放(PER)解决深度强化学习中样本分布不均衡问题,通过等价变换使得非均衡损失函数拥有与均衡损失函数相同的梯度,并在 MuJoCo 和 Atari 环境中验证了其优越性。