Aug, 2022

可减损失下的强化学习样本优先级

TL;DR本文提出了一种基于可学习性的样本优先级算法,能够更好地在经验回放中利用重要样本,并证明该算法优于随机抽样和传统的以训练损失率为优先级指标的方法。