ICMLJun, 2021

优先级时间差分学习

TL;DR在 TD 学习中,提出一种重新加权状态的方法,在更新方程中考虑到其重要性和价值估计的可靠性,证明此方法在线性函数逼近下收敛,并在实验中与其他 TD 方法进行比较。