Oct, 2020

轨迹空间平滑的学习引导奖励

TL;DR该论文介绍了一种使用轨迹空间平滑来学习指导奖励的算法,并阐明了该算法在解决强化学习中长期时序信用分配问题上的优越性。