ICMLJul, 2021

稀疏奖励任务的最短路径约束强化学习

TL;DR提出了 k-SP 约束条件,这是一种新颖的约束条件,可以提高稀疏奖励 MDP 中的样本效率。在数值实验中,通过减少策略的轨迹空间,实现了抑制冗余探索和利用,提高了样本效率,并展示了优于传统算法的成果。