Jun, 2022

轨迹-wise 奖励的可证明高效离线强化学习

TL;DR本文提出了一种新颖的离线 RL 算法,PARTED,可将轨迹回报分解为逐步代理奖励,具有一定的收敛上界,该算法可以有效地处理观察到的轨迹奖励问题。