Dec, 2023

通过隐含分配子轨迹奖励差异进行情节回归分解

TL;DR我们提出了一种名为Diaster(隐式分配子轨道奖励差异)的新的分解方法,将任何情节奖励分解为两个分割点处的两个子轨迹的学分,并且步骤性代理奖励来自期望的差异。我们在理论和实证上验证了分解后的代理奖励函数可以使策略趋近于最优。实验结果表明,我们的方法在样本效率和性能方面优于先前的最新方法。