通过随机回报分解学习长期奖励再分配
本文提出了一种基于自我模仿学习的深度强化学习算法,旨在优化在稀疏和情景化奖励设置下的RL算法的效率,并使用Stein变分策略梯度下降来解决自我模仿学习的局限性,并在连续控制MuJoCo运动任务的一个具有挑战性的变体上展示了其有效性。
May, 2018
本文提出了具有直接价值传播能力的一种新型深度强化学习算法——Episodic Backward Update(EBU)。与传统方法通过经验重放的方式使用均匀随机采样不同,我们的算法通过采样整个回合并将状态值连续传递到前一状态。我们的递归算法实现了高效的计算,允许稀疏和延迟奖励直接通过所采样的全部转移。我们在理论上证明了EBU方法的收敛性,并在确定性和随机化环境下进行了实验。尤其是在Atari 2600领域的49个游戏中,EBU方法仅使用5%和10%的采样,就能实现与DQN相同的平均和中位数人类归一化性能。
May, 2018
提出 RUDDER 方法来解决在马尔可夫决策过程中有延迟奖励的情况下,通过奖励重新分配实现把预期的未来奖励推向零,简化 Q 值的估计,并通过在人工任务上的实验验证其在 Atai 游戏中有明显的提高。
Jun, 2018
本文介绍了一种新的时间信用分配算法,使用深度神经网络将时间步骤分解为每个步骤,并采用 Transformer 语言模型学习轨迹状态的重要性和依赖性,可大幅提高回路强化学习的学习效率。作者在一组具有连续运动控制任务的 MuJoCo 上进行了广泛的实验,并证明了该算法的有效性。
May, 2019
本文提出了一种新颖的离线 RL 算法,PARTED,可将轨迹回报分解为逐步代理奖励,具有一定的收敛上界,该算法可以有效地处理观察到的轨迹奖励问题。
Jun, 2022
该研究提出一种针对高维度观察和稀疏奖励环境的计算高效和数量化探索方法——基于奖励的情节访问差异度(REVD)。研究表明,REVD可以显著提高增强学习算法的样本效率并优于基准方法。
Sep, 2022
从稀疏奖励信号学习解决任务是标准强化学习算法的一个重大挑战。然而,在现实世界中,代理很少需要完全从头开始解决稀疏奖励任务。本研究探讨了如何利用没有奖励标签的先前数据来指导和加速代理解决新的稀疏奖励任务,并提出了一种简单的方法,通过在线经验学习奖励模型,使用乐观奖励对未标记的先前数据进行标记,并与在线数据同时用于下游策略和评论家优化。研究结果表明,将未标记的先前数据纳入现有的在线强化学习算法非常容易,并且这样做的效果出乎意料地好。
Nov, 2023
我们提出了一种名为Diaster(隐式分配子轨道奖励差异)的新的分解方法,将任何情节奖励分解为两个分割点处的两个子轨迹的学分,并且步骤性代理奖励来自期望的差异。我们在理论和实证上验证了分解后的代理奖励函数可以使策略趋近于最优。实验结果表明,我们的方法在样本效率和性能方面优于先前的最新方法。
Dec, 2023