Hindsight-DICE:深度强化学习的稳定信用分配
我们提出了一种新的强化学习算法:Hindsight Trust Region Policy Optimization,它通过利用hindsight来提高稀疏抽奖的表现,并引入了QKL和HGF两种方法来提高学习稳定性和表现。我们在各种稀疏抽奖任务中评估了HTRPO,包括简单的基准测试、基于图像的 Atari 游戏和模拟机器人控制。消融研究表明,QKL和HGF对学习稳定性和高性能有很大贡献。比较结果表明,在所有任务中,HTRPO始终优于TRPO和HPG。
Jul, 2019
本文提出了一种新的梯度估计算法HNCA,用于离散随机单元网络的信用分配,该方法通过基于其输出影响其子节点的程度来分配信用,证明HNCA产生的无偏梯度估计与REINFORCE估计器相比具有更小的方差,同时计算成本与反向传播相似。
Oct, 2021
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反事实分配信用的算法,使得信用可以从轨迹和策略之外进行分配。
Feb, 2022
本文介绍了一种基于Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即“如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与HCA和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。
Jun, 2023
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
Dec, 2023
通过使用离线演示算法,提出了一种名为Policy Optimization with Smooth Guidance (POSG)的简单高效的在线深度强化学习算法,该算法能够解决奖励反馈稀疏性的问题,并在稀疏奖励环境中实现可靠有效的长期信用分配以及有效的探索。
Dec, 2023
通过引入一种赋分策略(Hindsight PRIOR),将状态重要性纳入奖励学习中,可以改善策略学习速度、整体性能和奖励恢复,在元世界(20%)和DMC(15%)的运动和操纵任务上平均恢复了更多奖励,这表明赋分策略对奖励学习有很大的益处,并且状态重要性在前向动力学预测中是决策偏好的强有力指标。
Apr, 2024