Hindsight网络信用分配:离散随机单元网络中高效的信用分配
本文中,我们对反向传播(Backprop)算法以及信用分配问题进行了重新审视,提出了一个新的算法——Kickback。通过对其性能设立担保限度,我们分解反向传播为一系列交互式的学习算法,并将其误差信号分解。最后,我们给出了Kickback跟随误差梯度所需的充分条件,并证明了其在真实世界回归基准测试中的表现。
Nov, 2014
本论文研究了奖励增强最大似然学习的信用分配问题,并在令牌级的 RAML 和熵正则化强化学习之间建立了理论等价性。在两个基准数据集上,我们展示了所提出的算法分别优于 RAML 和 Actor-Critic,为序列预测提供了新的选择。
Apr, 2018
本文针对合作多智能体系统中个体信用分配问题,重新审视QMIX算法。提出一种新的信用分配度量方法,并通过实证研究表明QMIX在信用分配度量方面能力有限。引入基于QMIX的梯度熵正则化策略,以提高信用分配能力、改善机器学习性能。实验表明,我们的方法可以提高学习效率,获得更好的性能表现。
Feb, 2022
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反事实分配信用的算法,使得信用可以从轨迹和策略之外进行分配。
Feb, 2022
本文介绍了一种基于Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即“如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与HCA和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。
Jun, 2023
使用Boltzmann机器或经常性网络进行协调探索,从而加快多个基于REINFORCE的随机和离散单元的训练速度,甚至超过直接传递估计器(STE)反向传播算法。
Jul, 2023
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
Dec, 2023