选择性信用分配

Feb, 2022

Selective Credit Assignment

Veronica Chelu, Diana Borsa, Doina Precup, Hado van Hasselt

TL;DR通过对选择性赋权的 TD 方法进行统一描述和理解，介绍了如何将赋权应用于基于值的学习和规划算法中，以调节预测和控制问题中的后向信用分配。在这个空间中，我们还确定了一些现有的在线学习算法，它们可以作为特例进行选择性分配信用，并增加了一些可以反事实分配信用的算法，使得信用可以从轨迹和策略之外进行分配。

Abstract

Efficient credit assignment is essential for reinforcement learning algorithms in both prediction and control settings. We describe a unified view on temporal-difference algorithms for selective credit assignment

发现论文，激发创造

事后信用分配

本研究提出了一种基于过去决策优劣的后验学习方式，解决了强化学习中的信用分配问题，并通过实证分析展示其成功地解决了一系列信用分配难题。

Dec, 2019

预期资格追踪

介绍了一种名为期望资格追踪( expected eligibility traces )的新方法，相比之前的资格追踪方法，该方法可以更有效地解决强化学习中信用分配问题。

Jul, 2020

模型无关强化学习中的反事实信用分配

本研究应用反事实的思想来解决强化学习领域中action对于未来奖励的影响以及技能和运气的区分问题，并提出了一种使用未来条件价值函数作为基准的策略梯度算法，以及加入了不确定因素的验证和实验，证明了该算法有效性和低方差的特点。

Nov, 2020

适应性时间顺序学分分配的配对权重

本文旨在解决强化学习中最基本的关于时间信用分配问题，通过使用基于状态时的换算系数或基于更一般的由状态，所需格外步骤和奖励时间之间的函数关系的静态/动态配重方法，在学习RL策略的过程中使用元梯度方法学习这些分配函数从而提高性能。

Feb, 2021

Hindsight网络信用分配：离散随机单元网络中高效的信用分配

本文提出了一种新的梯度估计算法HNCA，用于离散随机单元网络的信用分配，该方法通过基于其输出影响其子节点的程度来分配信用，证明HNCA产生的无偏梯度估计与REINFORCE估计器相比具有更小的方差，同时计算成本与反向传播相似。

Oct, 2021

分层强化学习中的信用分配

研究探讨了如何从常规多步强化学习的角度看待分层信用分配，并将其改进为能够提高代理性能的层次算法。

Mar, 2022

透过反事实贡献分析的长期信用分配问题

本文介绍了一种基于Counterfactual Contribution Analysis（COCOA）的信用分配算法，在衡量行动对未来奖励的影响时，通过量化一个反事实的查询来实现精确的信用分配，即“如果智能体采取另一个行动，它仍然能达到这个奖励吗？”，在评估长期信用分配能力的一套问题上进行了实验，并通过与HCA和常见基线比较表明，模型信用分配算法的改进性能由于较低的偏差和方差，为实现样本高效强化学习开辟了新的道路。

Jun, 2023

Hindsight-DICE：深度强化学习的稳定信用分配

利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题，解决了在顺序决策制定问题中缺乏评估反馈的挑战。

Jul, 2023

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

序列压缩加速增强学习中的信用分配

时间差分学习中的时间分配问题是具有挑战性的，本文提出了一种名为Chunked-TD的算法，它使用来自模型的预测概率来计算lambda回报目标，相对于其他基于模型的解决方案，Chunked-TD更不容易受到模型的不准确性影响，该算法可以在线实施，解决了某些问题比传统的TD(lambda)算法更快。

May, 2024