预期资格追踪

Jul, 2020

Expected Eligibility Traces

Hado van Hasselt, Sephora Madjiheurem, Matteo Hessel, David Silver, André Barreto...

TL;DR介绍了一种名为期望资格追踪( expected eligibility traces )的新方法，相比之前的资格追踪方法，该方法可以更有效地解决强化学习中信用分配问题。

Abstract

The question of how to determine which states and actions are responsible for a certain outcome is known as the credit assignment problem and remains a central research question in reinforcement learning and arti

发现论文，激发创造

事后信用分配

本研究提出了一种基于过去决策优劣的后验学习方式，解决了强化学习中的信用分配问题，并通过实证分析展示其成功地解决了一系列信用分配难题。

Dec, 2019

模型无关强化学习中的反事实信用分配

本研究应用反事实的思想来解决强化学习领域中action对于未来奖励的影响以及技能和运气的区分问题，并提出了一种使用未来条件价值函数作为基准的策略梯度算法，以及加入了不确定因素的验证和实验，证明了该算法有效性和低方差的特点。

Nov, 2020

长期信用分配的合成回报

本研究提出一种基于状态关联学习的方法来优化强化学习中时间差分方法的不足，并用其在Atari游戏的任务中获得了比现有技术快25倍的结果。

Feb, 2021

选择性信用分配

通过对选择性赋权的 TD 方法进行统一描述和理解，介绍了如何将赋权应用于基于值的学习和规划算法中，以调节预测和控制问题中的后向信用分配。在这个空间中，我们还确定了一些现有的在线学习算法，它们可以作为特例进行选择性分配信用，并增加了一些可以反事实分配信用的算法，使得信用可以从轨迹和策略之外进行分配。

Feb, 2022

前序特征

探究了一种名为 'Predecessor Features' 的算法，它通过维护一个近似过去积累经验和的方法，允许将时序差分误差准确地传播到比传统方法更多的前身状态中，从而大大提高了增强学习的效率和性能。

Jun, 2022

透过反事实贡献分析的长期信用分配问题

本文介绍了一种基于Counterfactual Contribution Analysis（COCOA）的信用分配算法，在衡量行动对未来奖励的影响时，通过量化一个反事实的查询来实现精确的信用分配，即“如果智能体采取另一个行动，它仍然能达到这个奖励吗？”，在评估长期信用分配能力的一套问题上进行了实验，并通过与HCA和常见基线比较表明，模型信用分配算法的改进性能由于较低的偏差和方差，为实现样本高效强化学习开辟了新的道路。

Jun, 2023

Hindsight-DICE：深度强化学习的稳定信用分配

利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题，解决了在顺序决策制定问题中缺乏评估反馈的挑战。

Jul, 2023

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

从过去到未来：重新思考资格追踪

我们介绍了对信用分配和政策评估挑战的新视角，并引入了双向值函数的概念，它可以同时考虑未来期望回报和过去累计回报，通过实验证明这种价值函数在增强政策评估过程中的有效性。

Dec, 2023

序列压缩加速增强学习中的信用分配

时间差分学习中的时间分配问题是具有挑战性的，本文提出了一种名为Chunked-TD的算法，它使用来自模型的预测概率来计算lambda回报目标，相对于其他基于模型的解决方案，Chunked-TD更不容易受到模型的不准确性影响，该算法可以在线实施，解决了某些问题比传统的TD(lambda)算法更快。

May, 2024