透过反事实贡献分析的长期信用分配问题

Jun, 2023

透过反事实贡献分析的长期信用分配问题

Would I have gotten that reward? Long-term credit assignment by counterfactual contribution analysis

Alexander Meulemans, Simon Schug, Seijin Kobayashi, Nathaniel Daw, Gregory Wayne

TL;DR本文介绍了一种基于Counterfactual Contribution Analysis（COCOA）的信用分配算法，在衡量行动对未来奖励的影响时，通过量化一个反事实的查询来实现精确的信用分配，即“如果智能体采取另一个行动，它仍然能达到这个奖励吗？”，在评估长期信用分配能力的一套问题上进行了实验，并通过与HCA和常见基线比较表明，模型信用分配算法的改进性能由于较低的偏差和方差，为实现样本高效强化学习开辟了新的道路。

Abstract

To make reinforcement learning more sample efficient, we need better credit assignment methods that measure an action's influence on future rewards. Building upon Hindsight Credit Assignment (HCA), we introduce <

发现论文，激发创造

事后信用分配

本研究提出了一种基于过去决策优劣的后验学习方式，解决了强化学习中的信用分配问题，并通过实证分析展示其成功地解决了一系列信用分配难题。

Dec, 2019

预期资格追踪

介绍了一种名为期望资格追踪( expected eligibility traces )的新方法，相比之前的资格追踪方法，该方法可以更有效地解决强化学习中信用分配问题。

Jul, 2020

模型无关强化学习中的反事实信用分配

本研究应用反事实的思想来解决强化学习领域中action对于未来奖励的影响以及技能和运气的区分问题，并提出了一种使用未来条件价值函数作为基准的策略梯度算法，以及加入了不确定因素的验证和实验，证明了该算法有效性和低方差的特点。

Nov, 2020

长期信用分配的合成回报

本研究提出一种基于状态关联学习的方法来优化强化学习中时间差分方法的不足，并用其在Atari游戏的任务中获得了比现有技术快25倍的结果。

Feb, 2021

Hindsight网络信用分配：离散随机单元网络中高效的信用分配

本文提出了一种新的梯度估计算法HNCA，用于离散随机单元网络的信用分配，该方法通过基于其输出影响其子节点的程度来分配信用，证明HNCA产生的无偏梯度估计与REINFORCE估计器相比具有更小的方差，同时计算成本与反向传播相似。

Oct, 2021

选择性信用分配

通过对选择性赋权的 TD 方法进行统一描述和理解，介绍了如何将赋权应用于基于值的学习和规划算法中，以调节预测和控制问题中的后向信用分配。在这个空间中，我们还确定了一些现有的在线学习算法，它们可以作为特例进行选择性分配信用，并增加了一些可以反事实分配信用的算法，使得信用可以从轨迹和策略之外进行分配。

Feb, 2022

对比内省，识别强化学习中的关键步骤

该论文提出了一种将离线对比学习结合强化学习技术来识别任务中关键步骤的算法ConSpec，它通过学习关键步骤的原型来提供信号奖励。该算法的原型具有两个关键的优势：它们能够快速地鉴别所有关键步骤，同时在感知特征被改变时很容易地进行分布外泛化。 ConSpec是一个可以添加到任何现有强化学习算法以提高性能的模块组件。

Oct, 2022

Hindsight-DICE：深度强化学习的稳定信用分配

利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题，解决了在顺序决策制定问题中缺乏评估反馈的挑战。

Jul, 2023

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

从过去到未来：重新思考资格追踪

我们介绍了对信用分配和政策评估挑战的新视角，并引入了双向值函数的概念，它可以同时考虑未来期望回报和过去累计回报，通过实验证明这种价值函数在增强政策评估过程中的有效性。

Dec, 2023