事后信用分配

Dec, 2019

Hindsight Credit Assignment

Anna Harutyunyan, Will Dabney, Thomas Mesnard, Mohammad Azar, Bilal Piot...

TL;DR本研究提出了一种基于过去决策优劣的后验学习方式，解决了强化学习中的信用分配问题，并通过实证分析展示其成功地解决了一系列信用分配难题。

Abstract

We consider the problem of efficient credit assignment in reinforcement learning. In order to efficiently and meaningfully utilize new data, we propose to explicitly assign credit to past decisions based on the <

发现论文，激发创造

通过传输价值优化长时间尺度下的代理行为

本文提出一种新的强化学习范式，利用记忆回忆特定事件来赋予过去行动以荣誉，解决了过去人工智能方法无法解决的问题，将为神经科学、心理学和行为经济学等领域提供计算机模型的机制解释。

Oct, 2018

价值驱动的后见之明建模

本文提出了利用表征学习中的先验信息直接进行值函数预测的方法，即结合模型学习和模型自由方法的优势，确定哪些未来轨迹特征提供有用信息，从而为任务提供可操作的预测目标，加速值函数的学习。

Feb, 2020

预期资格追踪

介绍了一种名为期望资格追踪( expected eligibility traces )的新方法，相比之前的资格追踪方法，该方法可以更有效地解决强化学习中信用分配问题。

Jul, 2020

Hindsight网络信用分配：离散随机单元网络中高效的信用分配

本文提出了一种新的梯度估计算法HNCA，用于离散随机单元网络的信用分配，该方法通过基于其输出影响其子节点的程度来分配信用，证明HNCA产生的无偏梯度估计与REINFORCE估计器相比具有更小的方差，同时计算成本与反向传播相似。

Oct, 2021

选择性信用分配

通过对选择性赋权的 TD 方法进行统一描述和理解，介绍了如何将赋权应用于基于值的学习和规划算法中，以调节预测和控制问题中的后向信用分配。在这个空间中，我们还确定了一些现有的在线学习算法，它们可以作为特例进行选择性分配信用，并增加了一些可以反事实分配信用的算法，使得信用可以从轨迹和策略之外进行分配。

Feb, 2022

前序特征

探究了一种名为 'Predecessor Features' 的算法，它通过维护一个近似过去积累经验和的方法，允许将时序差分误差准确地传播到比传统方法更多的前身状态中，从而大大提高了增强学习的效率和性能。

Jun, 2022

透过反事实贡献分析的长期信用分配问题

本文介绍了一种基于Counterfactual Contribution Analysis（COCOA）的信用分配算法，在衡量行动对未来奖励的影响时，通过量化一个反事实的查询来实现精确的信用分配，即“如果智能体采取另一个行动，它仍然能达到这个奖励吗？”，在评估长期信用分配能力的一套问题上进行了实验，并通过与HCA和常见基线比较表明，模型信用分配算法的改进性能由于较低的偏差和方差，为实现样本高效强化学习开辟了新的道路。

Jun, 2023

Hindsight-DICE：深度强化学习的稳定信用分配

利用重要性抽样比率估计技术改进了策略梯度方法中的信用分配问题，解决了在顺序决策制定问题中缺乏评估反馈的挑战。

Jul, 2023

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

基于人类偏好的奖励学习中基于先见性 L2 正则化

通过引入一种赋分策略（Hindsight PRIOR），将状态重要性纳入奖励学习中，可以改善策略学习速度、整体性能和奖励恢复，在元世界（20%）和DMC（15%）的运动和操纵任务上平均恢复了更多奖励，这表明赋分策略对奖励学习有很大的益处，并且状态重要性在前向动力学预测中是决策偏好的强有力指标。

Apr, 2024