随机计算图中的信用分配技术

Jan, 2019

Credit Assignment Techniques in Stochastic Computation Graphs

Théophane Weber, Nicolas Heess, Lars Buesing, David Silver

TL;DR本文提出一种通用且高效的通过强化学习概念来解决梯度估计算法高方差问题的方法，其中包括引入价值函数、基线和评论家等概念，实现了对随机计算图的梯度下降优化。

Abstract

stochastic computation graphs (SCGs) provide a formalism to represent structured optimization problems arising in artificial intelligence, including supervised, unsupervised, and reinforcement learning. Previous work has shown that an unbiased estimator of the gradient of the expected

发现论文，激发创造

使用随机计算图估算梯度

通过引入随机计算图的形式化方法，该论文描述了如何自动推导损失函数梯度的无偏估计量，提出了一种计算梯度估计器的算法，从而统一了以前工作中推导的估算器和其中的方差减少技术，该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型，包括注意力、记忆和控制动作。

Jun, 2015

DiCE: 无限可微分蒙特卡洛估计器

本文介绍了DiCE，一种在随机计算图中生成任意阶导数的正确估计量的单一目标函数，相比使用固定的样本进行逼近的Surrogate Loss方法，DiCE使用自动微分进行图形操作，能更好地解决上述问题，同时提出了DiCE在多智能体学习中的应用。

Feb, 2018

线性时间内学习在实际图中求解组合优化问题

本文介绍一种使用强化学习训练图神经网络求解单人游戏定义的图组合优化问题的新框架，可以处理最小生成树、最短路径、旅行商问题和车辆路径问题等一系列问题，该方法可在线性运行时间内输出近似解，并且能够推广到多种情况，包括NP困难的问题和真实世界的图。

Jun, 2020

Hindsight网络信用分配：离散随机单元网络中高效的信用分配

本文提出了一种新的梯度估计算法HNCA，用于离散随机单元网络的信用分配，该方法通过基于其输出影响其子节点的程度来分配信用，证明HNCA产生的无偏梯度估计与REINFORCE估计器相比具有更小的方差，同时计算成本与反向传播相似。

Oct, 2021

选择性信用分配

通过对选择性赋权的 TD 方法进行统一描述和理解，介绍了如何将赋权应用于基于值的学习和规划算法中，以调节预测和控制问题中的后向信用分配。在这个空间中，我们还确定了一些现有的在线学习算法，它们可以作为特例进行选择性分配信用，并增加了一些可以反事实分配信用的算法，使得信用可以从轨迹和策略之外进行分配。

Feb, 2022

透过反事实贡献分析的长期信用分配问题

本文介绍了一种基于Counterfactual Contribution Analysis（COCOA）的信用分配算法，在衡量行动对未来奖励的影响时，通过量化一个反事实的查询来实现精确的信用分配，即“如果智能体采取另一个行动，它仍然能达到这个奖励吗？”，在评估长期信用分配能力的一套问题上进行了实验，并通过与HCA和常见基线比较表明，模型信用分配算法的改进性能由于较低的偏差和方差，为实现样本高效强化学习开辟了新的道路。

Jun, 2023

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

学习严格凸形随机合作博弈的预期核心

在本文中，我们考虑了随机合作博弈的稳定分配学习问题，在这个问题中，奖励函数被描述为具有未知分布的随机变量。我们提出了一个名为“Common-Points-Picking”的算法，它在多项式数量的样本下，以很高的概率返回一个稳定的分配。我们的算法分析涉及了凸几何学中的一些新结果，包括多个凸集合分离超平面定理的扩展，可能具有独立的研究价值。

Feb, 2024

组合优化的图强化学习：调查与统一视角

图离散结构上关于决策制定方法的综合视角，通过采用强化学习算法解决图优化问题。

Apr, 2024

基于部分奖励解耦的多智能体近端策略优化中的信用分配

本文针对多智能体强化学习中的信用分配问题，提出了一种改进的多智能体强化学习算法PRD-MAPPO。该方法通过部分奖励解耦技术，利用学习的注意机制评估智能体的队友相关性，从而高效地进行信用分配，并在多个任务上展示了优于MAPPO的更高数据效率和渐近性能。

Aug, 2024