STAS: 多智能体强化学习的时空回报分解

Apr, 2023

STAS: 多智能体强化学习的时空回报分解

STAS: Spatial-Temporal Return Decomposition for Multi-agent Reinforcement Learning

Sirui Chen, Zhaowei Zhang, Yali Du, Yaodong Yang

TL;DR提出了一种名为Spatial-Temporal Attention with Shapley（STAS）的新方法，该方法可以在时间和空间维度上学习信用分配，在多智能体强化学习中实现有效的空间 - 时间信用分配，优于所有现有的基线。

Abstract

Centralized Training with Decentralized Execution (CTDE) has been proven to be an effective paradigm in cooperative multi-agent reinforcement learning (MARL). One of the major challenges is yet credit assignment,

发现论文，激发创造

Shapley Q-value：一种解决全局奖励博弈的本地奖励方法

本研究介绍了一个合作游戏理论框架(扩展凸性博弈ECG)，提出了一个局部奖励方法(Shapley Q-value)，并用其作为每个代理的评估函数，提出了一个MARL算法SQDDPG，并在导航，猎物与捕食者和交通路口等环境进行了实验，结果显示其相较于目前现有算法具有更快的收敛速度和公平的分配。

Jul, 2019

长期信用分配的合成回报

本研究提出一种基于状态关联学习的方法来优化强化学习中时间差分方法的不足，并用其在Atari游戏的任务中获得了比现有技术快25倍的结果。

Feb, 2021

基于时间的代理注意力机制的剧集化多智能体强化学习中的奖励再分配

本文提出了一种称为AREL的多智能体强化学习技术，它使用注意机制来解决多智能体强化学习中的两大挑战：时间分配和智能体关注。AREL可以预测密集的重新分配奖励，并可与任何给定的多智能体强化学习算法集成。在实验中，AREL相比其他三种最先进的奖励重新分配方法，在Particle World任务中产生了更高的奖励，并在StarCraft中提高了赢率。

Jan, 2022

分层强化学习中的信用分配

研究探讨了如何从常规多步强化学习的角度看待分层信用分配，并将其改进为能够提高代理性能的层次算法。

Mar, 2022

RACA: 基于关系感知的多智能体深度强化学习中的即时合作信用分配

本研究提出了一种名为 RACA 的新方法，利用基于图形的关系编码器对代理之间的拓扑结构进行编码，并利用基于注意力机制的观测抽象机制，实现了在测试时间的 ad-hoc 合作场景中的零启动通用化。

Jun, 2022

基于贪心边际贡献计算的适应值分解用于协同多智体强化学习

本研究提出了一种新的显式学分分配方法，名为具有贪心边际贡献的自适应价值分解（AVGM），它基于一种自适应价值分解，可以学习动态变化的多个智能体组的协作价值，并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明，我们的方法在多个非单调领域取得了显着的性能提高。

Feb, 2023

透过反事实贡献分析的长期信用分配问题

本文介绍了一种基于Counterfactual Contribution Analysis（COCOA）的信用分配算法，在衡量行动对未来奖励的影响时，通过量化一个反事实的查询来实现精确的信用分配，即“如果智能体采取另一个行动，它仍然能达到这个奖励吗？”，在评估长期信用分配能力的一套问题上进行了实验，并通过与HCA和常见基线比较表明，模型信用分配算法的改进性能由于较低的偏差和方差，为实现样本高效强化学习开辟了新的道路。

Jun, 2023

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

基于Shapley值的多智能体强化学习：理论、方法及其在能源网络中的应用

本论文通过合作博弈理论研究了多智能体强化学习中的信用分配问题，提出了一种基于Markov Shapley值的信用分配方案，并应用于能源网络的真实问题上。

Feb, 2024

基于部分奖励解耦的多智能体近端策略优化中的信用分配

本文针对多智能体强化学习中的信用分配问题，提出了一种改进的多智能体强化学习算法PRD-MAPPO。该方法通过部分奖励解耦技术，利用学习的注意机制评估智能体的队友相关性，从而高效地进行信用分配，并在多个任务上展示了优于MAPPO的更高数据效率和渐近性能。

Aug, 2024