STAS: 多智能体强化学习的时空回报分解
本研究介绍了一个合作游戏理论框架(扩展凸性博弈ECG),提出了一个局部奖励方法(Shapley Q-value),并用其作为每个代理的评估函数,提出了一个MARL算法SQDDPG,并在导航,猎物与捕食者和交通路口等环境进行了实验,结果显示其相较于目前现有算法具有更快的收敛速度和公平的分配。
Jul, 2019
本文提出了一种称为AREL的多智能体强化学习技术,它使用注意机制来解决多智能体强化学习中的两大挑战:时间分配和智能体关注。AREL可以预测密集的重新分配奖励,并可与任何给定的多智能体强化学习算法集成。在实验中,AREL相比其他三种最先进的奖励重新分配方法,在Particle World任务中产生了更高的奖励,并在StarCraft中提高了赢率。
Jan, 2022
本研究提出了一种名为 RACA 的新方法,利用基于图形的关系编码器对代理之间的拓扑结构进行编码,并利用基于注意力机制的观测抽象机制,实现了在测试时间的 ad-hoc 合作场景中的零启动通用化。
Jun, 2022
本研究提出了一种新的显式学分分配方法,名为具有贪心边际贡献的自适应价值分解(AVGM),它基于一种自适应价值分解,可以学习动态变化的多个智能体组的协作价值,并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明,我们的方法在多个非单调领域取得了显着的性能提高。
Feb, 2023
本文介绍了一种基于Counterfactual Contribution Analysis(COCOA)的信用分配算法,在衡量行动对未来奖励的影响时,通过量化一个反事实的查询来实现精确的信用分配,即“如果智能体采取另一个行动,它仍然能达到这个奖励吗?”,在评估长期信用分配能力的一套问题上进行了实验,并通过与HCA和常见基线比较表明,模型信用分配算法的改进性能由于较低的偏差和方差,为实现样本高效强化学习开辟了新的道路。
Jun, 2023
信用分配问题是强化学习中一个长期存在的挑战,通过对深度强化学习中的时间性信用分配进行研究,提出了一种统一的信用形式,并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战,还介绍了评估信用分配方法的协议,并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述,为学者在信用分配问题上开展新研究提供了连贯的视角,并提出了未来研究的潜在方向。
Dec, 2023
本论文通过合作博弈理论研究了多智能体强化学习中的信用分配问题,提出了一种基于Markov Shapley值的信用分配方案,并应用于能源网络的真实问题上。
Feb, 2024
本文针对多智能体强化学习中的信用分配问题,提出了一种改进的多智能体强化学习算法PRD-MAPPO。该方法通过部分奖励解耦技术,利用学习的注意机制评估智能体的队友相关性,从而高效地进行信用分配,并在多个任务上展示了优于MAPPO的更高数据效率和渐近性能。
Aug, 2024