Feb, 2023

基于贪心边际贡献计算的适应值分解用于协同多智体强化学习

TL;DR本研究提出了一种新的显式学分分配方法,名为具有贪心边际贡献的自适应价值分解(AVGM),它基于一种自适应价值分解,可以学习动态变化的多个智能体组的协作价值,并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明,我们的方法在多个非单调领域取得了显着的性能提高。