Jul, 2023

在有向无环图约束下学习多个协同代理

TL;DR本文提出了一种新的多智能体强化学习方法,旨在学习在有向无环图 (DAG) 约束条件下的多个协调智能体。我们的方法利用智能体之间的 DAG 结构,有效提高学习性能,并通过提出一种基于合成奖励的 MARL 模型的新型替代值函数来证明其作为最优值函数的下限。计算上,我们提出了一种实用的训练算法,利用新的领导智能体和奖励生成器 / 分配智能体引导分解的从属智能体更好地探索具有 DAG 约束的环境的参数空间。实证上,我们利用了四个 DAG 环境,包括英特尔高容量封装和测试工厂的真实排程,对我们的方法进行基准测试,证明其优于其他非 DAG 方法。