Mar, 2024

多智能体强化学习与奖励机器的层次

TL;DR本文研究利用奖励机器(RMs)来指定奖励函数,从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习(MARL)问题。我们提出了具有层次结构的高级事件的多智能体强化学习(MAHRM),能够应对多智能体之间事件可以并发发生且代理具有高度相互依赖的复杂情况,通过分解任务为一系列更简单的子任务,并分配给少量智能体来减少整体计算复杂性。在三个合作MARL领域的实验结果表明,MAHRM在使用相同的高级事件先前知识时优于其他MARL方法。