Apr, 2024

激光学习环境:用于协调关键多智能体任务的新环境

TL;DR我们介绍了Laser Learning Environment (LLE),它是一个协作的多主体强化学习环境,其中协调是中心。在LLE中,代理依靠彼此进行进展(相互依赖性),必须共同采取特定的行动序列才能成功(完美协调),并且完成这些共同行动不会产生任何中间奖励(零激励动态)。这类问题的挑战在于难以摆脱由相互依赖步骤引起的状态空间瓶颈,因为摆脱这些瓶颈没有受到奖励。我们对多个最先进的基于值的MARL算法在LLE上进行测试,并表明它们在协作任务上始终失败,因为它们无法摆脱状态空间瓶颈,尽管它们成功实现了完美协调。我们显示Q-learning的扩展方法,如优先经验回放和n步回报,阻碍了在具有零激励动态的环境中的探索,并发现奇妙的好奇心结合随机网络提取不足以摆脱那些瓶颈。我们展示了解决这个问题的新方法的需求以及LLE作为合作MARL基准的相关性。