Mar, 2024

通过任务不可知通信来推广多智能体协作

TL;DR现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的,我们通过引入一种适用于给定环境中的任何任务的通信策略,解决了这种低效的问题。我们以一种自我监督的方式,使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略,目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下,我们证明了使用我们的潜在表示的策略必定收敛,并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务,在训练期间支持更多智能体的扩展,并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性,在未知任务中优于特定任务的通信策略。