Aug, 2023

分布式 POMDP 中利用离散通信减小返回差距

TL;DR该论文研究了多智能体强化学习中部分可观察马尔可夫决策过程的沟通问题,提出了通过在线聚类问题将多智能体通信转化为离散通信方式,并结合强化学习使用正则化信息最大化损失函数进行优化,实验证明该方法在多智能体通信中能够以几位比特的自然可解释性消息实现接近最优的回报。