Jan, 2023

异构多机器人强化学习

TL;DR研究介绍了一种名为 HetGPPO 的新型多智能体强化学习模型,利用图神经网络促进智能体间的通信来优化中介异质性策略,实现了在部分可观测环境下的完全去中心化训练,从而在真实世界中取得了比均质模型更好的鲁棒性。