Mar, 2024

成功的成本共担:一种评估与学习多智能体协作指导与遵循策略的游戏

TL;DR在协作目标导向的情境中,我们提出了一个具有挑战性的交互参考游戏,要求两名玩家在视觉和语言观察方面进行协调。我们展示了标准的Proximal Policy Optimization (PPO)设置在启发式伙伴行为的引导下能够获得较高的成功率,并且我们发现相互配对的神经伙伴确实在重复游戏时减少了测量到的联合努力,但与合理的启发式配对相比仍有改进的空间,这促使进一步探索协作互动中的成本分享方向的研究。