Feb, 2023

基于心智推理的多智能体逆强化学习

TL;DR本文探讨了在协作场景中人们如何相互交互尤其是在个体了解队友很少的情况下,通过多智能体逆强化学习(MIRL)来推断每个个体行为背后的奖励函数。针对这个问题,我们提出一个新颖的 MIRL-ToM 模型,结合了理论思维(Theory of Mind)和最大熵 IRL,成功地恢复了用于有知晓或无知晓队友互动的奖励。