AAAIOct, 2018

通过行为隐式学习通信

TL;DR本研究提出了一种名为 PBL 的算法,用于在协作游戏中进行隐式信息传递,通过使用先验信仰模块和策略模块来完成通信的前半部分和后半部分,并通过辅助奖励激励代理通过行动来进行信息传递,实验表明此辅助奖励有效且易于推广。