May, 2019

带最大熵目标的正则对手模型

TL;DR本研究在多智能体环境下,重新定义二元随机变量$o$并将多智能体强化学习形式化为概率推理。我们提出了一种名为ROMMEO的正则对手模型最大熵目标的变分下界,并从中展示了一种对手建模的新方法,理论和实证地证明其在协作游戏中可以提高训练智能体的性能。我们引入了一种名为ROMMEO-Q的表格Q迭代方法,并将其扩展为复杂环境下的ROMMEO-AC的近似版本,我们在挑战性的迭代矩阵游戏和微分游戏上评估了这两种算法,证明它们可以胜过强的多智能体强化学习基线。