Feb, 2023
在博弈论强化学习中,结合树搜索、生成模型和纳什谈判概念
Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning
Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp...
TL;DR本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明,这种方法能够成功地计算近似 Nash 平衡,并且可以产生与人类谈判相当的代理人。