Feb, 2023

在博弈论强化学习中,结合树搜索、生成模型和纳什谈判概念

TL;DR本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明,这种方法能够成功地计算近似 Nash 平衡,并且可以产生与人类谈判相当的代理人。