BriefGPT.xyz
Ask
alpha
关键词
meta-strategy selection
搜索结果 - 1
在博弈论强化学习中,结合树搜索、生成模型和纳什谈判概念
本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行
→
PDF
a year ago
Prev
Next