关键词policy-space response oracles
搜索结果 - 5
- IJCAI自适应的 PSRO:走向一种自动基于人口的游戏求解器
通过使用 Transformer 架构,我们提出了一种自适应超参数选择的参数化策略空间响应预言机(PSRO)方法,该方法在各种双人零和游戏中展现出优越的性能。
- 虚构交互:混合合作竞争游戏中全局纳什平衡的学习
该研究开发了一种新算法,名为 Fictitious Cross-Play(FXP),同时训练了基于自我博弈和交叉博弈的主策略和反应策略,并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点,而自我博弈方法则无法达到。
- 非传递博弈的政策空间多样性
文章提出了一种新的 PSRO 算法变体,即 Policy Space Diversity PSRO(PSD-PSRO),通过一种新的多样性度量,它可以更有效地产生明显不易被利用的政策来近似 Nash 均衡。
- 在博弈论强化学习中,结合树搜索、生成模型和纳什谈判概念
本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行 - 单策略最佳响应下的迭代经验博弈求解
通过将经验博弈分析与深度强化学习相互交错,Policy-Space Response Oracles(PSRO)是一种用于学习多智能体系统中的策略的通用算法框架,其在每次迭代中使用深度强化学习来训练最佳响应,从而减少了模拟调整所需的计算量。