policy-space response oracles | BriefGPT

关键词policy-space response oracles

搜索结果 - 5

IJCAI自适应的 PSRO：走向一种自动基于人口的游戏求解器
通过使用 Transformer 架构，我们提出了一种自适应超参数选择的参数化策略空间响应预言机（PSRO）方法，该方法在各种双人零和游戏中展现出优越的性能。
PDF3 months ago
虚构交互：混合合作竞争游戏中全局纳什平衡的学习
该研究开发了一种新算法，名为 Fictitious Cross-Play（FXP），同时训练了基于自我博弈和交叉博弈的主策略和反应策略，并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点，而自我博弈方法则无法达到。
PDF9 months ago
非传递博弈的政策空间多样性
文章提出了一种新的 PSRO 算法变体，即 Policy Space Diversity PSRO（PSD-PSRO），通过一种新的多样性度量，它可以更有效地产生明显不易被利用的政策来近似 Nash 均衡。
PDFa year ago
在博弈论强化学习中，结合树搜索、生成模型和纳什谈判概念
本文介绍了一种增强型多智能体系统训练框架 PSRO（Policy-Space Response Oracles），并通过添加一种新颖的搜索程序和生成抽样方法进行增强，进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行
PDFa year ago
单策略最佳响应下的迭代经验博弈求解
通过将经验博弈分析与深度强化学习相互交错，Policy-Space Response Oracles（PSRO）是一种用于学习多智能体系统中的策略的通用算法框架，其在每次迭代中使用深度强化学习来训练最佳响应，从而减少了模拟调整所需的计算量。
PDF3 years ago