Jun, 2023

非传递博弈的政策空间多样性

TL;DR文章提出了一种新的 PSRO 算法变体,即 Policy Space Diversity PSRO(PSD-PSRO),通过一种新的多样性度量,它可以更有效地产生明显不易被利用的政策来近似 Nash 均衡。