May, 2022

简单形神经元群体学习:在对称零和博弈中的任意混合贝叶斯最优性

TL;DR本文提出了Simplex-NeuPL算法,通过基础策略的单个条件网络来学习代表策略上的多样性,同时学习最佳响应。实验结果表明,该算法能够有效地处理不确定性,并在测试时提供更好的表现。此外,学习任意混合策略的最佳响应是一种有效的战略探索辅助任务,可以提高性能。