Nov, 2022

使用随机策略网络查找连续动作游戏的混合策略均衡点(无需使用梯度)

TL;DR本文提出一种基于零阶优化技术、结合平滑梯度估计器和均衡查找动态的方法来解决没有梯度信息的连续行动博弈问题,采用神经网络建模玩家策略,特别是采用随机策略网络来建模混合策略。实验表明,该方法可以快速找到高质量的近似均衡。此外,研究表明,输入噪声的维度对方法的性能至关重要。这是第一篇在未知任何梯度信息的情况下解决了不受限制的连续行动博弈的研究。