IJCAISep, 2020

通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡

TL;DR通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的 Q-learning 类型算法,该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的 Q 函数,该算法收敛于纳什平衡,并演示了该算法快速适应新环境的能力。提供一种动态超参数调度方案来进一步加快收敛速度。 应用于多个随机游戏的实证结果验证了所提出的算法收敛于纳什平衡,同时展现了比现有算法更快的加速效果。