May, 2022

用于两人零和马尔科夫博弈的正则化梯度下降 / 上升算法

TL;DR本文提出了一种用于在马尔可夫博弈中寻找纳什均衡的新方法,该方法结合梯度下降和熵正则化,获得了更好的收敛性能,并证明了该算法在合适的正则化参数选择下可以收敛到原问题的纳什均衡。