Jun, 2024

快速学习游戏的最后迭代收敛需要健忘算法

TL;DR通过在线学习的自我对弈是解决大规模两人零和游戏的主要方法之一,尤其流行的算法包括乐观的乘积权重更新(OMWU)和乐观的梯度下降 - 梯度上升(OGDA),本文证明了 OMWU 存在潜在的较慢的最后迭代收敛问题。