Feb, 2021

无限时段竞争马尔可夫博弈中分散乐观梯度下降 / 上升的最后迭代收敛

TL;DR研究无穷时间折扣二人零和马尔可夫博弈,开发了一种分散算法,自我对弈时能够收敛到 Nash 均衡点。