Feb, 2021

无限时段竞争马尔可夫博弈中分散乐观梯度下降/上升的最后迭代收敛

TL;DR研究无穷时间折扣二人零和马尔可夫博弈,开发了一种分散算法,自我对弈时能够收敛到Nash均衡点。