Jun, 2018

连续对局中的最小信息学习

TL;DR通过引入一种随机学习过程 - 阻尼梯度逼近,我们在本文中为具有连续行动集的博弈设计了一种学习过程,它是基于收益的,因此不需要玩家有策略上的认知或关于游戏的知识,我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。