BriefGPT.xyz
Ask
alpha
关键词
convergence to nash equilibrium
搜索结果 - 1
连续对局中的最小信息学习
通过引入一种随机学习过程 - 阻尼梯度逼近,我们在本文中为具有连续行动集的博弈设计了一种学习过程,它是基于收益的,因此不需要玩家有策略上的认知或关于游戏的知识,我们还证明了在大部分博弈中玩家可以收敛于 Nash 均衡点。
PDF
6 years ago
Prev
Next