BriefGPT.xyz
Ask
alpha
关键词
myopic followers
搜索结果 - 1
强化学习在一般和马尔可夫博弈中可以发现贝叶斯纳什均衡吗?
研究了带有领导者和追随者的多人普遍和马尔可夫博弈,关注追随者为短视的情况,在在线和离线设置下开发了一些优化和悲观变种的最小二乘值迭代的强化学习算法以求得 Stackelberg-Nash 均衡 (SNE)。它们可在大状态空间的函数逼近工具中
→
PDF
3 years ago
Prev
Next