BriefGPT.xyz
Ask
alpha
关键词
linear quadratic games
搜索结果 - 2
策略梯度算法在线性二次博弈中没有收敛保证
本文章主要对多智能体马尔可夫决策过程中的政策梯度算法进行研究,经由分析线性二次博弈的梯度播放,得到该算法并不存在全局收敛到 Nash 平衡点的保证,且通过实验发现此类情况并不少见。
PDF
5 years ago
MM
策略优化在零和线性二次博弈中可以证明收敛到纳什均衡
研究线性二次游戏中政策优化寻找纳什均衡的全局收敛性,开发了三种投影嵌套 - 梯度方法并给出了满意的收敛性证明和模拟结果,是对零和 Markov 博弈政策优化强化学习算法理论方面的探索。
PDF
5 years ago
Prev
Next