BriefGPT.xyz
Ask
alpha
关键词
optimistic value iteration
搜索结果 - 1
使用函数逼近和相关均衡学习零和同时行动马尔可夫博弈
本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法,该算法通过构建价值函数的上下置信区间,并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题,实现了性能的总时间平方
→
PDF
4 years ago
Prev
Next