BriefGPT.xyz
Ask
alpha
关键词
approximate policy iteration algorithms
搜索结果 - 2
合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进
我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法,其中使用近似线性规划计算近似值函数并实施分散策略改进。
PDF
8 months ago
多智能体展开算法与强化学习
本文介绍了一种基于本地回滚算法的多智能体决策方法,该方法通过配合其他智能体的协调信息,在每个阶段使每个智能体的决策都能够独立计算,并且与智能体数量无关。此外,我们探讨了并行化智能体计算和近似策略迭代算法等方法来进一步提高本方法的计算效率,并
→
PDF
5 years ago
Prev
Next