Sep, 2011

多智能体场景下的序列规划框架

TL;DR本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察,但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。