关键词partially observable markov decision processes (pomdps)
搜索结果 - 3
- ICML重新思考 Transformer 在解决 POMDP 中的应用
这篇论文研究了在现实世界场景中,像强化学习(RL)这样的序贯决策算法不可避免地面对具有部分可观察性的环境,着重探讨了流行架构 Transformer 在部分可观察马尔可夫决策过程(POMDPs)中的有效性,并揭示了它的理论局限性,将可被 T - 思路规划:以启发式引导的大型语言模型问题解决方案
在本研究中,我们使用基于规划的方法结合部分可观察马尔可夫决策过程(POMDPs)来解决多步骤的问题,并通过 POMCP 在线求解器在 24 点游戏任务上展现出了 89.4% 的优越成功率,同时也提供了比之前使用的固定树搜索更好的任意时间性能 - 多智能体场景下的序列规划框架
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中