研究了基于信念空间规划的在线决策问题,在信息收集等场景下,介绍了一种自适应的方法来寻求最大可行回报,应用这种方法可以在保证准确率的前提下显著加速在线决策过程,并进行了大量现实模拟来验证此方法的优越性。
Feb, 2023
解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续 Bayes-Adaptive Markov Decision Process(BAMDP)算法,其中代理人维护潜在模型参数的后验分布,并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上,以学习通用策略,以最大化贝叶斯价值函数的探索 - 开发权衡。为了应对从离散化连续潜在参数空间带来的挑战,我们提出了一种新的策略网络体系结构,可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法,并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。
Oct, 2018
本研究在部分可观察马尔可夫决策过程 (POMDPs) 的基础上,将代理模型纳入到状态空间中,使其扩展到了多智能体的情景下。代理人通过贝叶斯更新来维护对物理环境状态和其他代理模型的信念,并使用基于置信状态的映射来求得最优方案。虽然我们的方法中代理人的模型不可直接被操纵或观察,但我们证明了 POMDPs 的重要特性如收敛率、价值函数的分段线性和凸性等在我们的框架下仍然成立。
Sep, 2011
介绍一种基于准确置信模型的 BetaZero 算法,该算法使用在线蒙特卡罗树搜索与线下神经网络逼近相结合的方法来实现长周期问题的在线决策,解决了部分可观测领域的挑战,并在地质勘探等现实任务中表现出色。
May, 2023
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
本研究针对部分已知环境探索问题,以信息论目标函数为目标,将其视为部分可观察马尔可夫决策过程 (POMDP),并通过 open-loop 逼近算法求解。提出了新的互信息采样逼近方法用于移动机器人,结果显示 POMDP 探索算法在某些情况下可以提高性能。
Feb, 2015
使用 Bayesian action decoder(BAD)的公开信念马尔可夫决策过程(public belief MDP)算法,成功在 Hanabi 卡牌游戏中超越了所有以前发表的学习方法和手动编写方法,创立了新的最先进水平。
Nov, 2018
本文介绍了一些基于在线方法的局部政策计算的 POMDP 方法,并在各种环境下对这些方法进行了评估,结果表明现代的启发式搜索方法能够高效地处理大型 POMDP 领域。
Jan, 2014
本文提出了一个在线计划和执行系统,使用混合置信状态空间进行确定性代价敏感计划来选择成功概率高的观察行动和连续控制行动,以解决部分可观察问题,并在模拟和真实世界的厨房中展示了高效的解决方案。
Nov, 2019
该研究论文介绍了一种有效的决策制定方法,通过对高维观测空间进行划分,并利用这种划分提出了分析边界,以求得期望的信息论奖励,进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善,在模拟和实际实验中也相对其他先进算法显示了大幅沙盘速度提升。
Sep, 2023