基于 POMDP 的序贯贝叶斯优化方法在无人机环境监测中的应用
提出了一种自适应优化方法,用于调整随机模型预测控制 (MPC) 的超参数,同时基于性能奖励估计转换模型参数的概率分布。用异方差噪声模型开发贝叶斯优化算法来处理超参数和动力学模型参数空间中的噪声变化。试验结果表明我们的方法可以得到更高的累积回报和更稳定的控制器。
Mar, 2022
解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续 Bayes-Adaptive Markov Decision Process(BAMDP)算法,其中代理人维护潜在模型参数的后验分布,并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上,以学习通用策略,以最大化贝叶斯价值函数的探索 - 开发权衡。为了应对从离散化连续潜在参数空间带来的挑战,我们提出了一种新的策略网络体系结构,可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法,并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。
Oct, 2018
Bayesian optimization 通过 Markov 决策过程的框架扩展了其方法,使用强化学习迭代解决一个可行的线性化目标函数,以获得可以提前规划长期视角的策略,将该方法应用于化学反应器优化、路径规划和机器校准等领域。
Feb, 2024
本研究针对部分已知环境探索问题,以信息论目标函数为目标,将其视为部分可观察马尔可夫决策过程 (POMDP),并通过 open-loop 逼近算法求解。提出了新的互信息采样逼近方法用于移动机器人,结果显示 POMDP 探索算法在某些情况下可以提高性能。
Feb, 2015
研究了基于信念空间规划的在线决策问题,在信息收集等场景下,介绍了一种自适应的方法来寻求最大可行回报,应用这种方法可以在保证准确率的前提下显著加速在线决策过程,并进行了大量现实模拟来验证此方法的优越性。
Feb, 2023
在这项工作中,我们提出了一种基于 GoOSE 算法的实时纯数据驱动的自适应控制方法,用于在线调整低级控制器参数,从而处理性能和稳定性的要求,并通过修改负载和参考步长将其与插值约束优化方法进行比较,用于评估算法在半导体行业应用中实现的真实精密运动系统的性能。
Apr, 2024
本文提出了将成本约束的 BO 建模为约束马尔科夫决策过程 (CMDP) 的方法,并开发了一个高效的滚动估计算法,以同时考虑成本和未来迭代次数。作者在超参数优化和传感器集选择中验证了他们的方法。
Jun, 2021
部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题,并提出了两种领域独立的启发式算法,一种基于经典规划中著名的 h_add 启发式算法,另一种在信念空间中计算并考虑信息价值。
Oct, 2023