基于 POMDP 的序贯贝叶斯优化方法在无人机环境监测中的应用

Mar, 2017

基于 POMDP 的序贯贝叶斯优化方法在无人机环境监测中的应用

Sequential Bayesian Optimisation as a POMDP for Environment Monitoring with UAVs

Philippe Morere, Roman Marchant, Fabio Ramos

TL;DR本文提出了一种在部分可观察马尔科夫决策过程 (POMDP) 框架下，针对连续轨迹的贝叶斯优化方法，并通过蒙特卡罗树搜索 (MCTS) 解决了这个问题，该方法在使用 UAV 监测空间现象方面表现优于竞争技术。

Abstract

bayesian optimisation has gained much popularity lately, as a global optimisation technique for functions that are expensive to evaluate or unknown a priori. While classical BO focuses on where to gather an observation next, it does not take into account practical constraints for a

bayesian optimisation robotic system partially observable markov decision process monte-carlo tree search uav

发现论文，激发创造

基于贝叶斯优化的鲁棒模型预测控制在模型参数不确定性下的应用

提出了一种自适应优化方法，用于调整随机模型预测控制 (MPC) 的超参数，同时基于性能奖励估计转换模型参数的概率分布。用异方差噪声模型开发贝叶斯优化算法来处理超参数和动力学模型参数空间中的噪声变化。试验结果表明我们的方法可以得到更高的累积回报和更稳定的控制器。

Mar, 2022

约束层次蒙特卡罗信念状态规划

优化在约束部分可观察马尔可夫决策过程中的规划，使用层次分解和在线基于搜索的约束选项信念树搜索算法来扩展大型机器人领域中的规划问题。

Oct, 2023

贝叶斯策略优化模型不确定性

解决不确定性对于自主系统在现实世界中的可靠适应至关重要。我们提出了一种模型不确定性的连续 Bayes-Adaptive Markov Decision Process（BAMDP）算法，其中代理人维护潜在模型参数的后验分布，并相对于该信念分布最大化其预期长期回报。我们的算法建立在最新的策略优化算法之上，以学习通用策略，以最大化贝叶斯价值函数的探索 - 开发权衡。为了应对从离散化连续潜在参数空间带来的挑战，我们提出了一种新的策略网络体系结构，可将信念分布独立于可观察状态地编码。我们的方法显着优于没有明确考虑信念分布而解决模型不确定性的算法，并且与现有的部分可观测马尔可夫决策过程求解器竞争力相当。

Oct, 2018

基于贝叶斯优化的安全导航在本地化不确定性下的应用

本文介绍了一种基于高斯过程模型的贝叶斯优化方法，能更好的识别安全的地形，解决了移动机器人在荒野独立行走中的定位不确定性问题。

Sep, 2017

马尔可夫决策过程受限的贝叶斯优化

Bayesian optimization 通过 Markov 决策过程的框架扩展了其方法，使用强化学习迭代解决一个可行的线性化目标函数，以获得可以提前规划长期视角的策略，将该方法应用于化学反应器优化、路径规划和机器校准等领域。

Feb, 2024

基于前向仿真的机器人探索规划

本研究针对部分已知环境探索问题，以信息论目标函数为目标，将其视为部分可观察马尔可夫决策过程 (POMDP)，并通过 open-loop 逼近算法求解。提出了新的互信息采样逼近方法用于移动机器人，结果显示 POMDP 探索算法在某些情况下可以提高性能。

Feb, 2015

自适应概率信赖约束下的连续高维信念空间规划

研究了基于信念空间规划的在线决策问题，在信息收集等场景下，介绍了一种自适应的方法来寻求最大可行回报，应用这种方法可以在保证准确率的前提下显著加速在线决策过程，并进行了大量现实模拟来验证此方法的优越性。

Feb, 2023

自适应贝叶斯优化在高精度运动系统中的应用

在这项工作中，我们提出了一种基于 GoOSE 算法的实时纯数据驱动的自适应控制方法，用于在线调整低级控制器参数，从而处理性能和稳定性的要求，并通过修改负载和参考步长将其与插值约束优化方法进行比较，用于评估算法在半导体行业应用中实现的真实精密运动系统的性能。

Apr, 2024

费用受限的贝叶斯优化的非近视方法

本文提出了将成本约束的 BO 建模为约束马尔科夫决策过程 (CMDP) 的方法，并开发了一个高效的滚动估计算法，以同时考虑成本和未来迭代次数。作者在超参数优化和传感器集选择中验证了他们的方法。

Jun, 2021

在线随机情况规划的展开策略

部分可观察马尔可夫决策过程 (POMDP) 是在部分可观察性和随机行为下进行决策的有用模型。本文将 POMDP 建模为随机条件规划问题，并提出了两种领域独立的启发式算法，一种基于经典规划中著名的 h_add 启发式算法，另一种在信念空间中计算并考虑信息价值。

Oct, 2023