本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
该研究提出了一种利用模型预测控制(MPC)作为可微政策类来学习连续状态和行动空间中的强化学习的基础,通过使用控制器固定点处的凸逼近的 KKT 条件区分 MPC,从而能够学习控制器的成本和动力学,旨在提高数据效率并优于传统系统识别。
Oct, 2018
研究综合模型预测控制(MPC)问题,发现内部预测模型(PM)的精确度提高会自动提高整体的控制器性能。
Aug, 2023
在集中式多智能体系统中,使用多智能体部分可观察马尔可夫决策过程(MPOMDPs)进行建模,其中动作和观察空间随着智能体数量呈指数增长,使得单智能体在线规划的价值和信念状态估计变得低效。本研究采用加权粒子滤波和可扩展的信念状态近似方法,同时解决了价值估计和状态估计的挑战,提出了基于稀疏粒子滤波信念树的在线规划算法,该算法在少量智能体的情况下表现出竞争性的性能,并在多智能体的基准测试中胜过现有算法。
Dec, 2023
本文提出了一种自适应 MPC 系统,可以通过利用贝叶斯优化和经典的 EI 获取方法自动估计控制和模型参数,通过机器学习方法用于密度比估计从而实现该控制器在多种有挑战性的机器人操作任务上的鲁棒性。
Mar, 2022
通过机器学习优化基于样本的模型预测控制中的更新规则,以在有限的样本数下获得更好的控制效果。
Dec, 2022
模型预测控制与强化学习相结合并在引导策略搜索框架下应用,通过使用机载传感器数据在训练时间内训练神经网络策略,该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。
Sep, 2015
本文提出了一种使用高斯过程回归模型的模型预测控制方法,用于建模非线性动态系统并计算模型残差不确定性以实现谨慎控制。通过近似计算实现计算效率,并在模拟实验和硬件实现中展示了该方法在自主赛车方面的表现改进。
May, 2017
本文提出了一个在线计划和执行系统,使用混合置信状态空间进行确定性代价敏感计划来选择成功概率高的观察行动和连续控制行动,以解决部分可观察问题,并在模拟和真实世界的厨房中展示了高效的解决方案。
Nov, 2019
本研究提出了一种利用控制屏障函数的安全性关键模型预测控制策略,保证系统的安全性并通过模型预测控制实现最佳性能,同时在一个二维双积分器模型和一个竞速车辆模型上验证了该算法的有效性。
Jul, 2020