使用管道 Model Predictive Control 引导的数据增强,高效学习鲁棒性和适应性策略的深度学习
本文通过引入深度神经网络和模仿学习,提出了一种高效的方法来将计算成本昂贵的模型预测控制器 (MPC) 压缩成更高效的表示,首次提出了 Robust Tube variant (RTMPC) 和数据增强方法来弥补通常在模仿学习中遇到的分布偏移问题,并通过数值和实验评估表明,相对于常用的仿真方法,如 DAgger 和域拓扑,我们的方法在演示效率和对训练期间未见过的扰动的抗干扰性方面表现更好。
Sep, 2021
通过结合鲁棒模型预测控制器和数据增强策略,以及利用神经辐射场生成合成图像的方法,该研究提出了一种以图像为唯一水平位置来源,实现定位与轨迹跟踪的视觉驱动策略,其学习效率提升了 80 倍,训练时间减少了 50%,实现了准确的定位和低跟踪误差,仅需 1.5 毫秒的嵌入式推理时间。
Nov, 2023
模型预测控制与强化学习相结合并在引导策略搜索框架下应用,通过使用机载传感器数据在训练时间内训练神经网络策略,该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。
Sep, 2015
PLATO 算法通过模型预测控制生成监督信号训练控制策略,以逐步匹配学到的策略,并保证其安全性,同时维持模型预测控制的成本作为约束,使最终学到的策略在长时间任务中表现良好。实验结果表明,PLATO 算法相较于先前方法,学习速度更快,在训练过程中遇到灾难性失败(坠机)的次数大幅减少,更可能收敛到较好的策略。
Mar, 2016
提出一种基于解析策略梯度法(APG)的控制方法来解决机器人系统控制问题,与 MPC 控制方法相比,该方法能够实现类似的轨迹跟踪性能,但计算时间要少一个数量级,在控制设计和优化领域有着极高的实际应用价值。
Sep, 2022
通过解决 MPC 控制器在现实场景下系统识别学习失败的问题,将其转化为部分观察马尔科夫决策过程,通过循环强化学习不断地适应动态模型参数,该论文提出了一种自适应控制算法 (MPC-RRL),最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。
Jan, 2023
基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功,我们提议通过元强化学习学习一个优化器来更新控制器,该优化器不需要专家演示,并且在未知控制任务中可以实现快速适应。
Jan, 2024
使用对抗生成网络的学习型 MPC 策略可以通过模仿学习来解决某些困难的 MPC 优化问题,特别是当展示代理和模仿代理不重叠时。
May, 2023
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017