模型预测控制与近端策略优化在单自由度直升机系统中的比较
模型预测控制与强化学习相结合并在引导策略搜索框架下应用,通过使用机载传感器数据在训练时间内训练神经网络策略,该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。
Sep, 2015
研究在连续控制任务上,基于模型的方法与无模型方法的样本复杂度差异,发现基于模型的策略评估方法的样本复杂度会比最小二乘时序差分方法低,且最佳控制常常需要较少的样本量,这是首次在连续控制任务上证明了基于模型和无模型方法样本复杂度的分离现象。
Dec, 2018
本文介绍了Proximal Policy Optimization (PPO)算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Sep, 2020
机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为“Deep Model Predictive Optimization”的方法,通过经验直接学习 MPC 优化算法的内环,针对控制问题的需求进行特定优化。通过在一个真实的四旋翼平衡轨迹跟踪任务中的评估,DMPO 在计算预算下提高了性能,并且比基线的 MPC 算法在样本数量和端到端策略训练(MFRL)方面分别提高了 27% 和 19%。此外,由于 DMPO 需要更少的样本,它还可以以 4.3 倍的内存减少实现这些效益。当我们将四旋翼暴露在带有阻力板的扰动风场中时,DMPO 能够零-shot 调适,同时仍然优于所有基线测试结果。
Oct, 2023
本文提出了一种新的参数化控制器,借鉴了模型预测控制(Model Predictive Control)的思想。这些控制器采用与线性模型预测控制类似的二次规划结构,通过学习问题参数而不是从模型中导出。该方法可能解决深度强化学习中常见学习控制器(如多层感知器架构)在解释性和性能保证方面的局限性。学习到的控制器不仅具有与模型预测控制相似的可验证特性,如持续可行性和渐近稳定性,而且在控制性能上与模型预测控制和多层感知器控制器达到了相当的经验证明,与模型预测控制相比,在实施上更具计算效率,并且比多层感知器控制器需要更少的可学习策略参数。通过展示车辆漂移操纵任务的实际应用,展示了这些控制器在实际场景中的潜力。
Dec, 2023
Sampling-based Model Predictive Control (MPC)在许多领域中具有实际和有效的方法,尤其是基于模型的强化学习,由于其灵活性和可并行化性。本文对一种广泛使用的基于采样的MPC方法,Model Predictive Path Integral Control (MPPI)的收敛性进行了表征。理论分析直接导致了一种新颖的基于采样的MPC算法,CoVariance-Optimal MPC (CoVo-MPC),它通过优化收敛速度来最优调度采样协方差。在模拟和实际的四旋翼敏捷控制任务中,CoVo-MPC在性能上显著优于标准的MPPI,提升了43-54%。
Jan, 2024
本文通过使用强化学习技术(Reinforcement Learning, RL)来调整四旋翼控制器的控制增益,特别地,我们采用了近端策略优化(Proximal Policy Optimization, PPO)来训练一个根据实际情况调整控制增益的策略,其中主要目标是在跟随预定轨迹的同时最小化跟踪误差。本文的主要目的是分析自适应增益策略的有效性,并将其与静态增益控制算法的性能进行比较,使用积分平方误差和积分时间平方误差作为度量标准。结果表明,与静态增益控制器相比,自适应增益方案实现了超过40%的跟踪误差降低。
Mar, 2024
该研究旨在通过应用非线性深度强化学习(DRL)代理作为传统线性比例积分微分(PID)控制器的替代品,从而彻底改革无人机飞行控制。主要目标是实现无人机在手动和自主模式之间的无缝过渡,提高其响应性和稳定性。利用Gazebo模拟器中的Proximal Policy Optimization(PPO)强化学习策略训练DRL代理,并通过添加价格为20000美元的室内Vicon跟踪系统实现<1mm的定位精度,从而大大提高了自主飞行的精确性。为了在最短的无碰撞轨迹下引导无人机导航,我们还构建了一个三维A*路径规划器,并成功将其应用到实际飞行中。
Mar, 2024
该论文介绍了在卢森堡大学的零重力实验室中,将近端策略优化(PPO)与模型预测控制(MPC)相结合的创新方法,利用PPO的强化学习能力和MPC的精准性来导航浮动平台的复杂控制动力学,从而实现对零重力环境的自适应控制框架的发展和改进。该研究为在零重力环境中控制浮动平台开辟了新的可能性,带来了空间探索的新进展。
Jul, 2024
本文研究了无模型和基于模型的强化学习在固定翼无人机姿态控制中的表现,针对如何应对变化的飞行动力学和风扰动进行了比较。研究发现,时间差模型预测控制代理在跟踪精度和鲁棒性上优于PID控制器和其他无模型强化学习方法,尤其在非线性飞行情况下表现优异,且引入了激励波动作为评估能效和执行器磨损的重要指标。
Sep, 2024