自动调节模型预测控制及其在生态巡航控制中的应用
本研究介绍了一种学习基础的模型预测控制 (LBMPC) 方案,在提高系统性能的同时提供稳健性的确定性保证。该方案利用统计识别工具识别系统的更丰富模型,通过维护两个模型,可以在一个优化框架中将安全性和性能隔离。LBMPC 通过选择最小化成本的输入来提高性能,并通过检查模糊模型稳定性来确保安全性和鲁棒性。此外,我们证明如果系统充分兴奋,则 LBMPC 控制行动以概率收敛为使用真实动力学计算的 MPC 的行动。
Jul, 2011
本文提出了一种基于动态镜像下降(DMD)的模型预测控制(MPC)算法(DMD-MPC),该算法结合了在线学习算法的思想,是一种通用的MPC算法,并在实验中展示了其适用性。
Feb, 2019
通过解决MPC控制器在现实场景下系统识别学习失败的问题,将其转化为部分观察马尔科夫决策过程,通过循环强化学习不断地适应动态模型参数,该论文提出了一种自适应控制算法(MPC-RRL),最终在CARLA模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。
Jan, 2023
通过使用神经网络实现的层次化多时域优化框架,本文提出了一种在行驶过程中通过车辆间信息来优化车辆速度和动力系统,以最小化能量消耗的方法。通过在真实行驶路线上进行模拟,证明了该方法可以实现与基于强化学习的随机优化解决方案相当的性能,并且不需要复杂的训练范式和较少的内存开销。
Oct, 2023
使用监督学习技术结合模型预测控制(MPC)在近期引起了显著关注,特别是在近似显式MPC领域,其中使用深度神经网络等函数逼近器通过离线生成的最优状态-动作对来学习MPC策略。本文考虑了一种替代策略,即使用监督学习离线学习最优值函数而不是最优策略。这可以用作具有非常短预测视野的近视型MPC中的代价函数,从而大大减少在线计算负担而不影响控制器性能。该方法与现有的值函数逼近研究不同之处在于,它通过使用离线收集的状态-值对来学习代价函数,而不是闭环性能数据。通过使用基于敏感度的数据增强方案解决了用于培训的状态-值对生成的成本问题。
Jan, 2024
基于深度强化学习的多目标贝叶斯优化模型预测控制中,在运行过程中,通过限制强化学习动作空间在安全学习空间内,选择最优离散动作,并根据上下文选择相应的优化权重集合,使得未经训练的强化学习模型表现出安全且最优的性能,实验结果表明,训练后的模型展现了超越Pareto前沿的性能。
Feb, 2024
设计预测控制器以实现闭环性能最优化,同时保持安全和稳定性是具有挑战性的。本文通过在考虑闭环稳定性的情况下,利用受限贝叶斯优化来学习预测控制参数,将成本函数参数化为前馈神经网络,并进行闭环行为和模型-过程不匹配的最小化,从而提供了高自由度和有效全局优化实现期望的闭环行为。我们通过学习控制器参数的稳定性约束扩展了这个框架,并利用底层MPC的最优值函数作为一个Lyapunov候选。模拟结果验证了所提出方法的有效性,突显了其性能和安全能力。
Apr, 2024
本研究针对模型预测控制算法在快速应用和低功耗边缘设备中面临的优化挑战,提出了一种基于机器学习的解决方案。通过使用前馈神经网络减少在线优化的计算负担,同时确保安全性和约束满足,该方法在模拟中验证了计算效率的提升,并保持近最佳性能。这一方案可广泛应用于机器人和嵌入式等需快速响应的场景。
Aug, 2024