AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

Jun, 2024

AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

AC4MPC: Actor-Critic Reinforcement Learning for Nonlinear Model Predictive Control

Rudolf Reiter, Andrea Ghezzi, Katrin Baumgärtner, Jasper Hoffmann, Robert D. McAllister...

TL;DR利用演员 - 评论家强化学习技术提高模型预测控制性能，通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。

Abstract

\Ac{mpc} and \ac{rl} are two powerful control strategies with, arguably, complementary advantages. In this work, we show how →

mpc rl actor-critic control strategies performance improvement

发现论文，激发创造

基于 Actor-Critic 的不当强化学习

提出了两种基于强化学习的算法，分别是基于策略梯度的方法和基于 actor-critic 的方法，通过在动态环境下优化控制策略，针对一个给定的目标环境，能够在很少的试验次数内生成一个良好的控制器。多个不匹配且可能是模拟环境下学习来的基本控制器，混合并组合使之稳定控制。

Jul, 2022

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Mar, 2021

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

将循环强化学习纳入模型预测控制中，以实现自主驾驶中的自适应控制

通过解决 MPC 控制器在现实场景下系统识别学习失败的问题，将其转化为部分观察马尔科夫决策过程，通过循环强化学习不断地适应动态模型参数，该论文提出了一种自适应控制算法 (MPC-RRL)，最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。

Jan, 2023

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

带稳定性保证的演员 - 评论家强化学习控制

使用经典控制理论中的 Lyapunov 方法，为控制系统提供稳定性保证的 actor-critic RL 框架，确保在一定程度的不确定性干扰下，学习到的策略使得系统能够恢复到平衡或航点。

Apr, 2020

决策与控制中的适应性和通用化优化引擎：一种元强化学习方法

基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功，我们提议通过元强化学习学习一个优化器来更新控制器，该优化器不需要专家演示，并且在未知控制任务中可以实现快速适应。

Jan, 2024

单回路（自然） Actor-Critic 与兼容的函数逼近的非渐近分析

该研究提供了 Actor-Critic（AC）算法和 Natural Actor-Critic（NAC）算法的最紧密的非渐近收敛界限，并使用兼容函数逼近进行收敛性分析。

Jun, 2024

关于 Actor-Critic 的全局收敛性：线性二次调节器具有遍历成本

研究了基于 actor-critic 算法的在线交替更新算法在双层优化问题中的应用，证明了该算法在线性二次型调节器中的全局最优对 actor 和 critic 的线性收敛率

Jul, 2019