AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制
提出了两种基于强化学习的算法,分别是基于策略梯度的方法和基于 actor-critic 的方法,通过在动态环境下优化控制策略,针对一个给定的目标环境,能够在很少的试验次数内生成一个良好的控制器。多个不匹配且可能是模拟环境下学习来的基本控制器,混合并组合使之稳定控制。
Jul, 2022
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019
介绍了一种基于模型预测控制的混合模型学习和无模型学习方法,名为 MoPAC,通过探索 / 利用以减轻模型偏差,可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习,并且在需要时进行探索。通过实验,MoPAC 方法优于当前最先进的方法,适用于真实机器人的训练,同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。
Mar, 2021
强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法,旨在改善政策梯度估计的质量,减少随机性变化,并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升,通过与其他相关方法的比较,为这些政策梯度算法提供了统一视角。
Apr, 2024
通过解决 MPC 控制器在现实场景下系统识别学习失败的问题,将其转化为部分观察马尔科夫决策过程,通过循环强化学习不断地适应动态模型参数,该论文提出了一种自适应控制算法 (MPC-RRL),最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。
Jan, 2023
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
使用经典控制理论中的 Lyapunov 方法,为控制系统提供稳定性保证的 actor-critic RL 框架,确保在一定程度的不确定性干扰下,学习到的策略使得系统能够恢复到平衡或航点。
Apr, 2020
基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功,我们提议通过元强化学习学习一个优化器来更新控制器,该优化器不需要专家演示,并且在未知控制任务中可以实现快速适应。
Jan, 2024
该研究提供了 Actor-Critic(AC)算法和 Natural Actor-Critic(NAC)算法的最紧密的非渐近收敛界限,并使用兼容函数逼近进行收敛性分析。
Jun, 2024
研究了基于 actor-critic 算法的在线交替更新算法在双层优化问题中的应用,证明了该算法在线性二次型调节器中的全局最优对 actor 和 critic 的线性收敛率
Jul, 2019