深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

Mar, 2021

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with Deep Reinforcement Learning

Andrew S. Morgan, Daljeet Nandha, Georgia Chalvatzaki, Carlo D'Eramo, Aaron M. Dollar...

TL;DR介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Abstract

Substantial advancements to model-based reinforcement learning algorithms have been impeded by the model-bias induced by the collected data, which generally hurts performance. Meanwhile, their inherent sample efficiency

model-based reinforcement learning model bias sample efficiency optimal trajectories physical interaction

发现论文，激发创造

深度模型预测优化

机器人学中的一个主要挑战是设计出能在现实世界中实现复杂和灵活行为的稳健策略。我们提出了一种名为 “Deep Model Predictive Optimization” 的方法，通过经验直接学习 MPC 优化算法的内环，针对控制问题的需求进行特定优化。通过在一个真实的四旋翼平衡轨迹跟踪任务中的评估，DMPO 在计算预算下提高了性能，并且比基线的 MPC 算法在样本数量和端到端策略训练（MFRL）方面分别提高了 27% 和 19%。此外，由于 DMPO 需要更少的样本，它还可以以 4.3 倍的内存减少实现这些效益。当我们将四旋翼暴露在带有阻力板的扰动风场中时，DMPO 能够零 - shot 调适，同时仍然优于所有基线测试结果。

Oct, 2023

AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

利用演员 - 评论家强化学习技术提高模型预测控制性能，通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。

Jun, 2024

基于模型的深度强化学习的神经网络动态和无模型微调

该研究论文表明，中等大小的神经网络模型实际上可以与模型预测控制（MPC）相结合，以实现在模型为基础的强化学习算法中的良好样本复杂度，并以提高深度神经网络动力学模型的样本效率为目的初始化模型自由学习。

Aug, 2017

用于处理各种机器人手臂任务的离策略深度强化学习算法

本研究使用 DDPG、TD3 和 SAC 三种基于强化学习的算法，在 MuJoCo 仿真环境下对 Fetch 机器人操作器进行四项不同任务的训练，并分析了这三种算法在控制环境中的效率和速度。

Dec, 2022

深度视觉预见性规划机器人动作

本论文提出一种基于无标注训练数据的方法，结合深度动作条件视频预测模型和模型预测控制，使真实机器人能够进行非抓取操作，比如推动物体，并且可以处理训练过程中没有出现过的新物体。

Oct, 2016

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

在模型自信时相信模型：掩蔽模型基于演员 - 评论家算法

本文提出一种新颖的基于模型 - actor-critic (M2AC) 算法，通过掩码机制依据模型的可信度来决定是否使用其预测，从而在连续控制基准测试中表现出较强的性能，相比最先进的方法有显著的优势。

Oct, 2020

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

软性演员 - 评论家算法及其应用

本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic，其中演员旨在同时最大化期望回报和熵，以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进，如约束模型等，提高了模型的稳定性和训练速度，并在基准任务以及四足机器人的运动和灵巧手的机器人操作等现实世界挑战任务中取得了最先进的性能，在样本效率和渐近性能方面优于以往的在线和离线算法。

Dec, 2018

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023