通过分析策略梯度训练高效控制器

Sep, 2022

通过分析策略梯度训练高效控制器

Training Efficient Controllers via Analytic Policy Gradient

Nina Wiedemann, Valentin Wüest, Antonio Loquercio, Matthias Müller, Dario Floreano...

TL;DR提出一种基于解析策略梯度法（APG）的控制方法来解决机器人系统控制问题，与 MPC 控制方法相比，该方法能够实现类似的轨迹跟踪性能，但计算时间要少一个数量级，在控制设计和优化领域有着极高的实际应用价值。

Abstract

control design for robotic systems is complex and often requires solving an optimization to follow a trajectory accurately. Online

control design trajectory tracking optimization analytic policy gradient robotic systems

发现论文，激发创造

基于 MPC 引导的策略搜索学习自主飞行器深度控制策略

模型预测控制与强化学习相结合并在引导策略搜索框架下应用，通过使用机载传感器数据在训练时间内训练神经网络策略，该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。

Sep, 2015

适应性策略学习用于附加任务

本文提出一种名为 APG 的方法，结合 Bellman 最优原理和策略梯度方法，优化预训练策略以适应额外任务并保证收敛速率和样本复杂度，同时在多个数值模拟中表现良好。

May, 2023

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

使用管道 Model Predictive Control 引导的数据增强，高效学习鲁棒性和适应性策略的深度学习

本文介绍了一种有效的基于模型预测控制的自适应方法，用于在具有挑战性的非结构化环境中实现自主系统的运行控制，以适应多样的环境和模型不确定性。

Mar, 2023

结合模型预测控制和预测强化学习实现稳定的四足机器人行走

本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题，并开发了一种融合了这两种方法的混合控制方法，其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度，并证明了我们的控制器在短时间内能够实现稳定步态，具有实时操作的能力。

Jul, 2023

基于梯度的世界模型规划

人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法，利用可微的世界模型，对比了其他基于 MPC 的方法和基于策略的算法，并在大多数任务中，在具有样本效率的设定下，实现了与其他方法相媲美甚至更好的性能。此外，引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型，优于纯粹的基于策略的方法，这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。

Dec, 2023

PLATO: 使用自适应轨迹优化的策略学习

PLATO 算法通过模型预测控制生成监督信号训练控制策略，以逐步匹配学到的策略，并保证其安全性，同时维持模型预测控制的成本作为约束，使最终学到的策略在长时间任务中表现良好。实验结果表明，PLATO 算法相较于先前方法，学习速度更快，在训练过程中遇到灾难性失败（坠机）的次数大幅减少，更可能收敛到较好的策略。

Mar, 2016

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020