通过分析策略梯度训练高效控制器
模型预测控制与强化学习相结合并在引导策略搜索框架下应用,通过使用机载传感器数据在训练时间内训练神经网络策略,该策略可成功地控制四旋翼飞行器的避障而无需系统完整状态知识。
Sep, 2015
本文提出一种名为 APG 的方法,结合 Bellman 最优原理和策略梯度方法,优化预训练策略以适应额外任务并保证收敛速率和样本复杂度,同时在多个数值模拟中表现良好。
May, 2023
探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用,为此针对马尔可夫决策过程和半马尔可夫决策过程问题,优化了现有的策略改进边界,并提出了新的策略改进边界,并使用定制的 PPO 算法对处理网络控制问题进行了解决。
May, 2022
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
本文介绍了一种有效的基于模型预测控制的自适应方法,用于在具有挑战性的非结构化环境中实现自主系统的运行控制,以适应多样的环境和模型不确定性。
Mar, 2023
本文研究了基于模型预测控制和强化学习控制器相结合的四足机器人稳定步态生成问题,并开发了一种融合了这两种方法的混合控制方法,其中采用一个以神经网络建模的 Q 函数形式的尾部成本算法来降低计算复杂度,并证明了我们的控制器在短时间内能够实现稳定步态,具有实时操作的能力。
Jul, 2023
人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法,利用可微的世界模型,对比了其他基于 MPC 的方法和基于策略的算法,并在大多数任务中,在具有样本效率的设定下,实现了与其他方法相媲美甚至更好的性能。此外,引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型,优于纯粹的基于策略的方法,这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。
Dec, 2023
PLATO 算法通过模型预测控制生成监督信号训练控制策略,以逐步匹配学到的策略,并保证其安全性,同时维持模型预测控制的成本作为约束,使最终学到的策略在长时间任务中表现良好。实验结果表明,PLATO 算法相较于先前方法,学习速度更快,在训练过程中遇到灾难性失败(坠机)的次数大幅减少,更可能收敛到较好的策略。
Mar, 2016
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题,提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法,并使用方差抑制技术解决了采样带来的误差问题,试验结果表明在具有多种负载条件的系统中,该算法可以生成优于现有启发式方法的控制策略,甚至可以获得接近于最优的结果。
Jul, 2020