一种基于自适应稳定性认证的强化学习策略优化方法

Jan, 2023

一种基于自适应稳定性认证的强化学习策略优化方法

A RL-based Policy Optimization Method Guided by Adaptive Stability Certification

Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni...

TL;DR提出自适应稳定性认证方法（ASC）保证采样优化阶段中系统的稳定性，并基于 ASC 条件设计了自适应 Lyapunov-based Actor-Critic（ALAC）算法，在机器人任务中实现了比现有研究更低的累积成本和更少的稳定约束违规。

Abstract

In contrast to the control-theoretic methods, the lack of stability guarantee remains a significant problem for model-free reinforcement learning (RL) methods. Jointly learning a policy and a Lyapunov function has recently become a promising approach to ensuring the whole system with a

reinforcement learning policy optimization lyapunov stability robotics asc

发现论文，激发创造

带稳定性保证的演员 - 评论家强化学习控制

使用经典控制理论中的 Lyapunov 方法，为控制系统提供稳定性保证的 actor-critic RL 框架，确保在一定程度的不确定性干扰下，学习到的策略使得系统能够恢复到平衡或航点。

Apr, 2020

使用自学几乎 Lyapunov 评论家稳定神经控制

本研究提出了一种新的方法利用学习基础算法的神经控制策略和神经 Lyapunov critique 函数，利用采样方法和 Almost Lyapunov 函数条件来增强各种非线性系统的神经控制器的稳定性。

Jul, 2021

一种基于 Barrier-Lyapunov 的 Actor-Critic 强化学习方法，用于安全稳定控制

本文提出了一个基于控制栅函数 (control barrier function, CBF) 和控制李雅普诺夫函数 (control Lyapunov function, CLF) 方法的强化学习 (reinforcement learning, RL) 框架，称之为 Barrier-Lyapunov Actor-Critic (BLAC) 框架，它有助于维护系统的安全性和稳定性。本框架通过基于重放缓冲器中采样的数据构建安全性的控制障碍函数约束和稳定性的控制李雅普诺夫函数约束，并使用增广拉格朗日方法来更新基于 RL 的控制器的参数。此外，本文还引入了一种备份控制器，以防安全和稳定性约束无法同时满足时 RL 控制器不能提供有效的控制信号。仿真结果证明，相对于基线算法，该框架产生的控制器可以帮助系统接近期望状态，并导致更少的安全约束违反。

Apr, 2023

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

分布鲁棒策略与李雅普诺夫证明学习

论文介绍了一种新颖的方法，用于在模型不确定性下合成分布鲁棒的稳定神经控制器和控制系统的证书。通过采用一种新颖的分布鲁棒的 Lyapunov 导数机会约束公式，确保 Lyapunov 证书的单调减少，解决了不确定系统稳定性保证控制器设计中的关键挑战。将这个条件整合到用于训练基于神经网络的控制器的损失函数中，证明了在包括超出分布范围的模型不确定性的情况下，闭环系统的全局渐近稳定性可以得到高可信度的认证。通过在两个控制问题的模拟过程中，将该方法与无关不确定性的基准方法和几个强化学习方法进行比较，验证了所提出方法的有效性和高效性。

Apr, 2024

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

Lyapunov 神经网络：自适应稳定性认证用于动态系统的安全学习

本文提出了一种基于神经网络构建 Lyapunov 函数并通过训练算法将其适应到状态空间中最大安全区域形状的方法，以学习非线性闭环动力系统的准确安全证明，并在模拟倒立摆中演示了该方法的应用，讨论了如何将该方法与动态系统的统计模型一起用于安全学习算法。

Aug, 2018

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于 Lyapunov 方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

带有平滑对数障碍函数的有约束强化学习

我们提出了一种新的约束强化学习方法，称为 CSAC-LB（具有对数势函数的约束软 Actor-Critic）。通过将线性平滑对数势函数应用于附加的安全评论家，它实现了适应性政策学习的惩罚，并减轻了对数势函数方法应用中已知的数值问题，从而在几个不同难度的约束控制任务上实现了最先进的性能，并在真实的四足机器人平台上评估了我们的方法。

Mar, 2024

NLBAC：一种基于神经常微分方程的稳定和安全强化学习框架

该研究介绍了一种基于神经常微分方程的 Lyapunov-Barrier Actor-Critic (NLBAC) 框架，该框架利用神经常微分方程来近似系统动态，并将控制凸障函数 (CBF) 和控制李雅普诺夫函数 (CLF) 的框架与演员 - 评论家方法集成，以帮助维持系统的安全性和稳定性。在该框架中，采用增广拉格朗日法来更新基于强化学习的控制器参数。此外，当安全性的 CBF 约束和稳定性的 CLF 约束不能同时满足时，还引入了额外的备份控制器。模拟结果表明，与其他方法相比，该框架使系统接近期望状态，且以更好的样本效率减少了安全约束的违反。

Jan, 2024