带稳定性保证的演员 - 评论家强化学习控制

Apr, 2020

带稳定性保证的演员 - 评论家强化学习控制

Actor-Critic Reinforcement Learning for Control with Stability Guarantee

Minghao Han, Lixian Zhang, Jun Wang, Wei Pan

TL;DR使用经典控制理论中的 Lyapunov 方法，为控制系统提供稳定性保证的 actor-critic RL 框架，确保在一定程度的不确定性干扰下，学习到的策略使得系统能够恢复到平衡或航点。

Abstract

reinforcement learning (RL) and its integration with deep learning have achieved impressive performance in various robotic control tasks, ranging from motion planning and navigation to end-to-end visual manipulat

reinforcement learning deep learning control-theoretic perspective stability actor-critic rl framework

发现论文，激发创造

使用自学几乎 Lyapunov 评论家稳定神经控制

本研究提出了一种新的方法利用学习基础算法的神经控制策略和神经 Lyapunov critique 函数，利用采样方法和 Almost Lyapunov 函数条件来增强各种非线性系统的神经控制器的稳定性。

Jul, 2021

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

一种基于 Barrier-Lyapunov 的 Actor-Critic 强化学习方法，用于安全稳定控制

本文提出了一个基于控制栅函数 (control barrier function, CBF) 和控制李雅普诺夫函数 (control Lyapunov function, CLF) 方法的强化学习 (reinforcement learning, RL) 框架，称之为 Barrier-Lyapunov Actor-Critic (BLAC) 框架，它有助于维护系统的安全性和稳定性。本框架通过基于重放缓冲器中采样的数据构建安全性的控制障碍函数约束和稳定性的控制李雅普诺夫函数约束，并使用增广拉格朗日方法来更新基于 RL 的控制器的参数。此外，本文还引入了一种备份控制器，以防安全和稳定性约束无法同时满足时 RL 控制器不能提供有效的控制信号。仿真结果证明，相对于基线算法，该框架产生的控制器可以帮助系统接近期望状态，并导致更少的安全约束违反。

Apr, 2023

一种基于自适应稳定性认证的强化学习策略优化方法

提出自适应稳定性认证方法（ASC）保证采样优化阶段中系统的稳定性，并基于 ASC 条件设计了自适应 Lyapunov-based Actor-Critic（ALAC）算法，在机器人任务中实现了比现有研究更低的累积成本和更少的稳定约束违规。

Jan, 2023

在线稳定强化学习框架

本篇论文介绍了一种将在线增强学习与经典控制的元素（基于 Lyapunov 稳定性理论）进行结合的方法，可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力，并通过实验研究证明了该方法的有效性。

Jul, 2022

演员 - 评论员物理告知的神经李雅普诺夫控制

使用 Zubov 的偏微分方程方法训练神经网络控制器和其对应的李亚普诺夫证书，以提高控制策略的吸引域范围。

Mar, 2024

稳定强化学习控制：用于优化所有稳定行为的模块化框架

我们提出了一个结合深度强化学习优化驱动和无模型优势，通过使用 Youla-Kucera 参数化来定义搜索域提供稳定性保证的反馈控制器设计框架。通过最近在行为系统中的进展，我们能够构建基于数据驱动的内部模型，使得 Youla-Kucera 参数化的备选实现完全基于输入 - 输出探索数据。此外，我们还给出了一个矩阵分解方法来明确表示所有稳定线性算子的集合，用于深度强化学习代理的训练。最后，我们还展示了如何将这些思想应用于调整固定结构控制器。

Oct, 2023

使用控制李雅普诺夫障碍函数进行安全机器人控制的强化学习

本文研究使用控制李亚普诺夫壁函数（CLBF）来分析安全性和可达性，使用 Lyapunov 壁演员 - 评论家（LBAC）算法进行数据驱动寻找控制器，以实现无模型的强化学习在机器人控制中的广泛应用。在模拟实验和真实机器人控制实验中，实验结果显示了该方法在可达性和安全性方面的优异表现。

May, 2023

线性动态系统中带快速稳定的强化学习

研究模型基于的强化学习在未知可稳定线性动态系统中的应用，提出一种通过改进探索策略证明基本稳定性的算法，所提出的算法在避免系统崩溃的同时，实现了对环境的快速探索，在多个自适应控制任务中表现优异。

Jul, 2020