稳定性认证强化学习：控制理论视角

Oct, 2018

稳定性认证强化学习：控制理论视角

Stability-certified reinforcement learning: A control-theoretic perspective

Ming Jin, Javad Lavaei

TL;DR论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Abstract

We investigate the important problem of certifying stability of reinforcement learning policies when interconnected with nonlinear dynamical systems. We show that by regulating the input-output gradients of policies, strong guarantees of robust stability can be obtained based on a prop

reinforcement learning nonlinear dynamical systems stability certification semidefinite programming decentralized control

发现论文，激发创造

带稳定性保证的演员 - 评论家强化学习控制

使用经典控制理论中的 Lyapunov 方法，为控制系统提供稳定性保证的 actor-critic RL 框架，确保在一定程度的不确定性干扰下，学习到的策略使得系统能够恢复到平衡或航点。

Apr, 2020

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

稳定强化学习控制：用于优化所有稳定行为的模块化框架

我们提出了一个结合深度强化学习优化驱动和无模型优势，通过使用 Youla-Kucera 参数化来定义搜索域提供稳定性保证的反馈控制器设计框架。通过最近在行为系统中的进展，我们能够构建基于数据驱动的内部模型，使得 Youla-Kucera 参数化的备选实现完全基于输入 - 输出探索数据。此外，我们还给出了一个矩阵分解方法来明确表示所有稳定线性算子的集合，用于深度强化学习代理的训练。最后，我们还展示了如何将这些思想应用于调整固定结构控制器。

Oct, 2023

分布鲁棒策略与李雅普诺夫证明学习

论文介绍了一种新颖的方法，用于在模型不确定性下合成分布鲁棒的稳定神经控制器和控制系统的证书。通过采用一种新颖的分布鲁棒的 Lyapunov 导数机会约束公式，确保 Lyapunov 证书的单调减少，解决了不确定系统稳定性保证控制器设计中的关键挑战。将这个条件整合到用于训练基于神经网络的控制器的损失函数中，证明了在包括超出分布范围的模型不确定性的情况下，闭环系统的全局渐近稳定性可以得到高可信度的认证。通过在两个控制问题的模拟过程中，将该方法与无关不确定性的基准方法和几个强化学习方法进行比较，验证了所提出方法的有效性和高效性。

Apr, 2024

随机控制系统中的稳定策略学习

本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略，结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。

May, 2022

从数据中学习稳定证明

我们开发了一种算法，从轨迹数据中学习证明函数。我们从轨迹数据中建立了证明函数，并将其转换为全局稳定性保证，可以应用于其他任务中。

Aug, 2020

通过奖励塑造在强化学习中保证控制需求

在满足控制问题中的规范和追踪要求的过程中，需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则，如期望的调整时间和稳态误差。基于这种必要性，本文提出了一组结果和系统奖励设计过程，可以确保最优策略生成的轨迹与指定的控制要求相一致，并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法，我们的实验一致证明了我们提出的框架的有效性，突出了其确保策略符合所规定的控制要求的能力。

Nov, 2023

线性动态系统中带快速稳定的强化学习

研究模型基于的强化学习在未知可稳定线性动态系统中的应用，提出一种通过改进探索策略证明基本稳定性的算法，所提出的算法在避免系统崩溃的同时，实现了对环境的快速探索，在多个自适应控制任务中表现优异。

Jul, 2020

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

含二次非线性控制系统的稳定认证学习

本研究主要集中于一种操作器推理方法，旨在基于先验假设构建基于低维度动力学模型，这些假设通常基于已建立的物理学或专家见解。我们的主要目标是开发一种能够推断具有固有稳定性保证的二次控制动力学系统的方法。我们研究具有能量保持非线性的控制系统的稳定性特征，从而识别出这些系统在什么条件下是有界输入有界状态稳定的。随后，这些见解被应用于学习过程，从而产生设计上固有稳定的推断模型。我们通过几个数值示例来验证我们提出的框架的有效性。

Mar, 2024