稳定性认证强化学习:控制理论视角
使用经典控制理论中的 Lyapunov 方法,为控制系统提供稳定性保证的 actor-critic RL 框架,确保在一定程度的不确定性干扰下,学习到的策略使得系统能够恢复到平衡或航点。
Apr, 2020
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
我们提出了一个结合深度强化学习优化驱动和无模型优势,通过使用 Youla-Kucera 参数化来定义搜索域提供稳定性保证的反馈控制器设计框架。通过最近在行为系统中的进展,我们能够构建基于数据驱动的内部模型,使得 Youla-Kucera 参数化的备选实现完全基于输入 - 输出探索数据。此外,我们还给出了一个矩阵分解方法来明确表示所有稳定线性算子的集合,用于深度强化学习代理的训练。最后,我们还展示了如何将这些思想应用于调整固定结构控制器。
Oct, 2023
论文介绍了一种新颖的方法,用于在模型不确定性下合成分布鲁棒的稳定神经控制器和控制系统的证书。通过采用一种新颖的分布鲁棒的 Lyapunov 导数机会约束公式,确保 Lyapunov 证书的单调减少,解决了不确定系统稳定性保证控制器设计中的关键挑战。将这个条件整合到用于训练基于神经网络的控制器的损失函数中,证明了在包括超出分布范围的模型不确定性的情况下,闭环系统的全局渐近稳定性可以得到高可信度的认证。通过在两个控制问题的模拟过程中,将该方法与无关不确定性的基准方法和几个强化学习方法进行比较,验证了所提出方法的有效性和高效性。
Apr, 2024
在满足控制问题中的规范和追踪要求的过程中,需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则,如期望的调整时间和稳态误差。基于这种必要性,本文提出了一组结果和系统奖励设计过程,可以确保最优策略生成的轨迹与指定的控制要求相一致,并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法,我们的实验一致证明了我们提出的框架的有效性,突出了其确保策略符合所规定的控制要求的能力。
Nov, 2023
研究模型基于的强化学习在未知可稳定线性动态系统中的应用,提出一种通过改进探索策略证明基本稳定性的算法,所提出的算法在避免系统崩溃的同时,实现了对环境的快速探索,在多个自适应控制任务中表现优异。
Jul, 2020
本文提供了一个应对强化学习的框架,解决了建模不确定性和计算成本高的问题,通过使用强化学习来解决随机动态规划方程,所得的强化学习控制器对多种类型的约束条件是安全的,并且可以主动学习建模不确定性,实现实时学习。通过模拟实例证明了提出方法的有效性。
Sep, 2023
本研究主要集中于一种操作器推理方法,旨在基于先验假设构建基于低维度动力学模型,这些假设通常基于已建立的物理学或专家见解。我们的主要目标是开发一种能够推断具有固有稳定性保证的二次控制动力学系统的方法。我们研究具有能量保持非线性的控制系统的稳定性特征,从而识别出这些系统在什么条件下是有界输入有界状态稳定的。随后,这些见解被应用于学习过程,从而产生设计上固有稳定的推断模型。我们通过几个数值示例来验证我们提出的框架的有效性。
Mar, 2024