分解控制李亚普诺夫函数以实现高效强化学习

Mar, 2024

分解控制李亚普诺夫函数以实现高效强化学习

Decomposing Control Lyapunov Functions for Efficient Reinforcement Learning

Antonio Lopez, David Fridovich-Keil

TL;DR使用控制李雅普诺夫函数对强化学习进行奖励重塑并降低样本复杂性，通过分解控制李雅普诺夫函数计算提高了强化学习绩效，在多个示例中成功地在较少的真实数据量下降落四旋翼飞行器。

Abstract

Recent methods using reinforcement learning (RL) have proven to be successful for training intelligent agents in unknown environments. However, RL has not been applied widely in real-world robotics scenarios. This is because current state-of-the-art RL methods require large amounts of

reinforcement learning control lyapunov function sample complexity decomposed control lyapunov functions quadcopter

发现论文，激发创造

使用控制李雅普诺夫障碍函数进行安全机器人控制的强化学习

本文研究使用控制李亚普诺夫壁函数（CLBF）来分析安全性和可达性，使用 Lyapunov 壁演员 - 评论家（LBAC）算法进行数据驱动寻找控制器，以实现无模型的强化学习在机器人控制中的广泛应用。在模拟实验和真实机器人控制实验中，实验结果显示了该方法在可达性和安全性方面的优异表现。

May, 2023

稳定的逆强化学习：控制 Lyapunov 景观的政策

通过学习专家示范来灵活地编程自主系统以实现复杂行为，或者预测代理行为是一个强大的工具，特别是在协同控制环境中。我们提出了一种新颖的稳定性认证逆优化奖励学习法，通过将代价函数推断问题重新表述为从示范数据中学习控制李亚普诺夫函数。我们利用闭合形式表达式和相关控制策略，能够通过观察诱导动力学的吸引子景观有效地搜索李亚普诺夫函数的空间。通过使用最小二乘法构造逆优化李亚普诺夫函数，我们使用凸优化方法来解决问题。我们通过理论分析控制李亚普诺夫函数提供的最优性质，并利用模拟和真实数据来评估我们的方法。

May, 2024

使用控制李雅普诺夫函数和控制阻碍函数的模型不确定性下安全关键控制的强化学习

本文提出了一种基于强化学习框架的方法，利用 CBF、CLF 等约束条件中存在的模型不确定性，并结合标称模型的 CBF-CLF-QP，得到了强化学习驱动的 CBF-CLF-QP，有效解决了安全约束中的模型不确定性问题。实验证明，在一个脚踩随机分布台石的非完全驱动非线性双足机器人上，此方法保证了机器人的安全和稳定行走。

Apr, 2020

从反例和演示中学习控制李雅普诺夫函数

本文提出一种学习控制李亚普诺夫函数的技术，通过使用非线性模型预测控制器来分析和优化控制方法，从而在非线性动力学系统的稳定性问题中发挥重要作用。

Apr, 2018

一种基于 Barrier-Lyapunov 的 Actor-Critic 强化学习方法，用于安全稳定控制

本文提出了一个基于控制栅函数 (control barrier function, CBF) 和控制李雅普诺夫函数 (control Lyapunov function, CLF) 方法的强化学习 (reinforcement learning, RL) 框架，称之为 Barrier-Lyapunov Actor-Critic (BLAC) 框架，它有助于维护系统的安全性和稳定性。本框架通过基于重放缓冲器中采样的数据构建安全性的控制障碍函数约束和稳定性的控制李雅普诺夫函数约束，并使用增广拉格朗日方法来更新基于 RL 的控制器的参数。此外，本文还引入了一种备份控制器，以防安全和稳定性约束无法同时满足时 RL 控制器不能提供有效的控制信号。仿真结果证明，相对于基线算法，该框架产生的控制器可以帮助系统接近期望状态，并导致更少的安全约束违反。

Apr, 2023

神经李亚普诺夫控制

本研究提出了一种新的方法来学习控制策略和非线性控制问题的神经网络李雅普诺夫函数，具有稳定性的可证明保障。该方法包括一个学习者和一个伪造器，通过快速引导学习者寻找控制和李雅普诺夫函数并寻找反例来终止程序，以保证控制的非线性系统的稳定性。该方法极大地简化了李雅普诺夫控制设计的过程，提供了端到端的正确性保证，并且可以获得比现有方法如 LQR 和 SOS/SDP 更大的吸引域范围。我们进行了实验，展示了新方法如何获得高质量的解决方案以应对具挑战性的控制问题。

May, 2020

用于约束最优控制和达到避障规范的谐波控制李亚普诺夫屏障函数

本文介绍了谐波控制 Lyapunov 屏障函数 (harmonic CLBF)，以解决受限控制问题，如到达 - 避免问题。谐波 CLBF 利用谐函数满足的最大原理，对控制 Lyapunov 屏障函数的性质进行编码。因此，它们可以在实验开始时初始化，而无需基于样本轨迹进行训练。选择控制输入以最大化系统动力学与谐波 CLBF 最陡下降方向的内积。通过对不同到达 - 避免环境下四个不同系统的数值结果进行呈现，谐波 CLBF 表现出进入不安全区域的风险显著降低，并具有进入目标区域的高概率。

Oct, 2023

使用自学几乎 Lyapunov 评论家稳定神经控制

本研究提出了一种新的方法利用学习基础算法的神经控制策略和神经 Lyapunov critique 函数，利用采样方法和 Almost Lyapunov 函数条件来增强各种非线性系统的神经控制器的稳定性。

Jul, 2021

机器人控制的残余强化学习

本文研究了如何通过将传统反馈控制方法与强化学习相结合，解决包括接触力和摩擦力在内的现代制造业中的机器人控制问题，并通过培训代理来演示我们的方法，成功地执行现实世界的块装配任务。

Dec, 2018

基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

本文提出了一种控制器架构，该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合，以确保学习过程中的安全，并利用高斯过程对系统动态进行建模和不确定性分析。

Mar, 2019