分解控制李亚普诺夫函数以实现高效强化学习
本文研究使用控制李亚普诺夫壁函数(CLBF)来分析安全性和可达性,使用 Lyapunov 壁演员 - 评论家(LBAC)算法进行数据驱动寻找控制器,以实现无模型的强化学习在机器人控制中的广泛应用。在模拟实验和真实机器人控制实验中,实验结果显示了该方法在可达性和安全性方面的优异表现。
May, 2023
通过学习专家示范来灵活地编程自主系统以实现复杂行为,或者预测代理行为是一个强大的工具,特别是在协同控制环境中。我们提出了一种新颖的稳定性认证逆优化奖励学习法,通过将代价函数推断问题重新表述为从示范数据中学习控制李亚普诺夫函数。我们利用闭合形式表达式和相关控制策略,能够通过观察诱导动力学的吸引子景观有效地搜索李亚普诺夫函数的空间。通过使用最小二乘法构造逆优化李亚普诺夫函数,我们使用凸优化方法来解决问题。我们通过理论分析控制李亚普诺夫函数提供的最优性质,并利用模拟和真实数据来评估我们的方法。
May, 2024
本文提出了一种基于强化学习框架的方法,利用 CBF、CLF 等约束条件中存在的模型不确定性,并结合标称模型的 CBF-CLF-QP,得到了强化学习驱动的 CBF-CLF-QP,有效解决了安全约束中的模型不确定性问题。实验证明,在一个脚踩随机分布台石的非完全驱动非线性双足机器人上,此方法保证了机器人的安全和稳定行走。
Apr, 2020
本文提出了一个基于控制栅函数 (control barrier function, CBF) 和控制李雅普诺夫函数 (control Lyapunov function, CLF) 方法的强化学习 (reinforcement learning, RL) 框架,称之为 Barrier-Lyapunov Actor-Critic (BLAC) 框架,它有助于维护系统的安全性和稳定性。本框架通过基于重放缓冲器中采样的数据构建安全性的控制障碍函数约束和稳定性的控制李雅普诺夫函数约束,并使用增广拉格朗日方法来更新基于 RL 的控制器的参数。此外,本文还引入了一种备份控制器,以防安全和稳定性约束无法同时满足时 RL 控制器不能提供有效的控制信号。仿真结果证明,相对于基线算法,该框架产生的控制器可以帮助系统接近期望状态,并导致更少的安全约束违反。
Apr, 2023
本研究提出了一种新的方法来学习控制策略和非线性控制问题的神经网络李雅普诺夫函数,具有稳定性的可证明保障。该方法包括一个学习者和一个伪造器,通过快速引导学习者寻找控制和李雅普诺夫函数并寻找反例来终止程序,以保证控制的非线性系统的稳定性。该方法极大地简化了李雅普诺夫控制设计的过程,提供了端到端的正确性保证,并且可以获得比现有方法如 LQR 和 SOS/SDP 更大的吸引域范围。我们进行了实验,展示了新方法如何获得高质量的解决方案以应对具挑战性的控制问题。
May, 2020
本文介绍了谐波控制 Lyapunov 屏障函数 (harmonic CLBF),以解决受限控制问题,如到达 - 避免问题。谐波 CLBF 利用谐函数满足的最大原理,对控制 Lyapunov 屏障函数的性质进行编码。因此,它们可以在实验开始时初始化,而无需基于样本轨迹进行训练。选择控制输入以最大化系统动力学与谐波 CLBF 最陡下降方向的内积。通过对不同到达 - 避免环境下四个不同系统的数值结果进行呈现,谐波 CLBF 表现出进入不安全区域的风险显著降低,并具有进入目标区域的高概率。
Oct, 2023
本研究提出了一种新的方法利用学习基础算法的神经控制策略和神经 Lyapunov critique 函数,利用采样方法和 Almost Lyapunov 函数条件来增强各种非线性系统的神经控制器的稳定性。
Jul, 2021
本文研究了如何通过将传统反馈控制方法与强化学习相结合,解决包括接触力和摩擦力在内的现代制造业中的机器人控制问题,并通过培训代理来演示我们的方法,成功地执行现实世界的块装配任务。
Dec, 2018
本文提出了一种控制器架构,该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合,以确保学习过程中的安全,并利用高斯过程对系统动态进行建模和不确定性分析。
Mar, 2019