带有平滑对数障碍函数的有约束强化学习

Mar, 2024

带有平滑对数障碍函数的有约束强化学习

Constrained Reinforcement Learning with Smoothed Log Barrier Function

Baohe Zhang, Yuan Zhang, Lilli Frison, Thomas Brox, Joschka Bödecker

TL;DR我们提出了一种新的约束强化学习方法，称为 CSAC-LB（具有对数势函数的约束软 Actor-Critic）。通过将线性平滑对数势函数应用于附加的安全评论家，它实现了适应性政策学习的惩罚，并减轻了对数势函数方法应用中已知的数值问题，从而在几个不同难度的约束控制任务上实现了最先进的性能，并在真实的四足机器人平台上评估了我们的方法。

Abstract

reinforcement learning (RL) has been widely applied to many control tasks and substantially improved the performances compared to conventional control methods in many domains where the reward function is well defined. However, for many real-world problems, it is often more convenient t

reinforcement learning constrained rl method csac-lb reward shaping optimization problems

发现论文，激发创造

使用控制李雅普诺夫障碍函数进行安全机器人控制的强化学习

本文研究使用控制李亚普诺夫壁函数（CLBF）来分析安全性和可达性，使用 Lyapunov 壁演员 - 评论家（LBAC）算法进行数据驱动寻找控制器，以实现无模型的强化学习在机器人控制中的广泛应用。在模拟实验和真实机器人控制实验中，实验结果显示了该方法在可达性和安全性方面的优异表现。

May, 2023

一种基于 Barrier-Lyapunov 的 Actor-Critic 强化学习方法，用于安全稳定控制

本文提出了一个基于控制栅函数 (control barrier function, CBF) 和控制李雅普诺夫函数 (control Lyapunov function, CLF) 方法的强化学习 (reinforcement learning, RL) 框架，称之为 Barrier-Lyapunov Actor-Critic (BLAC) 框架，它有助于维护系统的安全性和稳定性。本框架通过基于重放缓冲器中采样的数据构建安全性的控制障碍函数约束和稳定性的控制李雅普诺夫函数约束，并使用增广拉格朗日方法来更新基于 RL 的控制器的参数。此外，本文还引入了一种备份控制器，以防安全和稳定性约束无法同时满足时 RL 控制器不能提供有效的控制信号。仿真结果证明，相对于基线算法，该框架产生的控制器可以帮助系统接近期望状态，并导致更少的安全约束违反。

Apr, 2023

基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用

本文提出了一种控制器架构，该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合，以确保学习过程中的安全，并利用高斯过程对系统动态进行建模和不确定性分析。

Mar, 2019

一种基于自适应稳定性认证的强化学习策略优化方法

提出自适应稳定性认证方法（ASC）保证采样优化阶段中系统的稳定性，并基于 ASC 条件设计了自适应 Lyapunov-based Actor-Critic（ALAC）算法，在机器人任务中实现了比现有研究更低的累积成本和更少的稳定约束违规。

Jan, 2023

使用控制李雅普诺夫函数和控制阻碍函数的模型不确定性下安全关键控制的强化学习

本文提出了一种基于强化学习框架的方法，利用 CBF、CLF 等约束条件中存在的模型不确定性，并结合标称模型的 CBF-CLF-QP，得到了强化学习驱动的 CBF-CLF-QP，有效解决了安全约束中的模型不确定性问题。实验证明，在一个脚踩随机分布台石的非完全驱动非线性双足机器人上，此方法保证了机器人的安全和稳定行走。

Apr, 2020

具有障碍认证的自适应强化学习及其在 Brushbot 导航中的应用

本文提出了一个安全学习框架，该框架采用自适应模型学习算法以及障碍证书，用于具有可能非平稳智能体动态的系统。本文使用稀疏优化技术提取模型的动态结构，并结合控制障碍证书来保持安全。在一定条件下，保证了违反安全性后的 Lypunov 稳定恢复。最终证明了该框架通过仿真和测试的方式，在具有未知、高度复杂和非平稳动态的机器人系统中是有效的。

Jan, 2018

学习控制屏障函数及其在强化学习中的应用：综述

通过综合回顾现有文献，研究使用控制屏障函数的安全强化学习方法，并探索自动学习控制屏障函数的各种技术，以提高强化学习在实际机器人应用中的安全性和效能。

Apr, 2024

基于价值限制的无模型连续控制

提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Feb, 2019

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

NLBAC：一种基于神经常微分方程的稳定和安全强化学习框架

该研究介绍了一种基于神经常微分方程的 Lyapunov-Barrier Actor-Critic (NLBAC) 框架，该框架利用神经常微分方程来近似系统动态，并将控制凸障函数 (CBF) 和控制李雅普诺夫函数 (CLF) 的框架与演员 - 评论家方法集成，以帮助维持系统的安全性和稳定性。在该框架中，采用增广拉格朗日法来更新基于强化学习的控制器参数。此外，当安全性的 CBF 约束和稳定性的 CLF 约束不能同时满足时，还引入了额外的备份控制器。模拟结果表明，与其他方法相比，该框架使系统接近期望状态，且以更好的样本效率减少了安全约束的违反。

Jan, 2024