Jan, 2024

NLBAC:一种基于神经常微分方程的稳定和安全强化学习框架

TL;DR该研究介绍了一种基于神经常微分方程的 Lyapunov-Barrier Actor-Critic (NLBAC) 框架,该框架利用神经常微分方程来近似系统动态,并将控制凸障函数 (CBF) 和控制李雅普诺夫函数 (CLF) 的框架与演员 - 评论家方法集成,以帮助维持系统的安全性和稳定性。在该框架中,采用增广拉格朗日法来更新基于强化学习的控制器参数。此外,当安全性的 CBF 约束和稳定性的 CLF 约束不能同时满足时,还引入了额外的备份控制器。模拟结果表明,与其他方法相比,该框架使系统接近期望状态,且以更好的样本效率减少了安全约束的违反。