Jan, 2023

一种基于自适应稳定性认证的强化学习策略优化方法

TL;DR提出自适应稳定性认证方法(ASC)保证采样优化阶段中系统的稳定性,并基于 ASC 条件设计了自适应 Lyapunov-based Actor-Critic(ALAC)算法, 在机器人任务中实现了比现有研究更低的累积成本和更少的稳定约束违规。