Aug, 2024

Meta SAC-Lag:通过基于元梯度的超参数调整实现可部署的安全强化学习

TL;DR本研究针对安全强化学习中的阈值微调问题,提出了一种统一的无模型Lagrangian架构Meta SAC-Lag。该方法采用元梯度优化,能够自动更新安全相关的超参数,在最小的超参数调优需求下,显著提升了策略的收敛性和安全性能,验证了在模拟和现实环境中的有效性。