Feb, 2024

安全优化增强学习通过多目标策略优化

TL;DR基于多目标策略优化框架的新型无模型安全强化学习算法引入,通过环境奖励函数和安全评论家对策略进行优化,以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件,并引入了一个攻击参数,允许对所述权衡进行微调。实证结果表明,与六种不同最新颖的 Safe RL 方法相比,提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数,并获得更高或竞争性的策略回报,在安全关键应用方面表现出明显的优越性。