Nov, 2023

SCPO: 带安全评论家策略优化的安全强化学习

TL;DR本研究介绍了一种新的安全强化学习算法(Safety Critic Policy Optimization,SCPO),通过引入安全评判机制,该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡,并在实证验证中证明了其有效性。