Apr, 2022

SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习

TL;DR本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架,能够有效解决在现实世界系统中,风险或安全性是一个约束的问题,同时它也能够满足不同的安全性标准。