Apr, 2022

SAAC: 基于扮演者-评论者对抗博弈的安全强化学习

TL;DR本文提出了一种利用最大熵RL和安全性对抗指导的SAAC框架,能够有效解决在现实世界系统中,风险或安全性是一个约束的问题,同时它也能够满足不同的安全性标准。