Apr, 2023

System III: 使用领域知识进行学习以满足安全限制

TL;DR提出了一种新颖的框架,在强化学习代理中引入领域知识以促进安全探索和提高样本效率,该方法在 OpenAI 的 Gym 和 Safety-Gym 环境中的任务中均表现出了更安全的探索和更高的样本效率。