Dec, 2019

SafeLife 1.0:在复杂环境中探索副作用

TL;DRSafeLife是一个公开的强化学习环境,可测试强化学习智能体的安全性。使用近端策略优化对智能体进行奖励最大化的训练,对奖励和副作用进行评分,并通过基准测试进行对比。该研究创造了一个参考标准,未来的安全研究可以通过它进行评估。