人工智能安全的网格世界

Nov, 2017

AI Safety Gridworlds

Jan Leike, Miljan Martic, Victoria Krakovna, Pedro A. Ortega, Tom Everitt...

TL;DR该研究提出了一系列强化学习环境，说明智能代理的各种安全属性问题。我们通过为每个环境配备一个隐藏的性能函数来衡量与预期安全行为的一致性，该研究将 AI 安全问题分为强健性问题和规范问题。我们在这些环境中评估了两种深度强化学习代理 A2C 和 Rainbow，并展示了它们不能令人满意地解决这些问题。

Abstract

We present a suite of reinforcement learning environments illustrating various safety properties of intelligent agents. These problems include safe interruptibility, avoiding side effects, absent supervisor, reward gaming, safe exploration, as well as →

reinforcement learning ai safety performance function robustness specification

发现论文，激发创造

安全体育场：统一的安全强化学习基准

这篇论文介绍了一个名为 Safety-Gymnasium 的环境套件和一个名为 Safe Policy Optimization 的算法库，其中包含了 16 种最先进的安全强化学习算法，旨在促进安全性能的评估和比较，并推动强化学习在更安全、更可靠和负责任的实际应用中的发展。

Oct, 2023

安全关键的强化学习中基于少量环境的泛化

本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响，通过模型平均和使用阻塞分类器等简单方法，可显著降低在网格世界中的灾难情况，但在 CoinRun 环境中会存在一定失败率，然而可以通过系集的不确定性信息来预测是否需要人类干预。

Jul, 2019

SafeLife 1.0：在复杂环境中探索副作用

SafeLife 是一个公开的强化学习环境，可测试强化学习智能体的安全性。使用近端策略优化对智能体进行奖励最大化的训练，对奖励和副作用进行评分，并通过基准测试进行对比。该研究创造了一个参考标准，未来的安全研究可以通过它进行评估。

Dec, 2019

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

基于强化学习的自我改进安全驾驶性能与黑盒验证算法

提出了一种自我完善的人工智能系统，通过黑盒验证方法，增强基于强化学习的自主驾驶代理的安全性能。在发现自动驾驶失败情况后，RL 代理的训练通过迁移学习重新初始化，以改善先前不安全的情况的表现

Oct, 2022

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024

通过对抗强化学习提高自动驾驶车辆控制的稳健性和安全性

该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现，将学习问题定义为自主系统与环境干扰之间的两人博弈，扩展为半竞争的情况，结果表明对手更好地捕捉了有意义的干扰，从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。

Mar, 2019

移动机器人避障的安全实践强化学习

本文提出了一种结合现实强化学习、基于搜索的在线轨迹规划和自动紧急情况干预的高效碰撞避免系统，用于在室内实际环境下的移动机器人安全行驶。实验结果显示该方法比多种基线更优秀，可以实现更高的平均速度、更低的碰撞频率、更高的目标达成率、更小的计算开销和更平滑的整体控制。

Sep, 2022

GUARD：一个安全的强化学习基准

引入了通用统一的安全强化学习开发基准（GUARD）, 它是一个广义基准测试，涵盖了各种 RL 智能体、任务和安全约束规格。通过使用 GUARD 进行各种任务设置下的现有安全强化学习算法的比较，建立了未来工作可以构建基线的基础。

May, 2023

安全关键控制的自适应聚合

本文提出了一个自适应聚合框架，用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识，并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明，与几种基线相比，我们的算法可以实现更少的安全违规，同时显示更好的数据效率。

Feb, 2023