无须试错：通过人类干预实现安全强化学习

Jul, 2017

无须试错：通过人类干预实现安全强化学习

Trial without Error: Towards Safe Reinforcement Learning via Human Intervention

William Saunders, Girish Sastry, Andreas Stuhlmueller, Owain Evans

TL;DR通过引入人类监督和一个受过训练的学习器，当前的无模型强化学习可以避免所有的监管灾难性问题，但在更复杂的任务上其效果有限，需要进行进一步改进。

Abstract

ai systems are increasingly applied to complex tasks that involve interaction with humans. During training, such systems are potentially dangerous, as they haven't yet learned to avoid actions that could cause serious harm. How can an AI system explore and learn without making a single

发现论文，激发创造

分布式多智能体强化学习的动态安全可中断性

本文研究强化学习中的安全中断问题，提出了针对分散学习问题的动态安全中断定义，并探讨了在联合行动学习者和独立学习者中的应用，提出了可行的必要条件，并指出在独立学习者中使用动态安全中断需要添加特定算法。

Apr, 2017

无痕迹：学会重置以实现安全和自主的强化学习

本文提出了一种可以同时学习前向策略和清除策略的自动化安全有效的强化学习方法，可以显著减少手动重置，减少不安全的动作，并能自动诱导课程。

Nov, 2017

仔细观察：在Atari上实现一致的性能表现

在本文中，我们提出了一个算法，它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题，包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索，该算法超过了人类在40个游戏上的表现，其中包括 Montezuma's Revenge 的第一关。

May, 2018

通过课程引导实现安全强化学习

本文提出一种受人类教学启发的替代方法，即代理在自动指导监督下学习，其中引入了监视器来防止其在学习过程中违反约束条件。

Jun, 2020

学习保证安全：带安全评论家的深度强化学习

为了将RL算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度RL技术和以前的安全RL方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

基于优势干预的安全强化学习

提出了一个新的算法SAILR，该算法使用基于优势函数的干预机制在训练期间保持代理的安全，并使用为无约束MDP设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。

Jun, 2021

深度强化学习在人类环境下机器人操作的可证明安全性

本文提出了一种保护机制，利用快速到达性分析保证机械臂控制在人群环境下的安全，并且证明该方法能够有效地提高强化学习的性能。

May, 2022

Safe RLHF: 安全的强化学习从人类反馈中

利用Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来RL的安全和稳健性的相关研究工作进行总结，本文主要关注RL系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强RL代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署RL系统。

Mar, 2024

自适应屏蔽在黑盒环境中的安全强化学习

在训练过程中，通过使用一种名为ADVICE的自适应屏蔽技术，可以识别出状态-动作对的安全和不安全特征，从而保护强化学习代理避免执行可能产生危险结果的动作，有效降低安全违规风险。

May, 2024