学习带有专业指导的安全策略

May, 2018

Learning Safe Policies with Expert Guidance

Jessie Huang, Fa Wu, Doina Precup, Yang Cai

TL;DR提出一种用于确保强化学习智能体在奖励函数难以指定的情况下保持安全行为的框架，该框架依赖于来自专家策略的演示，并提供了一个理论框架，以优化智能体在现有知识一致的奖励空间中。我们提出了两种方法来解决产生的优化问题：一种是基于精确椭球方法，另一种是基于 “跟随扰动领导者” 算法的方法。我们的实验证明了我们算法在离散和连续问题中的行为，训练出来的智能体在模仿专家行为的同时安全地避免了具有潜在负面影响的状态。

Abstract

We propose a framework for ensuring safe behavior of a reinforcement learning agent when the reward function may be difficult to specify.

reinforcement learning expert policies safe behavior reward function optimization

发现论文，激发创造

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

通过专家指导的策略优化实现安全驾驶

研究者提出了一种基于专家支持的强化学习模式，其中引入了一个守护者来保障学习的过程安全，在保证足够探索性的同时，在危险时进行干预并演示正确行为以避免潜在的事故。使用约束优化技术来避免故意表现出危险行为欺骗专家，并使用离线强化学习技术从专家生成的部分演示中进行学习。试验表明，该方法在训练和测试时表现出更高的安全性，比基线方法在样本效率方面具有更高的性能，并保持对未知环境的一般性。

Oct, 2021

引导安全探索的强化学习

安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法，通过在受控环境中训练引导智能体以安全探索，最终实现有效的安全传输学习，帮助学生机器人更快地解决目标任务。

Jul, 2023

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

安全强化学习的概率反例指导

本文提出了一个针对安全探索的方法，通过与安全需求反例指导训练，将连续和离散状态空间系统抽象成紧凑的抽象模型，并利用概率反例生成构造出最小化安全需求违规的模拟子模型，从而使代理人能够有效地训练其策略，以在随后的在线探索过程中尽量减少安全违规风险。

Jul, 2023

增强强化学习智能体与本地指导

本文研究如何将本地指南政策整合到强化学习代理系统中，提出了基于嘈杂策略切换的算法，并通过适当的近似策略评估方案，将本地指南引导向更好的行动，从而改善强化学习算法在安全关键系统等领域的性能。

Feb, 2024

随机专家蒸馏：通过专家策略支持来进行模仿学习估计

本文提出一种新的模仿学习框架，通过估计专家策略的支持来计算固定的奖励函数，将模仿学习重新定位到标准的强化学习设置中，证明了该奖励函数在离散和连续域上的有效性，并在不同的强化学习算法下实现了与现有技术相当或更好的表现。

May, 2019

ROSARL: 仅基于奖励的安全强化学习

在强化学习中，设计能够在一个环境中安全地解决任务的代理人是一个重要的问题。本文提出了一个实用的无模型算法，它可以帮助代理人学习 Minmax 惩罚，而且在学习任务策略的同时使其学习安全策略。这个算法可以在高维连续控制环境中产生学习安全策略的代理人。

May, 2023

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022