处理安全强化学习中的长期安全性和不确定性

Sep, 2024

处理安全强化学习中的长期安全性和不确定性

Handling Long-Term Safety and Uncertainty in Safe Reinforcement Learning

Jonas Günster, Puze Liu, Jan Peters, Davide Tateo

TL;DR本研究针对安全强化学习中缺乏任务特定安全约束的问题，提出了一种基于模型的方法，通过扩展安全探索方法ATACOM，结合可学习的约束，确保长期安全性并处理不确定性。实验结果显示，该方法在最终性能上与当前最先进的方法持平或更优，同时在训练过程中保持更安全的行为。

Abstract

Safety is one of the key issues preventing the deployment of reinforcement learning techniques in real-world robots. While most approaches in the Safe Reinforcement Learning area do not require prior knowledge of constraints and robot kinematics and rely solely on data, it is often dif

发现论文，激发创造

连续动作空间中的安全探索

本文介绍了一种在物理系统（如数据中心冷却单元或机器人）中部署强化学习代理的方法，通过添加一层安全层，能够避免在学习过程中违反约束条件，并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。

Jan, 2018

基于学习的模型预测控制用于安全探索

本文提出了一种基于学习的模型预测控制方案，其可以提供可证明的高概率安全保证，并利用正态分布先验的规则性假设来构建可证明准确的置信区间，保证轨迹满足安全约束，通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。

Mar, 2018

一种基于李亚普诺夫函数的安全强化学习方法

提出了一种基于Lyapunov方法的安全强化学习算法，该算法可在保证行为策略安全的前提下，有效地平衡约束满足和性能优化。

May, 2018

通过原始-对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题，使用一种约束的Markov决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

机器人中的安全学习：从基于学习的控制到安全强化学习

本文综述了机器学习在实现安全决策方面的最新进展，并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法，并强调了在近距离与人类操作时安全性至关重要。此外，作者还强调了未来机器人学习研究中需要解决的一些挑战，以及促进控制和强化学习方法公平比较的基于物理的基准测试。

Aug, 2021

SafeAPT：使用在模拟器中学得的多样策略的安全模拟-真实机器人学习

介绍了一种名为SafeAPT的学习算法，它使用仿真实验学习的策略并将其安全地迁移到实际机器人中，通过实际交互而不会危害自身或周围环境。该算法通过迭代学习概率奖励模型和安全模型，并使用仿真经验作为先验，在满足安全约束的情况下完成该策略。经过实际和仿真机器人的对比实验，显示SafeAPT能够在短时间内找到高性能策略并在交互期间最小化安全违规。

Jan, 2022

存在干扰下的强化学习安全探索方法

提出了一种安全探索方法，该方法利用受控对象和干扰的部分先前知识，以确保满足特定的状态约束条件，即使受控对象暴露于遵循正常分布的随机干扰下。

Sep, 2022

基于像素观测的逐州安全强化学习

本文提出了一种新的像素观测安全强化学习算法，通过引入潜在障碍函数学习机制，高效地编码未知危险区域的状态安全约束，并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架，从而在提高安全性和总预期收益方面取得显著的结果。在安全-gym基准套件上的实验评估表明，我们提出的方法明显减少了训练过程中的安全违规，并在安全收敛速度上比现有方法更快，同时在奖励回报方面取得了竞争性的结果。

Nov, 2023

强化学习中的保护进展：用于控制策略合成的安全贝叶斯探索

这篇论文研究了在强化学习过程中如何保证训练的安全性，通过提出一种新的架构处理效率和安全性之间的权衡，并利用贝叶斯推理和马尔可夫决策过程来近似风险，并通过实验结果展示了整体架构的性能。

Dec, 2023

约束流形上的安全强化学习：理论与应用

将基于学习的技术，特别是强化学习，整合到机器人技术中来解决非结构化环境中的复杂问题很具有前景。本文展示了我们如何以原则性的方式将复杂的安全约束强加于基于学习的机器人系统中，从理论和实践的角度进行了展示。

Apr, 2024