不确定环境中的安全强化学习

Jan, 2024

Safe reinforcement learning in uncertain contexts

Dominik Baumann, Thomas B. Schön

TL;DR在实际部署中的机器学习算法时，确保安全是一项重要的资产。现有的安全学习方法通常考虑连续变量，即回归任务。然而，在实践中，机器人系统还受到离散的、外部的环境变化的影响，例如必须携带一定重量的物体或在冻结、潮湿或干燥的表面上操作。这些影响可以建模为离散的上下文变量。在现有的文献中，如果考虑了这些上下文，大多数情况下是假设为已知的。在这项工作中，我们放弃了这个假设，并展示了当我们不能直接测量上下文变量时如何进行安全学习。为了实现这一点，我们针对多类分类导出了频率学派的保证，允许我们从测量中估计当前的上下文。此外，我们提出了一种通过实验识别上下文的方法。我们讨论了在哪些条件下我们能保留理论保证，并通过使用不同权重的相机测量的 Furuta 摆作为上下文对我们的算法的适用性进行了演示。

Abstract

When deploying machine learning algorithms in the real world, guaranteeing safety is an essential asset. Existing safe learning approaches typically consider continuous variables, i.e., regression tasks. However,

machine learning safe learning discrete context variables classification theoretical guarantees

发现论文，激发创造

一个计算轻量级的安全学习算法

在这篇论文中，我们提出了一种安全学习算法，通过使用 Nadaraya-Watson 估计器而不是高斯过程，提供概率安全保证，并且在数据点数量方面实现对数级别的扩展。我们为估计结果提供了理论保证，将其嵌入到一个安全学习算法中，并在模拟的七自由度机器人操纵器上进行了数值实验。

Sep, 2023

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

机器人中的安全学习：从基于学习的控制到安全强化学习

本文综述了机器学习在实现安全决策方面的最新进展，并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法，并强调了在近距离与人类操作时安全性至关重要。此外，作者还强调了未来机器人学习研究中需要解决的一些挑战，以及促进控制和强化学习方法公平比较的基于物理的基准测试。

Aug, 2021

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

机器学习安全性：网络物理系统、决策科学和数据产品

本论文旨在明确机器学习安全的定义，并通过研究智能决策科学和数据产品等应用领域，探讨实现机器学习安全的四种策略，包括内在安全设计、安全保护垫、安全失败和程序保护，并提出相应的技术方法和异议函数，以确保解释性、因果性、人工参与和用户体验设计等方面的安全性。

Oct, 2016

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

自主车辆上的安全强化学习

本研究探讨了如何通过预测来约束探索，从而实现强化学习在自动驾驶中的安全学习。

Sep, 2019

安全关键的强化学习中基于少量环境的泛化

本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响，通过模型平均和使用阻塞分类器等简单方法，可显著降低在网格世界中的灾难情况，但在 CoinRun 环境中会存在一定失败率，然而可以通过系集的不确定性信息来预测是否需要人类干预。

Jul, 2019