一种人性化安全的机器人强化学习框架，具有交互行为

Feb, 2023

一种人性化安全的机器人强化学习框架，具有交互行为

A Human-Centered Safe Robot Reinforcement Learning Framework with Interactive Behaviors

Shangding Gu, Alap Kshirsagar, Yali Du, Guang Chen, Jan Peters...

TL;DR本文提出人机协作的安全机器强化学习框架，包含安全探索，安全价值对齐，以及安全协作三个阶段，并探讨了机器强化学习中交互行为的四个技术挑战。

Abstract

Deployment of reinforcement learning algorithms for robotics applications in the real world requires ensuring the safety of the robot and its environment. safe robot reinforcement learning (SRRL) is a crucial step towards achieving →

safe robot reinforcement learning interactive behaviors human-robot coexistence safety value alignment open challenges

发现论文，激发创造

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

安全和稳健的强化学习：原理和实践

通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结，本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战，探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性，同时讨论了环境因素和人的参与等影响因素，最后提出了一个实用的检查清单，以帮助从业者在各个应用领域负责任地部署 RL 系统。

Mar, 2024

深度强化学习在人类环境下机器人操作的可证明安全性

本文提出了一种保护机制，利用快速到达性分析保证机械臂控制在人群环境下的安全，并且证明该方法能够有效地提高强化学习的性能。

May, 2022

机器人中的安全学习：从基于学习的控制到安全强化学习

本文综述了机器学习在实现安全决策方面的最新进展，并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法，并强调了在近距离与人类操作时安全性至关重要。此外，作者还强调了未来机器人学习研究中需要解决的一些挑战，以及促进控制和强化学习方法公平比较的基于物理的基准测试。

Aug, 2021

仿真机器人臂的安全强化学习

通过在 Panda 机械臂创建自定义环境，扩展安全强化学习算法的适用性，并通过与基准版本的比较表明，在满足安全约束条件的同时，受限版本能够学习到同样好的策略，但需要更长的训练时间。

Nov, 2023

OmniSafe：用于加速安全强化学习研究的基础设施

本篇论文给出一个基础性安全强化学习框架，拥有不同领域跨越的一系列算法和重要的安全元素，以便更有效地研究 AI 安全和 SafeRL 算法实现。

May, 2023

学习保证安全：带安全评论家的深度强化学习

为了将 RL 算法部署到实际场景中并在学习过程中确保安全性，我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性，然后将所学用于约束在学习新任务时的行为，此方法在三个具有挑战性的领域中实证，相比于标准的深度 RL 技术和以前的安全 RL 方法，我们的方法不但减少了安全事故，还提高了学习的速度和稳定性。

Oct, 2020

一个适用于接触丰富机器人操作的安全接触强化学习框架

本文提出一种安全的强化学习框架，用于处理复杂的接触丰富的机器人操作任务，能够在任务空间和关节空间中保持安全，同时使机械臂与环境发生的接触力保持较小。该框架采用模拟训练，成功地在实际机器人上验证了其性能。

Jul, 2022

安全强化学习综述：方法、理论与应用

该论文从方法、理论和应用的角度回顾了安全强化学习的进展，提出了 “2H3W” 问题并分析了解决这些问题的理论和算法进展；还讨论了安全强化学习方法的样本复杂度，并介绍了相关应用和基准，最后开启了安全强化学习中的挑战问题的讨论并发布了一个包含主要安全强化学习算法实现和教程的基准套件。

May, 2022

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022