一种人性化安全的机器人强化学习框架,具有交互行为
为了确保机器人等自主车辆的广泛部署,本文提出了一种新的闭环范式用于综合安全控制策略,明确考虑系统在可能的未来情景下的演变不确定性,通过物理动力学和机器人的学习算法共同推理,利用对抗深度强化学习进行放大,展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。
Sep, 2023
通过综述方法与开放问题对最近几年来 RL 的安全和稳健性的相关研究工作进行总结,本文主要关注 RL 系统在现实场景中的安全性和稳健性挑战,探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强 RL 代理的安全性和稳健性,同时讨论了环境因素和人的参与等影响因素,最后提出了一个实用的检查清单,以帮助从业者在各个应用领域负责任地部署 RL 系统。
Mar, 2024
本文综述了机器学习在实现安全决策方面的最新进展,并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法,并强调了在近距离与人类操作时安全性至关重要。此外,作者还强调了未来机器人学习研究中需要解决的一些挑战,以及促进控制和强化学习方法公平比较的基于物理的基准测试。
Aug, 2021
通过在 Panda 机械臂创建自定义环境,扩展安全强化学习算法的适用性,并通过与基准版本的比较表明,在满足安全约束条件的同时,受限版本能够学习到同样好的策略,但需要更长的训练时间。
Nov, 2023
本篇论文给出一个基础性安全强化学习框架,拥有不同领域跨越的一系列算法和重要的安全元素,以便更有效地研究 AI 安全和 SafeRL 算法实现。
May, 2023
为了将 RL 算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度 RL 技术和以前的安全 RL 方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
Oct, 2020
本文提出一种安全的强化学习框架,用于处理复杂的接触丰富的机器人操作任务,能够在任务空间和关节空间中保持安全,同时使机械臂与环境发生的接触力保持较小。该框架采用模拟训练,成功地在实际机器人上验证了其性能。
Jul, 2022
该论文从方法、理论和应用的角度回顾了安全强化学习的进展,提出了 “2H3W” 问题并分析了解决这些问题的理论和算法进展;还讨论了安全强化学习方法的样本复杂度,并介绍了相关应用和基准,最后开启了安全强化学习中的挑战问题的讨论并发布了一个包含主要安全强化学习算法实现和教程的基准套件。
May, 2022
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022