本文提出了一个自适应聚合框架,用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识,并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明,与几种基线相比,我们的算法可以实现更少的安全违规,同时显示更好的数据效率。
Feb, 2023
为了确保机器人等自主车辆的广泛部署,本文提出了一种新的闭环范式用于综合安全控制策略,明确考虑系统在可能的未来情景下的演变不确定性,通过物理动力学和机器人的学习算法共同推理,利用对抗深度强化学习进行放大,展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。
Sep, 2023
提出了一种自我完善的人工智能系统,通过黑盒验证方法,增强基于强化学习的自主驾驶代理的安全性能。在发现自动驾驶失败情况后,RL 代理的训练通过迁移学习重新初始化,以改善先前不安全的情况的表现
Oct, 2022
本研究旨在提出多源模块化转移学习技术,以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性,并进行了广泛而具有挑战性的视觉控制跨领域实验。
May, 2022
为了将 RL 算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度 RL 技术和以前的安全 RL 方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
Oct, 2020
安全是扩展强化学习应用的关键。我们提出了一种约束无奖励强化学习方法,通过在受控环境中训练引导智能体以安全探索,最终实现有效的安全传输学习,帮助学生机器人更快地解决目标任务。
Jul, 2023
通过转移安全顺序学习,实现在给定的观测下全局探索多个不相交的安全区域,并以与传统安全学习方法相当的计算量下,以更低的数据消耗学习任务。
Feb, 2024
本研究探讨了如何通过预测来约束探索,从而实现强化学习在自动驾驶中的安全学习。
Sep, 2019
我们提出了一种贝叶斯方法,将元学习策略与多臂老虎机框架相结合,以加速自动系统的故障检测、减少模拟运行时间,并通过学习参数和准确模拟的分布来评估新场景中的学习速度。通过在先进的 3D 驾驶模拟器中应用 16 个保真设置来展示我们的方法,以评估基于自动化车辆事故前个体的各种场景,结果表明与仅依赖于高保真模拟器的传统方法相比,我们的方法加快了模拟速度,最多高出 18 倍。
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017