降低支持强化学习策略的风险与扩散模型
本文研究使用强化学习方法训练辅助机器人完成日常护理任务,探索了基于循环神经网络和相位策略梯度学习的新方法,并比较了基于这些新方法的实现与已发表的基线结果。研究结果表明,新方法的效果并不如预期,作者分析了可能的原因。
Sep, 2022
通过深度强化学习,本研究提出了一个框架,可以为不同的护理接收者的回应训练一个稳健的护理者策略,并通过对抗性训练样本的采样策略来提高护理者策略的稳健性。
Mar, 2024
本文提出了一种人工干预辅助下的强化学习框架,将深度神经网络应用于无人机自治导航,实现了减少人为干预、性能提升、安全性保障和控制成本可接受的目标。
Nov, 2018
提出一种针对强化学习任务的风险预防训练方法,基于统计对比分类器,以预测状态 - 动作对导致不安全状态的概率,并且通过收集风险预防轨迹和重塑奖励函数,来引导安全强化学习策略。在机器人仿真环境中进行实验,结果表明该方法与现有的模型模式方法的表现相当,且优于传统的模型自由的安全强化学习方法。
Sep, 2022
为了确保机器人等自主车辆的广泛部署,本文提出了一种新的闭环范式用于综合安全控制策略,明确考虑系统在可能的未来情景下的演变不确定性,通过物理动力学和机器人的学习算法共同推理,利用对抗深度强化学习进行放大,展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。
Sep, 2023
为了将 RL 算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度 RL 技术和以前的安全 RL 方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
Oct, 2020
通过在 Panda 机械臂创建自定义环境,扩展安全强化学习算法的适用性,并通过与基准版本的比较表明,在满足安全约束条件的同时,受限版本能够学习到同样好的策略,但需要更长的训练时间。
Nov, 2023
本文综述了机器学习在实现安全决策方面的最新进展,并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法,并强调了在近距离与人类操作时安全性至关重要。此外,作者还强调了未来机器人学习研究中需要解决的一些挑战,以及促进控制和强化学习方法公平比较的基于物理的基准测试。
Aug, 2021
基于 APRL 的深度强化学习 (RL) 框架,使四足机器人能够在现实世界中通过高效的训练学会行走,并且不断改进适应各种挑战性情况和动力学的变化。
Oct, 2023