处理安全强化学习中的长期安全性和不确定性
本文介绍了一种在物理系统(如数据中心冷却单元或机器人)中部署强化学习代理的方法,通过添加一层安全层,能够避免在学习过程中违反约束条件,并且通过在惯性路径上学习线性化模型解决了具有任意行动的问题。
Jan, 2018
本文提出了一种基于学习的模型预测控制方案,其可以提供可证明的高概率安全保证,并利用正态分布先验的规则性假设来构建可证明准确的置信区间,保证轨迹满足安全约束,通过终端集约束递归地保证每个迭代中存在安全控制动作。在实验中展现了该算法可以用来安全、高效地探索和学习动态系统。
Mar, 2018
研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题,使用一种约束的Markov决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。
Nov, 2019
本文综述了机器学习在实现安全决策方面的最新进展,并重点介绍了控制理论和强化学习研究中使用的语言和框架。文章讨论了学习控制方法、强化学习方法和可正式证明学习控制策略安全性的方法,并强调了在近距离与人类操作时安全性至关重要。此外,作者还强调了未来机器人学习研究中需要解决的一些挑战,以及促进控制和强化学习方法公平比较的基于物理的基准测试。
Aug, 2021
介绍了一种名为SafeAPT的学习算法,它使用仿真实验学习的策略并将其安全地迁移到实际机器人中,通过实际交互而不会危害自身或周围环境。该算法通过迭代学习概率奖励模型和安全模型,并使用仿真经验作为先验,在满足安全约束的情况下完成该策略。经过实际和仿真机器人的对比实验,显示SafeAPT能够在短时间内找到高性能策略并在交互期间最小化安全违规。
Jan, 2022
本文提出了一种新的像素观测安全强化学习算法,通过引入潜在障碍函数学习机制,高效地编码未知危险区域的状态安全约束,并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架,从而在提高安全性和总预期收益方面取得显著的结果。在安全-gym基准套件上的实验评估表明,我们提出的方法明显减少了训练过程中的安全违规,并在安全收敛速度上比现有方法更快,同时在奖励回报方面取得了竞争性的结果。
Nov, 2023
这篇论文研究了在强化学习过程中如何保证训练的安全性,通过提出一种新的架构处理效率和安全性之间的权衡,并利用贝叶斯推理和马尔可夫决策过程来近似风险,并通过实验结果展示了整体架构的性能。
Dec, 2023
将基于学习的技术,特别是强化学习,整合到机器人技术中来解决非结构化环境中的复杂问题很具有前景。本文展示了我们如何以原则性的方式将复杂的安全约束强加于基于学习的机器人系统中,从理论和实践的角度进行了展示。
Apr, 2024