物理深度强化学习:安全性与未知未知
该论文提出了一种将深度强化学习与概率建模和决策策略相结合的新方法(BC-SRLA),该方法在安全关键系统中具有优越性能,并且在维护领域的案例研究中展示出了比先前技术和其他基准更好的表现。
Oct, 2023
本文根据系统状态不确定性和攻防动态的特征,提出了一个数据驱动的 DRL 框架,学习上下文感知的防御措施,以动态适应不断变化的对抗行为,同时最大程度减少对网络系统运营的影响,在多阶段攻击和系统不确定性下,DRL 算法在积极的网络防御中具有很好的效果。
Feb, 2023
该研究使用深度强化学习(DRL)方法,通过 Proximal Policy Optimization(PPO)算法,在 SEA 振荡系统的硬件环境中训练一个 DRL 策略,以实现高精度的力控制任务。研究结果表明,该 DRL 策略优于传统的基于模型的 PID 控制器,并能够实现更好的跟踪和稳定性保障。
Apr, 2023
本研究介绍了一种名为 DRLSL 的新的神经符号模型自由深度强化学习方法,将深度强化学习与符号逻辑知识驱动推理相结合,可以在现实环境下实现安全学习,以实现自主驾驶政策,并可在训练和测试阶段成功避免不安全的行为,且比传统的深度强化学习方法更具有一般性和更快的收敛速度。
Jul, 2023
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学习无模型策略和 Q 函数。此外,我们提出了一种混合规划策略,将学习到的策略、Q 函数和模型结合起来,以提高规划的时间效率。通过实际演示,我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。
Jul, 2024
该论文提出了一种考虑安全性的学习算法,利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型,得到具备可证明稳定性证书的高性能控制策略,并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。
May, 2017
本文提出了一种安全的深度强化学习自动驾驶系统,采用了基于规则和基于学习的方法,其中包括手工制作的安全模块和动态学习的安全模块,通过模拟环境的实验结果证明了其优异的性能。
Oct, 2019
我们提出了一种新的方法,同时学习安全的强化学习控制策略并识别给定环境的未知的安全约束参数,通过使用参数化信号时态逻辑 (pSTL) 安全规范和小规模初始标记数据集,将问题作为双层优化任务,通过使用拉格朗日变体的双延迟深度确定性策略梯度 (TD3) 算法的约束策略优化,并结合贝叶斯优化来优化给定 pSTL 安全规范的参数。通过全面的案例研究实验证实了该方法在各种环境约束形式上的有效性,始终产生高回报的安全强化学习策略。此外,我们的研究结果表明成功学习了 STL 安全约束参数,与真实环境安全约束具有高度一致性。我们模型的表现与完全了解安全约束的理想情况非常相似,表明其能够准确识别环境安全约束并学习遵守这些约束的安全策略。
Feb, 2024
本研究通过引入注意力机制的自我感知模块,根据碰撞率、成功率、停滞率和总奖励等四个指标,对交叉口和环岛等复杂路口环境下的自主驾驶深度强化学习模型进行安全性能评估,并发现引入自我感知模块的 DQN 可显著提高安全表现。
Jan, 2022