物理深度强化学习：安全性与未知未知

May, 2023

物理深度强化学习：安全性与未知未知

Physical Deep Reinforcement Learning: Safety and Unknown Unknowns

Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo

TL;DR本文中，我们提出了 Phy-DRL 框架：一种物理模型调节的深度强化学习框架，用于安全关键的自主系统。Phy-DRL 在三个方面独具创新：积极的未知 - 未知训练，连接残余控制，以及基于物理模型的神经网络编辑。在倒立摆和四足机器人上进行的实验结果证明了与纯数据驱动 DRL 相比，Phy-DRL 具有更少的学习参数，卓越的模型鲁棒性和安全保证。

Abstract

In this paper, we propose the phy-drl: a physics-model-regulated deep reinforcement learning framework for safety-critical autonomous systems

phy-drl physics-model-regulated deep reinforcement learning safety-critical autonomous systems unknown-unknowns training

发现论文，激发创造

可解释的、基于模型的层级安全强化学习框架

该论文提出了一种将深度强化学习与概率建模和决策策略相结合的新方法（BC-SRLA），该方法在安全关键系统中具有优越性能，并且在维护领域的案例研究中展示出了比先前技术和其他基准更好的表现。

Oct, 2023

应对动态对抗性不确定性的网络系统防御中的深度强化学习

本文根据系统状态不确定性和攻防动态的特征，提出了一个数据驱动的 DRL 框架，学习上下文感知的防御措施，以动态适应不断变化的对抗行为，同时最大程度减少对网络系统运营的影响，在多阶段攻击和系统不确定性下，DRL 算法在积极的网络防御中具有很好的效果。

Feb, 2023

基于实时模型无关深度强化学习的串级弹性执行器力控制

该研究使用深度强化学习（DRL）方法，通过 Proximal Policy Optimization（PPO）算法，在 SEA 振荡系统的硬件环境中训练一个 DRL 策略，以实现高精度的力控制任务。研究结果表明，该 DRL 策略优于传统的基于模型的 PID 控制器，并能够实现更好的跟踪和稳定性保障。

Apr, 2023

基于神经符号深度强化学习的安全自主驾驶政策

本研究介绍了一种名为 DRLSL 的新的神经符号模型自由深度强化学习方法，将深度强化学习与符号逻辑知识驱动推理相结合，可以在现实环境下实现安全学习，以实现自主驾驶政策，并可在训练和测试阶段成功避免不安全的行为，且比传统的深度强化学习方法更具有一般性和更快的收敛速度。

Jul, 2023

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

基于物理信息的强化学习用于最大安全概率估计

通过最大安全概率的物理信息增强强化学习算法，提出了一种可以从少量样本中推断长期风险的风险量化和可达性分析方法。

Mar, 2024

自主高速公路驾驶增强安全的深度强化学习

本文提出了一种安全的深度强化学习自动驾驶系统，采用了基于规则和基于学习的方法，其中包括手工制作的安全模块和动态学习的安全模块，通过模拟环境的实验结果证明了其优异的性能。

Oct, 2019

强化学习中策略和未知安全约束的并发学习

我们提出了一种新的方法，同时学习安全的强化学习控制策略并识别给定环境的未知的安全约束参数，通过使用参数化信号时态逻辑 (pSTL) 安全规范和小规模初始标记数据集，将问题作为双层优化任务，通过使用拉格朗日变体的双延迟深度确定性策略梯度 (TD3) 算法的约束策略优化，并结合贝叶斯优化来优化给定 pSTL 安全规范的参数。通过全面的案例研究实验证实了该方法在各种环境约束形式上的有效性，始终产生高回报的安全强化学习策略。此外，我们的研究结果表明成功学习了 STL 安全约束参数，与真实环境安全约束具有高度一致性。我们模型的表现与完全了解安全约束的理想情况非常相似，表明其能够准确识别环境安全约束并学习遵守这些约束的安全策略。

Feb, 2024

深度强化学习在道路交通路口驾驶中的自我意识安全性

本研究通过引入注意力机制的自我感知模块，根据碰撞率、成功率、停滞率和总奖励等四个指标，对交叉口和环岛等复杂路口环境下的自主驾驶深度强化学习模型进行安全性能评估，并发现引入自我感知模块的 DQN 可显著提高安全表现。

Jan, 2022