SafeRL-Kit：用于安全自主驾驶的高效强化学习方法评估

ICMLJun, 2022

SafeRL-Kit：用于安全自主驾驶的高效强化学习方法评估

SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe Autonomous Driving

Linrui Zhang, Qin Zhang, Li Shen, Bo Yuan, Xueqian Wang

TL;DR本文提供 SafeRL-Kit 工具套件，其中包括最新的针对零违约任务的算法，详细比较 SafeRL-Kit 中的算法在安全自主驾驶方面的实用性，其中包括一个新的一阶方法 Exact Penalty Optimization (EPO)。

Abstract

safe reinforcement learning (RL) has achieved significant success on risk-sensitive tasks and shown promise in autonomous driving (AD) as well. Considering the distinctiveness of this community, efficient and rep

safe reinforcement learning autonomous driving benchmark safe rl methods exact penalty optimization

发现论文，激发创造

基于强化学习的自我改进安全驾驶性能与黑盒验证算法

提出了一种自我完善的人工智能系统，通过黑盒验证方法，增强基于强化学习的自主驾驶代理的安全性能。在发现自动驾驶失败情况后，RL 代理的训练通过迁移学习重新初始化，以改善先前不安全的情况的表现

Oct, 2022

联网自动化混合动力车环保驾驶的安全基于模型的离线策略强化学习

本研究探讨将 Safe Off-policy Model-Based Reinforcement Learning 算法应用于连接的自动化混合动力车辆的生态驾驶问题。结果表明，在模拟实验中，该算法表现出更高的平均速度和更好的节能效果，与基线控制器相比，其减少了超过 21% 的燃料消耗，同时保持了可比的平均速度。

May, 2021

评估基于模型无关的强化学习在安全关键任务中的应用

本研究提出了一种新的安全强化学习技术，即 Unrolling Safety Layer 方法，它通过结合安全优化和安全投影的方式来显式地强制实施硬性约束条件，该技术在学习零成本回报政策上具有良好的鲁棒性和适用性，并且实现了与算法评估的有机结合。

Dec, 2022

通过专家指导的策略优化实现安全驾驶

研究者提出了一种基于专家支持的强化学习模式，其中引入了一个守护者来保障学习的过程安全，在保证足够探索性的同时，在危险时进行干预并演示正确行为以避免潜在的事故。使用约束优化技术来避免故意表现出危险行为欺骗专家，并使用离线强化学习技术从专家生成的部分演示中进行学习。试验表明，该方法在训练和测试时表现出更高的安全性，比基线方法在样本效率方面具有更高的性能，并保持对未知环境的一般性。

Oct, 2021

一种安全的强化学习能源高效驾驶辅助系统

本研究提出了一种基于强化学习的驾驶辅助系统，利用指数控制屏障函数过滤不安全的动作，并利用 MPO 算法计算控制动作以最大化累计奖励。研究表明，该系统可以在训练和评估过程中有效避免碰撞，并提高司机辅助系统的燃油经济性。

Jan, 2023

用于离线安全强化学习的数据集和基准

本文提出了面向离线安全强化学习挑战的综合基准套件，包括从环境到离线学习算法的具体实现和高质量数据集，通过对 3 8 类流行自动驾驶任务的数据收集与处理，最终提供了有价值的研究参考。

Jun, 2023

安全优化增强学习通过多目标策略优化

基于多目标策略优化框架的新型无模型安全强化学习算法引入，通过环境奖励函数和安全评论家对策略进行优化，以实现在不违反约束条件的情况下同时达到最佳和安全性。该算法通过理论分析提出了收敛策略的安全性保障条件，并引入了一个攻击参数，允许对所述权衡进行微调。实证结果表明，与六种不同最新颖的 Safe RL 方法相比，提出的 SORL 算法在七个不同的机器人环境中显著减少了安全违规次数，并获得更高或竞争性的策略回报，在安全关键应用方面表现出明显的优越性。

Feb, 2024

基于已知约束函数的多能源管理系统安全强化学习

本文提出了两种新的安全强化学习方法，即 SafeFallback 和 GiveSafe，其安全约束公式与 RL 公式分离，可提供硬约束满足保证，且无需解决数学问题，从而降低计算能力要求，并具有更灵活的约束公式表述。方法可应用于超出 RL 的任何策略，同时提供硬约束保证，并在模拟多能源系统案例研究中验证了方法的有效性。

Jul, 2022

通过样本操作提高安全强化学习的效率

通过样本操作提高安全强化学习的效率，动态调整采样过程以最大程度地最小化成本和最大化奖励之间的平衡，ESPO 理论上保证了收敛性、优化稳定性和改善样本复杂性界限。在 Safety-MuJoCo 和 Omnisafe 基准测试中，ESPO 在奖励最大化和约束满足方面明显优于现有基线方法，同时显著提高了样本效率，与基线方法相比，所需样本减少了 25-29％，训练时间减少了 21-38％。

May, 2024

仿真机器人臂的安全强化学习

通过在 Panda 机械臂创建自定义环境，扩展安全强化学习算法的适用性，并通过与基准版本的比较表明，在满足安全约束条件的同时，受限版本能够学习到同样好的策略，但需要更长的训练时间。

Nov, 2023