RACER：基于认知风险敏感的强化学习在少发生事故的情况下实现快速驾驶

May, 2024

RACER：基于认知风险敏感的强化学习在少发生事故的情况下实现快速驾驶

RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes

Kyle Stachowicz, Sergey Levine

TL;DR通过将风险敏感控制与自适应动作空间课程相结合，我们提出了一种强化学习框架，能够既学习高性能的策略，又避免过多的失败，在真实世界的越野驾驶任务中具有较少的安全违例，并在具有相似挑战的驾驶和非驾驶仿真环境中导致更高性能的策略。

Abstract

reinforcement learning provides an appealing framework for robotic control due to its ability to learn expressive policies purely through real-world interaction. However, this requires addressing real-world const

reinforcement learning robotic control unsafe states risk-sensitive control epistemic uncertainty

发现论文，激发创造

对比风险预测下的安全强化学习

提出一种针对强化学习任务的风险预防训练方法，基于统计对比分类器，以预测状态 - 动作对导致不安全状态的概率，并且通过收集风险预防轨迹和重塑奖励函数，来引导安全强化学习策略。在机器人仿真环境中进行实验，结果表明该方法与现有的模型模式方法的表现相当，且优于传统的模型自由的安全强化学习方法。

Sep, 2022

安全关键环境下的强化学习谨慎自适应

提出一种安全关键的适应性强化学习任务设置和解决方案 CARL，通过以多样化环境中的先前经验来评估风险，实现对新领域的谨慎探索并避免灾难状态，为城市驾驶等安全关键环境下的强化学习提供可行性。

Aug, 2020

认知风险敏感强化学习

本文介绍了一种基于偏爱函数的风险感知的增强学习框架，在不确定的环境下可以通过调节风险偏好参数实现风险规避，风险中性或风险承受。同时，作者使用动态规划和策略梯度算法来衡量和控制认知风险，并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。

Jun, 2019

最坏情况策略梯度

该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Nov, 2019

基于激光雷达的端到端强化学习自主赛车

该研究使用强化学习算法开发和训练了一个代理机器人，在模拟环境中利用激光和速度数据导航赛车，并在真实赛车场景中进行了实验评估，展示了强化学习算法在提高自主驾驶赛车性能方面的可行性和潜在优势。

Sep, 2023

自主驾驶中的强化学习智能体风险感知奖励塑形

该研究提出了一种基于风险感知的奖励塑形方法，以鼓励探索和惩罚高风险驾驶行为，并在 OpenAI Gym 的模拟研究中表明，风险感知的奖励塑形对于各种强化学习智能体具有优势，同时指出近端策略优化（PPO）是最适合使用风险感知奖励塑形的强化学习方法。

Jun, 2023

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

通过对抗强化学习提高自动驾驶车辆控制的稳健性和安全性

该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现，将学习问题定义为自主系统与环境干扰之间的两人博弈，扩展为半竞争的情况，结果表明对手更好地捕捉了有意义的干扰，从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。

Mar, 2019

碰撞避免的不确定性感知强化学习

本研究提出了一种基于不确定性的模型学习算法，以实现移动机器人学习导航和避免碰撞的目标，该算法可以估计碰撞概率并通过不确定度来控制行进速度，并利用神经网络从传感器中处理原始数据，实验结果表明，该方法能在模拟和真实的四旋翼和遥控汽车中有效地减少训练期间的危险碰撞。

Feb, 2017

勘探的保守安全批评家

本文介绍了一种基于保守安全估计的强化学习安全探索方法，通过批判学习环境状态的保守安全估计，从理论上上界限制了灾难性失败概率，实验证明该方法在解决导航、操作和运动任务时达到了具有竞争力的任务性能，同步显著降低了灾难性失败率。

Oct, 2020