自主驾驶车辆的协作 RL 测试基于潜能的信用分配

May, 2023

自主驾驶车辆的协作 RL 测试基于潜能的信用分配

Potential-based Credit Assignment for Cooperative RL-based Testing of Autonomous Vehicles

Utku Ayvaz, Chih-Hong Cheng, Hao Shen

TL;DR本文介绍了协作强化学习的概念，用于为自主车辆规划和决策模块生成具有挑战性的测试用例，提出了一种基于潜在因素的奖励塑形方法，旨在解决交通场景中多个实体相互作用时的贡献分配问题，并在模拟环境中进行了实验验证。

Abstract

While autonomous vehicles (AVs) may perform remarkably well in generic real-life cases, their irrational action in some unforeseen cases leads to critical safety concerns. This paper introduces the concept of collaborative reinforcement learning (RL) to generate challenging test cases

autonomous vehicles collaborative reinforcement learning traffic scenarios credit assignment problem potential-based reward-shaping

发现论文，激发创造

深度强化学习中的时间信用分配调查

信用分配问题是强化学习中一个长期存在的挑战，通过对深度强化学习中的时间性信用分配进行研究，提出了一种统一的信用形式，并分析了现有方法在处理延迟效应、位置换位和行动影响不足方面的挑战，还介绍了评估信用分配方法的协议，并建议诊断不同信用分配方法困难来源的方法。该综述为新进入者和研究人员提供了领域概述，为学者在信用分配问题上开展新研究提供了连贯的视角，并提出了未来研究的潜在方向。

Dec, 2023

模型无关强化学习中的反事实信用分配

本研究应用反事实的思想来解决强化学习领域中 action 对于未来奖励的影响以及技能和运气的区分问题，并提出了一种使用未来条件价值函数作为基准的策略梯度算法，以及加入了不确定因素的验证和实验，证明了该算法有效性和低方差的特点。

Nov, 2020

基于密集强化学习的自动驾驶车辆适应性测试环境生成

通过融合多个替代模型并优化其组合系数以增强评估效率，我们开发了一种自适应测试环境，通过采用二次规划将优化问题表达为回归任务，并利用强化学习方法高效获取回归目标，实现了加速评估的效果验证。

Feb, 2024

基于层次逆强化学习的交互式驾驶行为概率预测

讨论自动驾驶车辆如何通过基于层次逆强化学习的概率预测方法，准确预测周围车辆的行为并进行规划，以此应对人类行为的不确定性和交互作用。

Sep, 2018

强化学习在合作车辆路径规划中的应用

合作式车辆路径规划是通过共享交付信息并代表其它公司执行交付请求，以实现规模经济，从而降低成本、温室气体排放和道路拥堵。通过将该问题建模为一种联盟谈判游戏，我们提出了一种可扩展且考虑了公司自利性质的分散式方法，代理人使用改进的独立近距离策略优化方法进行学习，在正确识别最优联盟方面的准确性达到 79％，平均最优解差距为 4.2％，运行时间减少了 62％。

Oct, 2023

应用人类风险认知的对抗驾驶行为生成：自动驾驶车辆评估

使用深度强化学习和累积前景理论，生成对抗性行为的新框架来检测自动驾驶汽车的风险弱点。通过在高保真硬件测试平台上进行案例研究，结果证明对抗行为能揭示被测试自动驾驶汽车的弱点。

Sep, 2023

利用强化学习改进自主车辆与行人的交互的自适应道路配置

该研究探讨了强化学习方法用于发展自主车辆和行人共同占用的行车道之后的实时调控，分析表明分布式强化学习算法比集中式算法在计算成本、奖励基准、最佳累计奖励、最优动作和收敛速度方面具有更好的表现，并且这项新的道路管理技术可能有助于在自主车辆时代实现流动自适应和积极便携的街道。

Mar, 2023

自主车辆系统安全的鲁棒深度强化学习

本文提出了一种对抗性强化学习算法以最大化自主车辆动态控制对网络物理攻击的鲁棒性，通过分析状态估计过程并在博弈理论框架中研究了攻击者和自主车辆之间的互动以及提出了长短期记忆的使用，同时研究了数据处理的过程以提高面对网络物理攻击的鲁棒性。

May, 2018

RACA: 基于关系感知的多智能体深度强化学习中的即时合作信用分配

本研究提出了一种名为 RACA 的新方法，利用基于图形的关系编码器对代理之间的拓扑结构进行编码，并利用基于注意力机制的观测抽象机制，实现了在测试时间的 ad-hoc 合作场景中的零启动通用化。

Jun, 2022

通过对抗强化学习提高自动驾驶车辆控制的稳健性和安全性

该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现，将学习问题定义为自主系统与环境干扰之间的两人博弈，扩展为半竞争的情况，结果表明对手更好地捕捉了有意义的干扰，从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。

Mar, 2019