FormulaZero：通过离线人口合成实现分布式鲁棒在线适应

ICMLMar, 2020

FormulaZero：通过离线人口合成实现分布式鲁棒在线适应

FormulaZero: Distributionally Robust Online Adaptation via Offline Population Synthesis

Aman Sinha, Matthew O'Kelly, Hongrui Zheng, Rahul Mangharam, John Duchi...

TL;DR本文针对多智能体环境下自主驾驶车辆行驶安全和效率平衡问题，提出了以自我博弈为基础的对抗生成网络和分布式鲁棒型优化方法，实验结果显示我们的方法能够在自主驾驶赛车中取得较好的性能和鲁棒性。

Abstract

Balancing performance and safety is crucial to deploying autonomous vehicles in multi-agent environments. In particular, autonomous racing is a domain that penalizes safe but conservative policies, highlighting t

autonomous vehicles multi-agent environments adaptive strategies self-play distributed robust optimization

发现论文，激发创造

通过对抗强化学习提高自动驾驶车辆控制的稳健性和安全性

该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现，将学习问题定义为自主系统与环境干扰之间的两人博弈，扩展为半竞争的情况，结果表明对手更好地捕捉了有意义的干扰，从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。

Mar, 2019

自主车辆能否识别并适应分布变化？

本文提出了一种新的方法，名称为稳健仿真规划（RIP），可以检测和适应一些分布的偏移，减少 OOD 场景中的自信和灾难性外推。如果模型的不确定性太高，建议采用反馈机制，同时引入一个自动驾驶汽车新场景基准测试（CARNOVEL）来评估驾驶代理的鲁棒性。

Jun, 2020

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

面向分布感知的自主驾驶安全目标预测和符合模型规划

本文提出了一种基于模块化架构的学车任务分解方法，在障碍感知、目标预测和规划方面均取得了优秀的方法，并在 CARLA 模拟器上实现了最新的优秀结果。

Dec, 2022

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态 / 操作空间中扩展了此方法，得出了分布式鲁棒软演员 - 批评家算法的实用算法。

Feb, 2019

自主车辆的自适应应力测试

本文提出了一种测试自动驾驶汽车决策制定系统的方法，该方法使用强化学习算法找到最可能发生故障的场景，通过模拟车辆接近人行横道的情况证明了该方法的通用性。

Feb, 2019

基于密集强化学习的自动驾驶车辆适应性测试环境生成

通过融合多个替代模型并优化其组合系数以增强评估效率，我们开发了一种自适应测试环境，通过采用二次规划将优化问题表达为回归任务，并利用强化学习方法高效获取回归目标，实现了加速评估的效果验证。

Feb, 2024

未被映射环境中多车路径规划的分布式在线发布

本文提出了一种完全分布式、在线和可扩展的增强学习算法，用于解决多车辆路径规划问题，代理定期聚集在本地簇中，独立地在每个簇中应用多智能体扩展方案，动态地在代理之间协调任务并共享其局部信息。通过较大规模的模拟，证明了分布式滚动算法比贪婪基础策略具有近两倍的成本优势。

May, 2023

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016