无梯度策略架构搜索与自适应

Oct, 2017

Gradient-free Policy Architecture Search and Adaptation

Sayna Ebrahimi, Anna Rohrbach, Trevor Darrell

TL;DR通过梯度自由优化实现政策体系结构搜索和适应，可以学习执行自主驾驶任务。通过从演示和环境奖励中学习，开发了一个模型，可以学习相对较少的早期灾难性失败，并学习适当复杂度的体系结构，调整源领域中演示的政策以适应目标环境中获得的奖励，在逼真的模拟环境中学习驾驶，以提供比基线方法更安全的学习，降低累计崩溃指标。

Abstract

We develop a method for policy architecture search and adaptation via gradient-free optimization which can learn to perform autonomous driving

policy architecture search gradient-free optimization autonomous driving domain-shift simulated environment

发现论文，激发创造

面向分布感知的自主驾驶安全目标预测和符合模型规划

本文提出了一种基于模块化架构的学车任务分解方法，在障碍感知、目标预测和规划方面均取得了优秀的方法，并在 CARLA 模拟器上实现了最新的优秀结果。

Dec, 2022

用策略梯度学习经典规划策略

引入一种新的搜索框架来解决规划问题，该框架能够在解决特定规划问题时在几种前向搜索方法之间交替使用，使用可训练的随机策略来选择搜索方法，进而优化搜索策略，实验结果表明该框架优于传统的最佳优先搜索和均匀策略方法。

Oct, 2018

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

城市驾驶员：使用策略梯度从现实演示中学习驾驶

本文提出了一种离线策略梯度方法，通过在感知输出和高保真度地图上构建可微分的数据驱动模拟器来从现实世界的大量演示中学习城市驾驶的模仿策略，进而在闭环中使用策略梯度训练策略网络，并通过在 100 小时的专家演示上进行训练，展示其能够学习出高泛化性能和多种驾驶动作的城市驾驶策略，并且无需进行复杂的状态扰动或采集进一步的在线策略数据而在真实世界中优于现有的最新城市驾驶方案。

Sep, 2021

GIN：自动驾驶中基于图形交互感知约束策略优化

本文提出了一种基于图卷积网络的互动感知约束优化方法，通过同时训练运动预测和控制模块并共享一个包含社交上下文的潜在表示来鼓励安全驾驶和预测运动。实验结果表明，这种方法在 CARLA 城市驾驶模拟器上具有比基线更好的导航策略和运动预测性能。

Jun, 2022

最坏情况策略梯度

该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Nov, 2019

可微架构搜索：DARTS

本文介绍了一种基于可微分的连续松弛方法来应对体系结构搜索的可扩展性挑战，该方法可在 CIFAR-10、ImageNet、Penn Treebank 和 WikiText-2 等数据集中快速搜索高性能的卷积体系结构和循环体系结构。

Jun, 2018

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022

自主驾驶规划中基于层次模型的模仿学习

使用 MGAIL 在密集城市自动驾驶方面进行了第一次大规模应用，通过使用分层模型和经过现实汽车采集的经验轨迹进行性能度量，并结合闭环 MGAIL 损失和开环行为克隆损失实现了稳健的导航策略。

Oct, 2022