基于视觉的 DRL 自主驾驶代理与 Sim2Real 迁移

May, 2023

基于视觉的 DRL 自主驾驶代理与 Sim2Real 迁移

Vision-based DRL Autonomous Driving Agent with Sim2Real Transfer

Dianzhao Li, Ostap Okhrin

TL;DR该研究提出了一种基于视觉的深度强化学习车辆控制方法，能够同时执行车道保持和跟车操作，具有从虚拟环境到真实环境的迁移能力，为自主驾驶技术的研究提供了新思路和方法。

Abstract

To achieve fully autonomous driving, vehicles must be capable of continuously performing various driving tasks, including lane keeping and car following, both of which are fundamental and well-studied driving one

autonomous driving driving tasks deep reinforcement learning sim2real transfer vision-based

发现论文，激发创造

一种平台不可知的深度强化学习框架，用于自动驾驶中的有效 Sim2Real 迁移

该论文提出了一种强大的 DRL 框架，该框架利用特定于平台的感知模块来提取任务相关信息，并在模拟中训练车道跟踪和超车代理程序，从而促进了 DRL 代理程序对于新的模拟环境和真实世界的无缝转移并极大地缩小了不同平台之间的差距和模拟与现实之间的鸿沟，从而使训练代理程序在模拟和真实世界中能够高效地驾驶车辆。

Apr, 2023

具备深度强化学习的类人自动驾驶车辆跟随模型

该研究提出了一种基于深度强化学习的类人自动车跟随规划框架，并通过创新的奖励函数和反应延迟考虑等方法，将人的驾驶行为映射到速度、相对速度和车辆间距离等状态空间，实现了精度更高的自动驾驶策略学习，具有较强泛化能力，可以为智能驾驶算法和交通流模型的发展提供帮助。

Jan, 2019

基于深度强化学习的 CARLA 模拟自动驾驶

本论文基于强化学习（RL）与 Deep Q-Learning 框架以及 CARLA 仿真环境，探索了一种实现自动驾驶车辆在高速行驶时保持车道并避让其他车辆的策略，以提高交通安全性。

Jun, 2023

交通优化中的隐式感知：先进的深度强化学习技术

通过采用深度强化学习从事自主驾驶车辆上的车辆跟随和变道模型，本论文探讨了解决构成道路阻塞的突发情况，提出了基于 Markov 决策过程和 MEC 辅助架构的综合决策控制系统，并通过 SUMO 模拟器和 OPENAI GYM 评估了该模型的性能，结果显示使用 ε-greedy 策略进行训练的 DQN 代理明显优于使用 Boltzmann 策略进行训练的代理。

Sep, 2023

自主 Formula SAE 车辆的局部路径跟踪的深度强化学习

使用深度强化学习（DRL）和逆强化学习（IRL）将局部观察到的锥体位置映射到期望的转向角度以进行赛道跟踪。两种先进算法，软演员批评（SAC）和对抗逆强化学习（AIRL），在代表性模拟中训练模型。在仿真和现实世界中进行的测试表明，这两种算法都可以成功训练用于局部路径跟踪的模型。提出了未来工作的建议，以使这些模型能够适用于完整的 Formula:SAE 车辆。

Jan, 2024

自主驾驶的深度强化学习：一份综述

本文综述了深度强化学习算法在自动驾驶任务上的应用，包括分类、验证、测试和强化现有强化学习算法解决方案的方法，还介绍了相关领域和挑战。

Feb, 2020

强化学习在车载系统中的统一自动控制

本文提出了一种简化的车辆微观模拟方法，并使用深度强化学习优化了具有不同车辆组成的六个交通系统的控制策略，发现了类似于波浪消减、交通信号和匝道计量等的多种新行为，并分析了这些行为以获得可解释的控制策略。

Jul, 2022

基于 Sim-to-Seg 的 Sim-to-Real 方法：无需真实数据的全封闭自主驾驶

通过使用强化学习技术以端到端的方式处理自主驾驶所需的 3D 场景理解、定位、映射和控制，并利用模拟数据中的 Sim2Seg 技术在模拟器和现实世界之间跨越视觉现实差距进行训练和实验，同时与传统感知和控制技术相比提供同等的性能。

Oct, 2022

运用深度强化学习解决实际自动驾驶问题

使用深层强化学习训练神经网络来实现自动驾驶规划栈中的控制系统，不仅使模拟环境中的自动驾驶汽车能够在没有障碍物的情况下平稳、安全地行驶，在真实世界城市中也能表现出良好的泛化能力。

Jul, 2022

针对各种模拟驾驶操作的深度强化学习自动驾驶的全面培训和评估

本研究通过实现、评估和比较两种深度强化学习算法（Deep Q-networks 和 Trust Region Policy Optimization）来训练自动驾驶车辆，以及开发和应用奖励函数，并在基于模拟环境的高速公路自动驾驶训练平台中进行评估，结果显示 TRPO 算法在大多数情况下以及将多种驾驶演练和多种路况情况集成于一体的 ComplexRoads 训练环境中效果最佳。

Jun, 2023