Jun, 2023

针对各种模拟驾驶操作的深度强化学习自动驾驶的全面培训和评估

TL;DR本研究通过实现、评估和比较两种深度强化学习算法(Deep Q-networks 和 Trust Region Policy Optimization)来训练自动驾驶车辆,以及开发和应用奖励函数,并在基于模拟环境的高速公路自动驾驶训练平台中进行评估,结果显示 TRPO 算法在大多数情况下以及将多种驾驶演练和多种路况情况集成于一体的 ComplexRoads 训练环境中效果最佳。