深层潜在竞争：使用视觉控制策略在潜在空间学习赛车

Feb, 2021

深层潜在竞争：使用视觉控制策略在潜在空间学习赛车

Deep Latent Competition: Learning to Race Using Visual Control Policies in Latent Space

Wilko Schwarting, Tim Seyde, Igor Gilitschenski, Lucas Liebenwein, Ryan Sander...

TL;DR该论文介绍了一种名为 Deep Latent Competition（DLC）的强化学习算法，其可以通过自我博弈在想象中学习竞争性视觉控制策略，从而实现长期推理。DLC 代理人在学习的世界模型的紧凑潜在空间中想象多智能体互动序列以减少实际采样生成的成本，同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在需要从图像观察中进行规划的新颖多智能体比赛基准测试中学习了有效的竞争行为。

Abstract

Learning competitive behaviors in multi-agent settings such as racing requires long-term reasoning about potential adversarial interactions. This paper presents deep latent competition (DLC), a novel

deep latent competition reinforcement learning multi-agent settings visual control policies self-play

发现论文，激发创造

自动驾驶基于强化学习和深度学习的车辆横向控制

本文研究基于深度学习和强化学习方法的视觉自主驾驶技术，提出了一种将视觉控制系统拆分为感知模块和控制模块的方法，并针对数据效率提出了基于 TORCS 的深度强化学习模拟环境。实验结果表明，感知模块表现良好，控制器实现了对车辆的良好控制。

Oct, 2018

随机潜在演员 - 评论家：具有潜在变量模型的深度强化学习

本文介绍了一种基于深度强化学习的算法，通过学习潜在表示来加速图像的强化学习，提出了随机潜在 Actor-Critic（SLAC）算法，并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。

Jul, 2019

基于视觉的自主无人机赛车的深度感觉运动策略学习

通过学习深度的感知动作策略，使用对比学习从输入图像中提取固定特征表示，通过两阶段的作弊式学习框架训练神经网络策略，将视觉驱动的自主无人机竞赛问题转化为了提取原始图像的特征表示进行控制命令推断，无需全局一致的状态估计、轨迹规划和手工控制设计。该方法不仅可使控制策略更具有鲁棒性，而且可以实现与状态法相同的赛车性能，为开发纯靠图像输入控制无人机的智能视觉自主系统铺平了道路。

Oct, 2022

自主飞行器基于深度强化学习的长期规划

本文研究了基于现实生活中无人机赛事的长期规划场景，对使用 PPO 算法训练的强化学习智能体在无人机比赛中与使用传统路径规划算法的模拟无人机进行了实验，使用对手无人机的 GPS 信息作为专家指导进行训练，成功解决了复杂状态空间问题，其代码可以在我们的 GitHub 存储库中找到。

Jul, 2020

基于激光雷达的端到端强化学习自主赛车

该研究使用强化学习算法开发和训练了一个代理机器人，在模拟环境中利用激光和速度数据导航赛车，并在真实赛车场景中进行了实验评估，展示了强化学习算法在提高自主驾驶赛车性能方面的可行性和潜在优势。

Sep, 2023

Learn-to-Race: 自主赛车的多模态控制环境

该论文通过模拟赛车比赛的方式，使用多模态信息来帮助自动驾驶智能体的学习，在对真实世界的模拟中精确模拟车辆动力学和赛车条件，实现了智能体的学习。

Mar, 2021

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

在潜空间中通过规划解决自动驾驶赛车挑战

本研究实现自主赛车，利用 U-Net 模型实现道路切分、可变自编码器编码路面二进制掩模、最近邻搜索策略确定最佳动作，获得了最小违法行为的最短用时。

Jul, 2022

深度强化学习下的端到端赛车驾驶

本文提出了使用最新的强化学习算法进行端到端驾驶研究，仅使用来自前置摄像头的 RGB 图像，通过异步演员 - 评论家 (A3C) 框架在真实的赛车游戏中学习车辆控制，并在不同的道路结构、图形和物理特性下进行评估。结果表明本方法可以快速收敛和更稳健的驾驶，同时在看不见的赛道上和法定车速下进行了广义化证明。同时，我们的方法在实际影像序列上显示出一定的领域适应能力。

Jul, 2018

基于潜空间目标的最优控制的深度强化学习行为模式切换

利用最优控制在深度强化学习策略的潜在空间中进行优化，识别并切换行为模式，结果表明该方法能够使策略产生所需的行为模式。

Jun, 2024