GPT 司机：用 GPT 学习驾驶

Oct, 2023

GPT-Driver: Learning to Drive with GPT

Jiageng Mao, Yuxi Qian, Hang Zhao, Yue Wang

TL;DR我们提出了一种简单而有效的方法，可以将 OpenAI GPT-3.5 模型转化为可靠的自动驾驶车辆动作规划器。

Abstract

We present a simple yet effective approach that can transform the OpenAI GPT-3.5 model into a reliable motion planner for autonomous vehicles. Motion planning is a core challenge in autonomous driving, aiming to plan a driving trajectory that is safe and comfortable. Existing motion pl

motion planning autonomous vehicles large language models driving trajectories numerical reasoning

发现论文，激发创造

DriveGPT4: 大型语言模型实现可解释的端到端自动驾驶

DriveGPT4 是一种可解释的端到端自动驾驶系统，利用大型语言模型，能够理解车辆行为、提供相应推理、回答用户的问题以增强交互，同时也能以端到端的方式预测车辆的低层控制信号，并且在多个任务中展现出优越的性能和通用性。

Oct, 2023

LLM-Assist: 基于语言推理增强闭环规划

通过结合传统规则基于的规划器与基于大型语言模型的规划器，利用 LLMs 的常识推理能力解决自动驾驶车辆面临的复杂场景，实现了最先进的性能，超越了所有现有的纯学习和基于规则的方法。

Dec, 2023

指导大型语言模型像人驾驶

在自动驾驶中，复杂场景下的动作规划是核心挑战。本文提出了一种将大型语言模型 (LLMs) 转化为具有明确指令调整能力的运动规划器的 InstructDriver 方法，以对齐其行为与人类相符。通过基于人类逻辑与交通规则来生成驾驶指令数据，并采用可解释的 InstructChain 模块进行最终规划推理，实现了注入人类规则与学习驾驶数据的目标，使其具备可解释性与数据可扩展性。与现有的在封闭环或模拟设置中进行实验的方法不同，我们采用真实世界的封闭环动作规划 nuPlan 基准进行更好的评估。InstructDriver 在真实世界的封闭环设置中展示了 LLM 规划器的有效性。我们的代码在此链接公开可获得。

Jun, 2024

学习在场景图上推理：将 GPT-2 微调为机器人语言模型，用于基于场景的任务规划的案例研究

本文研究了如何通过 GPT-2 等大型语言模型将人类请求转化为机器人可执行的计划，并探讨了 LLM 的长期任务规划的适用性和通用性，结果表明 LLM 可有效地执行长期任务规划，展示了神经符号规划方法在机器人领域的应用前景。

May, 2023

展望更远：测试 GPT-4 在路径规划中的极限

大型语言模型（LLMs）在各种任务中展示了令人印象深刻的能力，然而它们仍然面临着长期规划的挑战。为了研究这一点，我们提出了路径规划任务作为评估 LLMs 在几何约束下导航长轨迹能力的平台。我们的基准测试系统地测试了复杂环境中的路径规划技能。使用这个基准测试，我们使用各种任务表示和提示方法来研究 GPT-4 的规划能力。我们发现将提示框架化为 Python 代码，并对长期轨迹任务进行分解可以提高 GPT-4 的路径规划效果。然而，尽管这些方法在改善模型的规划能力方面显示出一些希望，但它们不能获得最优路径，并且无法在较长时间范围内进行泛化。

Jun, 2024

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023

轨迹英语：学习驾驶场景的语言

通过离散序列建模方法，我们研究了自动驾驶开发中模拟基于记录驾驶日志的动态驾驶场景的挑战。使用简单的数据驱动分词方案，将轨迹离散化到厘米级分辨率，并采用类似 GPT 模型的编码器 - 解码器来建模车辆、行人和骑车人在驾驶场景中的互动。通过在模型中抽样场景，我们展示了该模型具有最先进的真实性，且在 Waymo Sim Agents Benchmark 上超越先前的工作，其中真实性值成功提高了 3.3%，与其他模型相比，互动度提高了 9.9%。我们还在完全自动驾驶和部分自动驾驶环境中分析了我们的建模选择，并展示了我们的模型学到的表示可以快速适用于改进 nuScenes 的性能。此外，我们还对模型的参数数量和数据集规模进行了可扩展性评估，并利用模型得出的密度估计量化了上下文长度和时间间隔内交互对于交通建模任务的重要性。

Dec, 2023

关于大语言模型的规划、搜索和记忆能力

通过对 GPT-4 在规划子领域中的表现进行全面检查，我们鉴定了大型语言模型在解决规划问题方面的优势和限制，并提出了改进领域特定大型语言模型的思维链能力的方法。这些结果为大语言模型在规划领域的潜在应用提供了宝贵的见解，并为未来的研究克服其限制和拓展其能力铺平了道路。

Sep, 2023

LaMPilot：一个用于自动驾驶的开放基准数据集与语言模型程序

我们提出了 LaMPilot，一个新颖的自主驾驶规划框架，将任务重新定义为一个利用已建立的行为基元的代码生成过程，旨在解决解释和执行 spontanous 用户指令（如 “超过前面的车”）的挑战，这通常对现有框架构成困难。我们介绍了 LaMPilot 基准，专门设计用于量化大型语言模型（LLMs）在将人类指令转化为可执行驾驶策略方面的效能。我们还在 LaMPilot 基准的任务上评估了一系列最先进的代码生成语言模型。实验结果显示，带有人类反馈的 GPT-4的任务完成率达到了 92.7％，最小碰撞率为 0.9％。为了鼓励进一步的研究，我们将提供代码和数据集。

Dec, 2023

RoboGPT：为日常指令任务做出智能长期决策的智能代理

在这篇研究论文中，我们提出了一种名为 RoboGPT 的机器人代理，通过两个模块（基于 LLMs 的规划与重新规划，以及专为子目标设计的 RoboSkill）来完成日常任务的具体决策。我们使用了一份新的机器人数据集和 RoboGPT 来增强基于 LLMs 的规划，并成功在诸多任务中超越了目前的最先进方法。

Nov, 2023