iMotion-LLM: 运动预测指令调优

Jun, 2024

iMotion-LLM: Motion Prediction Instruction Tuning

Abdulwahab Felemban, Eslam Mohamed Bakr, Xiaoqian Shen, Jian Ding, Abduallah Mohamed...

TL;DRiMotion-LLM 是一种多模态大型语言模型，通过轨迹预测指导交互式多智能体场景。通过在 Waymo 开放数据集中增加文本运动指令，我们创建了 InstructWaymo。iMotion-LLM 可在提供的指令方向上生成轨迹，增强安全性，并为自主导航系统解释和预测多智能体环境的动态奠定了基础。

Abstract

We introduce imotion-llm: a multimodal large language models (LLMs) with trajectory prediction, tailored to guide →

imotion-llm multimodal large language models trajectory prediction interactive multi-agent scenarios instructwaymo

发现论文，激发创造

大型语言模型驱动的上下文感知运动预测

通过利用大型语言模型（LLMs）增强全局交通语境理解来提高动作预测任务的准确性，并考虑到 LLMs 的成本，我们提出了一种成本效益的部署策略：通过拥有 0.7% 的 LLM 增强数据集来扩大动作预测任务的准确性。

Mar, 2024

Traj-LLM：赋能轨迹预测的新探索

使用大型语言模型和创新的技术，本研究拟探索将 LLM 应用于交通场景中的动态车辆轨迹预测任务，以提高预测效果并适应不同情形。

May, 2024

MotionLM: 多智能体运动预测作为语言建模

可靠地预测道路行为是自动驾驶车辆安全规划的关键组成部分。本研究将连续轨迹表示为离散运动令牌序列，并将多智能体运动预测视为一个语言建模任务。我们的模型 MotionLM 具有多个优势：首先，它不需要锚点或明确的潜在变量优化来学习多模态分布；其次，我们利用标准的语言建模目标，通过最大化序列令牌的平均对数概率来实现；此外，该模型的顺序分解使得它能够进行时间因果条件推断。在 Waymo 开放动态数据集上，所提出的方法在多智能体运动预测方面取得了新的最先进性能，排名第一。

Sep, 2023

MotionLLM: 多模式运动语言学习与大型语言模型

通过使用预训练的 LLM 模型进行微调，本研究提出了 MotionLLM，一个简单且通用的框架，可实现单人和多人运动生成以及动作字幕生成。

May, 2024

LG-Traj: LLM 指导的行人轨迹预测

通过引入 Large Language Models (LLMs)，本研究探究了使用 LLMs 改进行人轨迹预测任务的可能性，通过诱导运动线索生成物体过去 / 观察到的轨迹中的运动线索，并利用混合高斯聚类未来轨迹中的运动线索。我们的方法采用基于 Transformer 的体系结构，包括运动编码器以建模运动模式和社交解码器以捕捉行人之间的社交互动，展示了我们的方法在流行的行人轨迹预测基准数据集 ETH-UCY 和 SDD 上的有效性，并进行了多个消融实验来验证我们的方法。

Mar, 2024

指导大型语言模型像人驾驶

在自动驾驶中，复杂场景下的动作规划是核心挑战。本文提出了一种将大型语言模型 (LLMs) 转化为具有明确指令调整能力的运动规划器的 InstructDriver 方法，以对齐其行为与人类相符。通过基于人类逻辑与交通规则来生成驾驶指令数据，并采用可解释的 InstructChain 模块进行最终规划推理，实现了注入人类规则与学习驾驶数据的目标，使其具备可解释性与数据可扩展性。与现有的在封闭环或模拟设置中进行实验的方法不同，我们采用真实世界的封闭环动作规划 nuPlan 基准进行更好的评估。InstructDriver 在真实世界的封闭环设置中展示了 LLM 规划器的有效性。我们的代码在此链接公开可获得。

Jun, 2024

MotionLLM：从人体动作和视频中理解人类行为

该研究通过利用大型语言模型（LLMs）的强大功能，深入探讨多模态（即视频和运动模态）人类行为理解。与最近为仅视频或仅动作理解设计的 LLMs 不同，我们认为理解人类行为需要从视频和运动序列（例如 SMPL 序列）中进行联合建模，以有效捕捉微妙的身体部位动态和语义。因此，我们提出了 MotionLLM，一个简单而有效的人类动作理解、字幕生成和推理框架。具体而言，MotionLLM 采用统一的视频 - 动作训练策略，利用现有的粗糙视频 - 文本数据和细粒度动作 - 文本数据的互补优势，获取丰富的时空洞察力。此外，我们还收集了一个实质性的数据集 MoVid，其中包含了多样的视频、动作、字幕和说明。此外，我们提出了经过精心手动注释的 MoVid-Bench，以更好地评估在视频和动作上对人类行为理解的能力。广泛的实验结果表明 MotionLLM 在字幕生成、时空理解和推理能力方面具有优势。

May, 2024

LC-LLM: 大型语言模型的可解释性变道意图和轨迹预测

为了在动态环境下保证安全驾驶，自动驾驶车辆应该具备准确预测周围车辆的变道意图并预测其未来轨迹的能力。本文通过提出了一种可解释的变道预测模型 LC-LLM，利用大型语言模型（LLM）的强大推理能力和自我解释能力来解决现有运动预测方法在长期预测精度和可解释性方面的不足。我们将变道预测任务重新定义为语言建模问题，将异构驾驶场景信息以自然语言形式作为 LLM 的输入，并采用监督微调技术，使 LLM 专门用于变道预测任务。这使得我们能够利用 LLM 强大的常识推理能力来理解复杂的交互信息，从而提高长期预测的准确性。此外，我们在推理阶段的提示中加入了解释要求。因此，我们的 LC-LLM 模型不仅可以预测变道意图和轨迹，还能提供预测解释，增强了可解释性。对大规模高维驱动数据集的广泛实验证明了我们的 LC-LLM 在变道预测任务中的卓越性能和可解释性。据我们所知，这是首次尝试利用 LLM 来预测变道行为。我们的研究表明，LLM 能够对驾驶行为进行综合交互信息编码。

Mar, 2024

您是否被追踪？了解 LLMs 的零射线轨迹追踪能力！

本研究介绍了 LLMTrack 模型，展示了如何利用大型语言模型（LLMs）通过采用一种独特的单提示技术，结合角色扮演和逐步思考方法，处理未经处理的惯性测量单元（IMU）数据，实现零通道轨迹识别。通过对真实世界数据集进行评估，我们发现在室内和室外场景中，LLMTrack 不仅达到了传统机器学习方法以及当代深度学习模型所设定的性能基准，甚至超过了这些基准，而且无需在特定数据集上进行训练。我们的研究结果表明，在经过精心设计的提示的指导下，LLMs 可以利用其丰富的知识库，以极高的效率分析原始传感器数据。

Mar, 2024

使用 LLMs 增强端到端自主驾驶模仿学习的多模态记号提示

利用大型语言模型（LLMs）与强化学习相结合的混合端到端学习框架，通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合，来提高自动驾驶性能。

Apr, 2024