语言能否战胜数值回归？基于语言的多模态轨迹预测

CVPRMar, 2024

语言能否战胜数值回归？基于语言的多模态轨迹预测

Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction

Inhwan Bae, Junoh Lee, Hae-Gon Jeon

TL;DR通过将轨迹预测任务转化为一种问答问题，本研究提出了基于语言和多模态的轨迹预测模型（LMTraj），该模型利用语言模型来理解和生成高水平知识，通过数值标记器和问答提示进行训练，证明了它在行人轨迹预测中的强大性能。

Abstract

Language models have demonstrated impressive ability in context understanding and generative performance. Inspired by the recent success of language foundation models, in this paper, we propose LMTraj (Language-based Multimodal Trajectory predictor), which recasts the trajectory prediction task into a sort of →

language-based multimodal trajectory predictor question-answering numerical tokenizer pedestrian trajectory prediction language-based model

发现论文，激发创造

Traj-LLM：赋能轨迹预测的新探索

使用大型语言模型和创新的技术，本研究拟探索将 LLM 应用于交通场景中的动态车辆轨迹预测任务，以提高预测效果并适应不同情形。

May, 2024

MotionLM: 多智能体运动预测作为语言建模

可靠地预测道路行为是自动驾驶车辆安全规划的关键组成部分。本研究将连续轨迹表示为离散运动令牌序列，并将多智能体运动预测视为一个语言建模任务。我们的模型 MotionLM 具有多个优势：首先，它不需要锚点或明确的潜在变量优化来学习多模态分布；其次，我们利用标准的语言建模目标，通过最大化序列令牌的平均对数概率来实现；此外，该模型的顺序分解使得它能够进行时间因果条件推断。在 Waymo 开放动态数据集上，所提出的方法在多智能体运动预测方面取得了新的最先进性能，排名第一。

Sep, 2023

利用语言基础模型进行人类移动预测

本文提出了一种新的基于语言基础模型的时间序列模式挖掘流程，以用于人类移动预测任务，该模型通过引入特定提示将数值时间序列转换为句子，以便直接应用于现有语言模型，设计了一个 AuxMobLCast 流程用于预测每个 POI 的访客数量，结合了辅助 POI 分类和编码器 - 解码器架构，实证证明了该流程在移动性预测任务中发现序列模式的有效性，并在三个真实数据集上进行了评估，表现良好。

Sep, 2022

LG-Traj: LLM 指导的行人轨迹预测

通过引入 Large Language Models (LLMs)，本研究探究了使用 LLMs 改进行人轨迹预测任务的可能性，通过诱导运动线索生成物体过去 / 观察到的轨迹中的运动线索，并利用混合高斯聚类未来轨迹中的运动线索。我们的方法采用基于 Transformer 的体系结构，包括运动编码器以建模运动模式和社交解码器以捕捉行人之间的社交互动，展示了我们的方法在流行的行人轨迹预测基准数据集 ETH-UCY 和 SDD 上的有效性，并进行了多个消融实验来验证我们的方法。

Mar, 2024

大型语言模型用于旅行行为预测

利用大型语言模型进行旅行行为预测，无需数据参数学习，准确性可与传统的监督学习方法相媲美，并能输出预测的原因，但存在逻辑矛盾或幻觉的情况。

Nov, 2023

LATTE: 语言轨迹转换器

该研究提出了一个灵活的基于语言的框架，使用自然语言输入和场景图像处理机器人运动指令，通过预先训练的语言模型和变压器编码器网络生成目标几何特征，然后使用变压器解码器生成轨迹，无需任何先验知识。在复杂环境下，仿真和实际实验表明，该系统可以成功地跟随人类意图，修改轨迹的形状和速度。

Aug, 2022

探索和提升大型语言模型的空间推理能力

利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务，并引入基于前缀的提示机制，提高了性能，为未来的改进提供了基础。

Dec, 2023

您是否被追踪？了解 LLMs 的零射线轨迹追踪能力！

本研究介绍了 LLMTrack 模型，展示了如何利用大型语言模型（LLMs）通过采用一种独特的单提示技术，结合角色扮演和逐步思考方法，处理未经处理的惯性测量单元（IMU）数据，实现零通道轨迹识别。通过对真实世界数据集进行评估，我们发现在室内和室外场景中，LLMTrack 不仅达到了传统机器学习方法以及当代深度学习模型所设定的性能基准，甚至超过了这些基准，而且无需在特定数据集上进行训练。我们的研究结果表明，在经过精心设计的提示的指导下，LLMs 可以利用其丰富的知识库，以极高的效率分析原始传感器数据。

Mar, 2024

使用自然语言命令重塑机器人轨迹：多模态数据对齐的变压器研究

本文提出了一种基于自然语言的灵活性极高的人机协作接口，将大型语言模型 (BERT 和 CLIP) 的优势与轨迹信息相结合，通过多模态注意力变换实现对用户命令的编码，并将其与轨迹信息相结合。在包含机器人轨迹的数据集上进行模仿学习，并将轨迹生成过程视为序列预测问题，通过仿真轨迹实验和真实机器人实验验证了该系统的效果优异，并证明了自然语言接口在人机协作中的优越性。

Mar, 2022

大型语言模型驱动的上下文感知运动预测

通过利用大型语言模型（LLMs）增强全局交通语境理解来提高动作预测任务的准确性，并考虑到 LLMs 的成本，我们提出了一种成本效益的部署策略：通过拥有 0.7% 的 LLM 增强数据集来扩大动作预测任务的准确性。

Mar, 2024