语言能否战胜数值回归?基于语言的多模态轨迹预测
可靠地预测道路行为是自动驾驶车辆安全规划的关键组成部分。本研究将连续轨迹表示为离散运动令牌序列,并将多智能体运动预测视为一个语言建模任务。我们的模型 MotionLM 具有多个优势:首先,它不需要锚点或明确的潜在变量优化来学习多模态分布;其次,我们利用标准的语言建模目标,通过最大化序列令牌的平均对数概率来实现;此外,该模型的顺序分解使得它能够进行时间因果条件推断。在 Waymo 开放动态数据集上,所提出的方法在多智能体运动预测方面取得了新的最先进性能,排名第一。
Sep, 2023
本文提出了一种新的基于语言基础模型的时间序列模式挖掘流程,以用于人类移动预测任务,该模型通过引入特定提示将数值时间序列转换为句子,以便直接应用于现有语言模型,设计了一个 AuxMobLCast 流程用于预测每个 POI 的访客数量,结合了辅助 POI 分类和编码器 - 解码器架构,实证证明了该流程在移动性预测任务中发现序列模式的有效性,并在三个真实数据集上进行了评估,表现良好。
Sep, 2022
通过引入 Large Language Models (LLMs),本研究探究了使用 LLMs 改进行人轨迹预测任务的可能性,通过诱导运动线索生成物体过去 / 观察到的轨迹中的运动线索,并利用混合高斯聚类未来轨迹中的运动线索。我们的方法采用基于 Transformer 的体系结构,包括运动编码器以建模运动模式和社交解码器以捕捉行人之间的社交互动,展示了我们的方法在流行的行人轨迹预测基准数据集 ETH-UCY 和 SDD 上的有效性,并进行了多个消融实验来验证我们的方法。
Mar, 2024
该研究提出了一个灵活的基于语言的框架,使用自然语言输入和场景图像处理机器人运动指令,通过预先训练的语言模型和变压器编码器网络生成目标几何特征,然后使用变压器解码器生成轨迹,无需任何先验知识。在复杂环境下,仿真和实际实验表明,该系统可以成功地跟随人类意图,修改轨迹的形状和速度。
Aug, 2022
利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务,并引入基于前缀的提示机制,提高了性能,为未来的改进提供了基础。
Dec, 2023
本研究介绍了 LLMTrack 模型,展示了如何利用大型语言模型(LLMs)通过采用一种独特的单提示技术,结合角色扮演和逐步思考方法,处理未经处理的惯性测量单元(IMU)数据,实现零通道轨迹识别。通过对真实世界数据集进行评估,我们发现在室内和室外场景中,LLMTrack 不仅达到了传统机器学习方法以及当代深度学习模型所设定的性能基准,甚至超过了这些基准,而且无需在特定数据集上进行训练。我们的研究结果表明,在经过精心设计的提示的指导下,LLMs 可以利用其丰富的知识库,以极高的效率分析原始传感器数据。
Mar, 2024
本文提出了一种基于自然语言的灵活性极高的人机协作接口,将大型语言模型 (BERT 和 CLIP) 的优势与轨迹信息相结合,通过多模态注意力变换实现对用户命令的编码,并将其与轨迹信息相结合。在包含机器人轨迹的数据集上进行模仿学习,并将轨迹生成过程视为序列预测问题,通过仿真轨迹实验和真实机器人实验验证了该系统的效果优异,并证明了自然语言接口在人机协作中的优越性。
Mar, 2022
通过利用大型语言模型(LLMs)增强全局交通语境理解来提高动作预测任务的准确性,并考虑到 LLMs 的成本,我们提出了一种成本效益的部署策略:通过拥有 0.7% 的 LLM 增强数据集来扩大动作预测任务的准确性。
Mar, 2024