学习联合嵌入空间的三模态动作检索
本文提出了一种基于 transformer 和 triplet loss 的 cross-modal retrieval 模型来解决 human motion sequences 和 text 之间的检索问题,并提出了一种新的 MildTriple Loss 来减少 semantic conflicts 的影响,经实验证明,在 HumanML3D 和 KIT Motion-Language 数据集上具有较高的检索召回率。
May, 2023
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型,对大量 3D 骨骼序列进行内容检索,实现了相应的定量度量评估。
May, 2023
该研究通过利用大型语言模型(LLMs)的强大功能,深入探讨多模态(即视频和运动模态)人类行为理解。与最近为仅视频或仅动作理解设计的 LLMs 不同,我们认为理解人类行为需要从视频和运动序列(例如 SMPL 序列)中进行联合建模,以有效捕捉微妙的身体部位动态和语义。因此,我们提出了 MotionLLM,一个简单而有效的人类动作理解、字幕生成和推理框架。具体而言,MotionLLM 采用统一的视频 - 动作训练策略,利用现有的粗糙视频 - 文本数据和细粒度动作 - 文本数据的互补优势,获取丰富的时空洞察力。此外,我们还收集了一个实质性的数据集 MoVid,其中包含了多样的视频、动作、字幕和说明。此外,我们提出了经过精心手动注释的 MoVid-Bench,以更好地评估在视频和动作上对人类行为理解的能力。广泛的实验结果表明 MotionLLM 在字幕生成、时空理解和推理能力方面具有优势。
May, 2024
该论文介绍了通过视频和 2D 关键点之间的跨模态潜在特征空间对三维人体运动和 2D 输入之间进行运动先验对齐的 Video-to-Motion Generator (VTM),该方法通过将运动数据分别建模为上半身和下半身,以及使用尺度不变的虚拟骨架与运动数据对齐,展示了在重建单目视频中的三维人体运动方面具有领先水平的表现,尤其是在未见过的视角和野外视频中的泛化能力。
Apr, 2024
通过引入多视图联合模态建模方法,该研究论文提出了一种名为 JM3D 的新方法,以解决 3D 表示学习中的信息降解和不足协同问题,并在零样本 3D 分类任务上取得了领先于现有方法的性能。
Aug, 2023
为了解决 3D 数据与 2D 图像和文本的对齐问题带来的信息退化、协同不足和细节利用不充分的挑战,本文介绍了一种综合点云、文本和图像的综合方法 JM3D,其关键贡献是结构化多模态组织器和联合多模态对齐,通过高效的微调将 3D 表示与大型语言模型相结合,JM3D-LLM 在 ModelNet40 和 ScanObjectNN 的评估中表现出优势,进一步证明了我们的表示转换方法的有效性。
Oct, 2023
该论文提出了 TMR 方法,利用对比损失结构化跨模态潜在空间,提高文本到 3D 人体运动检索的性能,并在多个数据集上验证了其优越性能,同时也展示了其在时刻检索方面的潜力。
May, 2023
通过使用预训练的 LLM 模型进行微调,本研究提出了 MotionLLM,一个简单且通用的框架,可实现单人和多人运动生成以及动作字幕生成。
May, 2024
通过对齐不同类型嵌入空间的方法,本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果,从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。
Aug, 2023
本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。
Apr, 2022