学习联合嵌入空间的三模态动作检索

Mar, 2024

学习联合嵌入空间的三模态动作检索

Tri-Modal Motion Retrieval by Learning a Joint Embedding Space

Kangning Yin, Shihao Zou, Yuxuan Ge, Zheng Tian

TL;DRLAVIMO 是一个三模态学习的创新框架，通过加入人类中心视频作为额外模态，有效地弥补了文本和动作之间的差距，利用特殊设计的注意机制促进了文本、视频和动作模态之间的增强对齐和协同效应，在多个与动作相关的跨模态检索任务中实现了最先进的性能。

Abstract

information retrieval is an ever-evolving and crucial research domain. The substantial demand for high-quality human motion data especially in online acquirement has led to a surge in →

information retrieval human motion three-modality learning lavimo cross-modal retrieval

发现论文，激发创造

通过 MildTriple Loss 实现运动和文本的跨模态检索

本文提出了一种基于 transformer 和 triplet loss 的 cross-modal retrieval 模型来解决 human motion sequences 和 text 之间的检索问题，并提出了一种新的 MildTriple Loss 来减少 semantic conflicts 的影响，经实验证明，在 HumanML3D 和 KIT Motion-Language 数据集上具有较高的检索召回率。

May, 2023

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

MotionLLM：从人体动作和视频中理解人类行为

该研究通过利用大型语言模型（LLMs）的强大功能，深入探讨多模态（即视频和运动模态）人类行为理解。与最近为仅视频或仅动作理解设计的 LLMs 不同，我们认为理解人类行为需要从视频和运动序列（例如 SMPL 序列）中进行联合建模，以有效捕捉微妙的身体部位动态和语义。因此，我们提出了 MotionLLM，一个简单而有效的人类动作理解、字幕生成和推理框架。具体而言，MotionLLM 采用统一的视频 - 动作训练策略，利用现有的粗糙视频 - 文本数据和细粒度动作 - 文本数据的互补优势，获取丰富的时空洞察力。此外，我们还收集了一个实质性的数据集 MoVid，其中包含了多样的视频、动作、字幕和说明。此外，我们提出了经过精心手动注释的 MoVid-Bench，以更好地评估在视频和动作上对人类行为理解的能力。广泛的实验结果表明 MotionLLM 在字幕生成、时空理解和推理能力方面具有优势。

May, 2024

通过跨模态流形对齐从单眼视频学习人类动作

该论文介绍了通过视频和 2D 关键点之间的跨模态潜在特征空间对三维人体运动和 2D 输入之间进行运动先验对齐的 Video-to-Motion Generator (VTM)，该方法通过将运动数据分别建模为上半身和下半身，以及使用尺度不变的虚拟骨架与运动数据对齐，展示了在重建单目视频中的三维人体运动方面具有领先水平的表现，尤其是在未见过的视角和野外视频中的泛化能力。

Apr, 2024

超越第一印象：整合多模态联合线索用于全面的 3D 表示

通过引入多视图联合模态建模方法，该研究论文提出了一种名为 JM3D 的新方法，以解决 3D 表示学习中的信息降解和不足协同问题，并在零样本 3D 分类任务上取得了领先于现有方法的性能。

Aug, 2023

JM3D 和 JM3D-LLM：借助联合多模态提示提升 3D 表示

为了解决 3D 数据与 2D 图像和文本的对齐问题带来的信息退化、协同不足和细节利用不充分的挑战，本文介绍了一种综合点云、文本和图像的综合方法 JM3D，其关键贡献是结构化多模态组织器和联合多模态对齐，通过高效的微调将 3D 表示与大型语言模型相结合，JM3D-LLM 在 ModelNet40 和 ScanObjectNN 的评估中表现出优势，进一步证明了我们的表示转换方法的有效性。

Oct, 2023

使用对比式 3D 人体动作合成进行文本到动作的检索

该论文提出了 TMR 方法，利用对比损失结构化跨模态潜在空间，提高文本到 3D 人体运动检索的性能，并在多个数据集上验证了其优越性能，同时也展示了其在时刻检索方面的潜力。

May, 2023

MotionLLM: 多模式运动语言学习与大型语言模型

通过使用预训练的 LLM 模型进行微调，本研究提出了 MotionLLM，一个简单且通用的框架，可实现单人和多人运动生成以及动作字幕生成。

May, 2024

不需重训练的扩展冻结视觉 - 语言模型：朝着改进机器人感知能力迈进

通过对齐不同类型嵌入空间的方法，本研究展示了使用多模态输入改善视觉语言模型在场景理解和任务表现方面的效果，从而为多模态环境中更加多功能和有能力的语言模型铺平了道路。

Aug, 2023

基于多模态特征的文本视频分割运动建模

本文提出了一种多模态视频分割方法，通过语言引导的特征融合模块和多模态对齐损失函数，将视觉外观、运动信息和语言特征融合，实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明，该方法与现有方法相比具有更好的性能和泛化能力。

Apr, 2022