MLP：基于运动标签先验的未剪辑3D人体运动的时序句子定位

Apr, 2024

MLP：基于运动标签先验的未剪辑3D人体运动的时序句子定位

MLP: Motion Label Prior for Temporal Sentence Localization in Untrimmed 3D Human Motions

Sheng Yan, Mengyuan Liu, Yong Wang, Yang Liu, Chen Chen...

TL;DR通过两种创新的先验标签辅助训练方案，我们提出了一种用于在三维人体动作中定位与文本查询语义相对应的目标时刻的时间句子定位（TSLM）的方法，并展示了该方法在高IoU下的优越性能表现。

Abstract

In this paper, we address the unexplored question of temporal sentence localization in human motions (TSLM), aiming to locate a target moment from a 3D human motion that semantically corresponds to a text query.

发现论文，激发创造

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过TEMPO数据集进行了实验以验证模型可靠性。

Sep, 2018

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位(TSGV)的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了TSGV的多模态理解和交互技术，构建了TSGV技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

使用对比式 3D 人体动作合成进行文本到动作的检索

该论文提出了TMR方法，利用对比损失结构化跨模态潜在空间，提高文本到3D人体运动检索的性能，并在多个数据集上验证了其优越性能，同时也展示了其在时刻检索方面的潜力。

May, 2023

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的Motion Transformer模型，对大量3D骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

MotionGPT：以人类动作为外语

本文提出了一种统一的，多功能的运动语言模型MotionGPT，旨在通过将语言数据与大规模运动模型相结合，开发出能够增强涉及运动的任务的预训练模型，实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。

Jun, 2023

文本控制的运动短蓰：基于文本指导的人体运动时序定位

文本注意动作集成与全局时间信息，在处理传感器数据时，通过TM-Mamba模型能够高效地将人类运动与时间对应起来并进行理解。

Apr, 2024

T2LM: 多句长期3D人体运动生成

通过引入简单但有效的连续长期生成框架T2LM，本文解决了长期3D人体动作生成的问题，并在不需要顺序数据的情况下取得了优越的成果。

Jun, 2024

多模态大型语言模型对视频片段检索的惊人有效性

利用图像-文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024

弱监督时序动作定位的概率视觉-语言表示

本研究针对弱监督时序动作定位（WTAL）中的任务差异问题，提出了一种新颖的概率嵌入框架，将人类动作知识与视觉-语言预训练（VLP）知识在联合空间中进行对齐。通过引入内部和外部分布对比学习，本研究显著提升了对人类细微动作的捕捉能力，实验证明其在性能上超越了所有现有最先进的方法。

Aug, 2024