本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过TEMPO数据集进行了实验以验证模型可靠性。
Sep, 2018
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
该论文调查了自然语言视频定位(TSGV)的基本概念和当前研究状况,并讨论了未来的研究方向,着重介绍了TSGV的多模态理解和交互技术,构建了TSGV技术的分类法,讨论了当前研究中存在的问题并分享了有前途的研究方向。
Jan, 2022
该论文提出了TMR方法,利用对比损失结构化跨模态潜在空间,提高文本到3D人体运动检索的性能,并在多个数据集上验证了其优越性能,同时也展示了其在时刻检索方面的潜力。
May, 2023
本文探讨如何实现基于文本描述的运动检索任务,利用姿态估计、文本编码和基于分割空时注意力的Motion Transformer模型,对大量3D骨骼序列进行内容检索,实现了相应的定量度量评估。
本文提出了一种统一的,多功能的运动语言模型MotionGPT,旨在通过将语言数据与大规模运动模型相结合,开发出能够增强涉及运动的任务的预训练模型,实现对文本驱动运动生成、运动字幕制作、运动预测和中间运动状态生成等多项任务的最先进表现。
Jun, 2023
文本注意动作集成与全局时间信息,在处理传感器数据时,通过TM-Mamba模型能够高效地将人类运动与时间对应起来并进行理解。
Apr, 2024
通过引入简单但有效的连续长期生成框架T2LM,本文解决了长期3D人体动作生成的问题,并在不需要顺序数据的情况下取得了优越的成果。
Jun, 2024
利用图像-文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。
本研究针对弱监督时序动作定位(WTAL)中的任务差异问题,提出了一种新颖的概率嵌入框架,将人类动作知识与视觉-语言预训练(VLP)知识在联合空间中进行对齐。通过引入内部和外部分布对比学习,本研究显著提升了对人类细微动作的捕捉能力,实验证明其在性能上超越了所有现有最先进的方法。
Aug, 2024