2022 年北大 - WICT-MIPL PIC 化妆时空视频对齐挑战赛技术报告
本技术报告介绍了本文在 ACM MM 2022 的第 4 届 PIC 挑战中所提出的 MTVG 新任务的第 3 名获胜解决方案,该任务旨在基于文本描述确定未修剪视频中步骤的时间边界。我们通过利用特征的多样性,提出了从特征提取、网络优化到模型集成的一系列方法,实现了细粒度表示,并在 MTVG 竞赛中获得了第三名。
Aug, 2022
本研究通过提出基于提议的框架(DPTMO),从多模态语义细节中捕捉精细化的化妆活动,实现化妆时间视频定位,实验证明双路径结构在细粒度语义理解方面优越。
Sep, 2023
通过统一视频时序定位(Video Temporal Grounding)的各种标签和任务,提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练,并获得更强的定位能力,例如零样本时序定位。对三项任务(时间区间提取、重要片段检测和视频摘要)在七个数据集上的广泛实验证明了该框架的有效性和灵活性。
Jul, 2023
本文介绍了一项新任务 —— 人体中心的时空视频定位(HC-STVG),并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers(STGVT)的基准方法,该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示,同时我们贡献了一个 HC-STVG 数据集,其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验,表明新提出的方法优于现有的基准方法。
Nov, 2020
基于 VTG 任务,本研究首先介绍了 VTG-IT-120K 这一高质量的综合指导调整数据集,其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等 VTG 任务;其次,我们提出了一个特别设计的用于 VTG 任务的视频 LLM 模型,VTG-LLM,该模型能够有效地将时间戳知识与视觉标记结合起来,并且引入了一种轻量级、高性能的基于槽位的标记压缩方法,以便更好地采样更多的视频帧。全面的实验证实了 VTG-LLM 在各种 VTG 任务中相较于其他视频 LLM 方法的卓越性能。
May, 2024
提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV),该方法通过时间戳字幕作为文本输入,将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示,以帮助跨模态交互,实现更好的文本跨度定位和匹配,该方法在医学操作数据集 MedVidQA 上表现优异,超越了其他 SOTA 方法。
Mar, 2022
视频时间定位(VTG)目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT,这是一种基于 GPT 的零训练或微调的方法,以减少人为偏见和冗余信息,并实现与有监督方法相媲美的性能。
Mar, 2024
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。
Jul, 2021
本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。
Apr, 2022
本论文提出了 Temporal Compositional Modular Network (TCMN) 模型,该模型结合自然语言描述和视觉信息,通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分,再使用两个模块计量视频片段与细分描述间的相似度和位置相似度,通过 late fusion 方法组合 RGB 和光流两种数据进行训练,实验证明此模型在 TEMPO 数据集上表现优于现有方法。
Aug, 2019