2022 年北大 - WICT-MIPL PIC 化妆时空视频对齐挑战赛技术报告

MMJul, 2022

2022 年北大 - WICT-MIPL PIC 化妆时空视频对齐挑战赛技术报告

Team PKU-WICT-MIPL PIC Makeup Temporal Video Grounding Challenge 2022 Technical Report

Minghang Zheng, Dejie Yang, Zhongjie Ye, Ting Lei, Yuxin Peng...

TL;DR本报告介绍了我们团队在 ACM-MM 2022 举办的 PIC Makeup Temporal Video Grounding （MTVG）挑战中，为该任务提出的短语关系挖掘框架以及约束不同步骤句查询的本地化结果不重叠的动态规划算法，我们的方法在该比赛中取得了 2nd 的成绩。

Abstract

In this technical report, we briefly introduce the solutions of our team `PKU-WICT-MIPL' for the PIC Makeup temporal video grounding (MTVG) Challenge in acm-mm 2022. Given an untrimmed →

temporal video grounding makeup video phrase relationship mining dynamic programming algorithm acm-mm 2022

发现论文，激发创造

利用特征多样性进行化妆时间视频对齐

本技术报告介绍了本文在 ACM MM 2022 的第 4 届 PIC 挑战中所提出的 MTVG 新任务的第 3 名获胜解决方案，该任务旨在基于文本描述确定未修剪视频中步骤的时间边界。我们通过利用特征的多样性，提出了从特征提取、网络优化到模型集成的一系列方法，实现了细粒度表示，并在 MTVG 竞赛中获得了第三名。

Aug, 2022

双通道时间映射优化用于化妆时序视频定位

本研究通过提出基于提议的框架（DPTMO），从多模态语义细节中捕捉精细化的化妆活动，实现化妆时间视频定位，实验证明双路径结构在细粒度语义理解方面优越。

Sep, 2023

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020

VTG-LLM：将时间戳知识整合到视频 LLMs 中以增强视频时间定位

基于 VTG 任务，本研究首先介绍了 VTG-IT-120K 这一高质量的综合指导调整数据集，其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等 VTG 任务；其次，我们提出了一个特别设计的用于 VTG 任务的视频 LLM 模型，VTG-LLM，该模型能够有效地将时间戳知识与视觉标记结合起来，并且引入了一种轻量级、高性能的基于槽位的标记压缩方法，以便更好地采样更多的视频帧。全面的实验证实了 VTG-LLM 在各种 VTG 任务中相较于其他视频 LLM 方法的卓越性能。

May, 2024

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

VTG-GPT: 使用 GPT 的免调整零样本视频时态定位

视频时间定位（VTG）目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT，这是一种基于 GPT 的零训练或微调的方法，以减少人为偏见和冗余信息，并实现与有监督方法相媲美的性能。

Mar, 2024

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019