双通道时间映射优化用于化妆时序视频定位

Sep, 2023

双通道时间映射优化用于化妆时序视频定位

Dual-Path Temporal Map Optimization for Make-up Temporal Video Grounding

Jiaxiu Li, Kun Li, Jia Li, Guoliang Chen, Dan Guo...

TL;DR本研究通过提出基于提议的框架（DPTMO），从多模态语义细节中捕捉精细化的化妆活动，实现化妆时间视频定位，实验证明双路径结构在细粒度语义理解方面优越。

Abstract

make-up temporal video grounding (MTVG) aims to localize the target video segment which is semantically related to a sentence describing a make-up activity, given a long video. Compared with the general video grounding task, MTVG focuses on meticulous actions and changes on the face. T

make-up temporal video grounding make-up activities proposal-based framework dual-path structure fine-grained semantic comprehension

发现论文，激发创造

利用特征多样性进行化妆时间视频对齐

本技术报告介绍了本文在 ACM MM 2022 的第 4 届 PIC 挑战中所提出的 MTVG 新任务的第 3 名获胜解决方案，该任务旨在基于文本描述确定未修剪视频中步骤的时间边界。我们通过利用特征的多样性，提出了从特征提取、网络优化到模型集成的一系列方法，实现了细粒度表示，并在 MTVG 竞赛中获得了第三名。

Aug, 2022

2022 年北大 - WICT-MIPL PIC 化妆时空视频对齐挑战赛技术报告

本报告介绍了我们团队在 ACM-MM 2022 举办的 PIC Makeup Temporal Video Grounding （MTVG）挑战中，为该任务提出的短语关系挖掘框架以及约束不同步骤句查询的本地化结果不重叠的动态规划算法，我们的方法在该比赛中取得了 2nd 的成绩。

Jul, 2022

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

多模态 Transformer 在视频锚定中的设计追求

本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR，通过将视频定位看作一个集合预测任务来实现，采用立方体嵌入层将原始视频转换为视觉令牌；在解码器中，采用新型的多头跨模态注意力机制来更好地融合两种模态，整个模型的优化采用 Many-to-One 匹配损失函数，实现了记录性能和较快的推理速度，获得更好的结果。

Sep, 2021

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022

增强 2D-TAN: 一种用于人类中心的时空视频定位的两阶段方法

本研究提出了一种有效的两阶段方法，利用增强的 2D-TAN 对文本描述进行时间上的定位，同时使用 MDETR 模型生成每帧包围盒并设计了一组手工规则，筛选出与定位短语最匹配的包围盒。

Jun, 2021