利用特征多样性进行化妆时间视频对齐

MMAug, 2022

利用特征多样性进行化妆时间视频对齐

Exploiting Feature Diversity for Make-up Temporal Video Grounding

Xiujun Shu, Wei Wen, Taian Guo, Sunan He, Chen Wu...

TL;DR本技术报告介绍了本文在 ACM MM 2022 的第 4 届 PIC 挑战中所提出的 MTVG 新任务的第 3 名获胜解决方案，该任务旨在基于文本描述确定未修剪视频中步骤的时间边界。我们通过利用特征的多样性，提出了从特征提取、网络优化到模型集成的一系列方法，实现了细粒度表示，并在 MTVG 竞赛中获得了第三名。

Abstract

This technical report presents the 3rd winning solution for mtvg, a new task introduced in the 4-th Person in Context (PIC) Challenge at ACM MM 2022. mtvg aims at localizing the →

mtvg temporal boundary untrimmed video make-up steps feature diversities

发现论文，激发创造

2022 年北大 - WICT-MIPL PIC 化妆时空视频对齐挑战赛技术报告

本报告介绍了我们团队在 ACM-MM 2022 举办的 PIC Makeup Temporal Video Grounding （MTVG）挑战中，为该任务提出的短语关系挖掘框架以及约束不同步骤句查询的本地化结果不重叠的动态规划算法，我们的方法在该比赛中取得了 2nd 的成绩。

Jul, 2022

双通道时间映射优化用于化妆时序视频定位

本研究通过提出基于提议的框架（DPTMO），从多模态语义细节中捕捉精细化的化妆活动，实现化妆时间视频定位，实验证明双路径结构在细粒度语义理解方面优越。

Sep, 2023

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020

高效二维时间视频定位的文本 - 视觉指示

本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Mar, 2023

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

简洁的时间视频定位：多尺度邻近注意力与放大边界检测

提供了一个无花样的 TVG 模型，借助多尺度邻近注意和缩放边界检测两个核心模块，提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略，该模型在不同的 TVG 基准上实现了竞争性的性能，同时具有更快的推理速度和较轻量的模型参数。

Jul, 2023

YouMakeup VQA 挑战赛：面向领域特定视频中的细粒度动作理解

本文介绍了 YouMakeup VQA Challenge 2020，展示了该挑战的两个评价任务：Facial Image Ordering 和 Step Ordering 的挑战指南、数据集和基准模型表现。

Apr, 2020

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022