利用特征多样性进行化妆时间视频对齐
本报告介绍了我们团队在 ACM-MM 2022 举办的 PIC Makeup Temporal Video Grounding (MTVG)挑战中,为该任务提出的短语关系挖掘框架以及约束不同步骤句查询的本地化结果不重叠的动态规划算法,我们的方法在该比赛中取得了 2nd 的成绩。
Jul, 2022
本研究通过提出基于提议的框架(DPTMO),从多模态语义细节中捕捉精细化的化妆活动,实现化妆时间视频定位,实验证明双路径结构在细粒度语义理解方面优越。
Sep, 2023
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。
Jul, 2021
本文介绍了一项新任务 —— 人体中心的时空视频定位(HC-STVG),并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers(STGVT)的基准方法,该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示,同时我们贡献了一个 HC-STVG 数据集,其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验,表明新提出的方法优于现有的基准方法。
Nov, 2020
本文研究了时空视频定位(TVG)的问题,提出了一种新的文本 - 视觉提示框架(TVP)来优化视频编码器和语言编码器,有效地加强交叉模态特征融合并提高了 TVG 的表现。
Mar, 2023
通过统一视频时序定位(Video Temporal Grounding)的各种标签和任务,提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练,并获得更强的定位能力,例如零样本时序定位。对三项任务(时间区间提取、重要片段检测和视频摘要)在七个数据集上的广泛实验证明了该框架的有效性和灵活性。
Jul, 2023
提供了一个无花样的 TVG 模型,借助多尺度邻近注意和缩放边界检测两个核心模块,提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略,该模型在不同的 TVG 基准上实现了竞争性的性能,同时具有更快的推理速度和较轻量的模型参数。
Jul, 2023
本文介绍了 YouMakeup VQA Challenge 2020,展示了该挑战的两个评价任务:Facial Image Ordering 和 Step Ordering 的挑战指南、数据集和基准模型表现。
Apr, 2020
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。
Apr, 2020
本文提出一种基于常识感知的跨模态对齐框架,通过从语料库中提取结构化语义信息,设计跨模态交互模块获得桥接式视觉和文本特征,并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上,证明该方法能够以高速运行,且表现优于现有的方法。
Apr, 2022