UMT: 统一多模态 Transformers 用于联合视频片段检索和亮点检测

CVPRMar, 2022

UMT: 统一多模态 Transformers 用于联合视频片段检索和亮点检测

UMT: Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection

Ye Liu, Siyuan Li, Yang Wu, Chang Wen Chen, Ying Shan...

TL;DR本研究提出了一个名为 UMT 的统一多模态转换器的框架，能够实现时刻检索和精华视频检测的联合优化，并且能够轻松地退化为解决单个问题。实验结果表明，该方法在各种设置下都具有有效性、优越性和灵活性。

Abstract

Finding relevant moments and highlights in videos according to natural language queries is a natural and highly valuable common need in the current video content explosion era. Nevertheless, jointly conducting moment retrieval and →

moment retrieval highlight detection multi-modal learning query generator keypoint detection

发现论文，激发创造

通过自然语言查询进行联合时刻检索和高亮检测

本计划提出了一种新方法，使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测，以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻，并在多个数据集上进行评估，如 YouTube 亮点和 TVSum。

May, 2023

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

缩小差距：一个统一的视频理解框架用于时刻检索和重点检测

提出了一种统一视频理解框架 (UVCOM)，通过深入挖掘内在的本质特点，联合解决视频片段检索和重点片段检测问题。在多粒度的内部和跨模态的进步集成中，通过多方面对比学习，实现了对视频进行全面理解，成功地提高了效果。

Nov, 2023

MH-DETR: 跨模态变换器进行视频片段和精华片段检测

提出了面向视频时刻和精彩片段检测的 MH-DETR 模型，其采用简单而高效的池化操作和跨模态交互模块，以获得更好的时序内模态上下文和跨模态特征。在多个数据集上的实验结果表明，MH-DETR 优于现有的最先进方法，具有较高的准确性和鲁棒性。

Apr, 2023

TR-DETR: 具有任务互逆性的 Transformer 模型，用于联合出现时刻检索和摘要提取

基于自然语言查询的视频时刻检索（MR）和精彩片段检测（HD）是两个高度相关的任务，目标是获取视频中的相关时刻和每个视频片段的精彩得分。本文提出了一种基于 DETR 的任务互补变换器（TR-DETR），专注于探索 MR 和 HD 之间的内在互补性。实验表明，TR-DETR 优于现有的最先进方法。

Jan, 2024

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

UniT：统一变形器进行多模态多任务学习

我们提出了一种名为 UniT 的统一 Transformer 模型，该模型可以同时学习不同领域中最重要的任务，从目标检测到自然语言理解和多模态推理，在编码器 - 解码器架构的基础上，通过编码器对每个输入模态进行编码，并使用共享解码器对编码的输入表示进行每个任务的预测，然后是特定于任务的输出头。我们的实验证明，在 8 个数据集上联合学习 7 个任务，使用比以前的工作更少的参数，在每个任务上都获得了强大的性能。

Feb, 2021

融合多种模态信息的统一视频物体分割时序变换器

本文提出了 MUTR，通过统一框架和两种策略，实现了同时支持文本和音频引用的视频对象分割，实现了视频内部各帧的时序交互，从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J＆F 性能。

May, 2023

任务驱动的探索：解耦和任务间反馈用于联合时刻检索和亮点检测

提出了一个基于任务驱动的自上而下框架 TaskWeave，用于联合视频片段检索和精彩时刻检测，通过任务解耦单元、任务特定共享表示以及任务之间的反馈机制实现了任务间的协同。实验验证了该框架的有效性和灵活性。

Apr, 2024

野外情感维度识别的联合多模态变压器

通过使用多模态 Transformer 架构，全面利用视频中视觉和听觉模态之间的交互和内部依赖关系，以识别音频视觉表情和声音模式，该模型在 Affwild2 数据集上表现出优越性能。

Mar, 2024