UMT: 统一多模态 Transformers 用于联合视频片段检索和亮点检测
本计划提出了一种新方法,使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测,以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻, 并在多个数据集上进行评估,如 YouTube 亮点和 TVSum。
May, 2023
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
提出了一种统一视频理解框架 (UVCOM),通过深入挖掘内在的本质特点,联合解决视频片段检索和重点片段检测问题。在多粒度的内部和跨模态的进步集成中,通过多方面对比学习,实现了对视频进行全面理解,成功地提高了效果。
Nov, 2023
提出了面向视频时刻和精彩片段检测的 MH-DETR 模型,其采用简单而高效的池化操作和跨模态交互模块,以获得更好的时序内模态上下文和跨模态特征。在多个数据集上的实验结果表明,MH-DETR 优于现有的最先进方法,具有较高的准确性和鲁棒性。
Apr, 2023
基于自然语言查询的视频时刻检索(MR)和精彩片段检测(HD)是两个高度相关的任务,目标是获取视频中的相关时刻和每个视频片段的精彩得分。本文提出了一种基于 DETR 的任务互补变换器(TR-DETR),专注于探索 MR 和 HD 之间的内在互补性。实验表明,TR-DETR 优于现有的最先进方法。
Jan, 2024
本文提出一种基于多模态、模态无关的融合变压器方法,通过交换多个模态之间的信息并将其整合成一个联合的多模态表示,从而获得聚合多模态时态信息的嵌入,可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果,取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。
Dec, 2021
我们提出了一种名为 UniT 的统一 Transformer 模型,该模型可以同时学习不同领域中最重要的任务,从目标检测到自然语言理解和多模态推理,在编码器 - 解码器架构的基础上,通过编码器对每个输入模态进行编码,并使用共享解码器对编码的输入表示进行每个任务的预测,然后是特定于任务的输出头。我们的实验证明,在 8 个数据集上联合学习 7 个任务,使用比以前的工作更少的参数,在每个任务上都获得了强大的性能。
Feb, 2021
本文提出了 MUTR,通过统一框架和两种策略,实现了同时支持文本和音频引用的视频对象分割,实现了视频内部各帧的时序交互,从而提高了语义对齐和目标对应的准确性。MUTR 在多个数据集上都达到了更好的 J&F 性能。
May, 2023
提出了一个基于任务驱动的自上而下框架 TaskWeave,用于联合视频片段检索和精彩时刻检测,通过任务解耦单元、任务特定共享表示以及任务之间的反馈机制实现了任务间的协同。实验验证了该框架的有效性和灵活性。
Apr, 2024
通过使用多模态 Transformer 架构,全面利用视频中视觉和听觉模态之间的交互和内部依赖关系,以识别音频视觉表情和声音模式,该模型在 Affwild2 数据集上表现出优越性能。
Mar, 2024