M2-RAAP：一种多模式方法以推进基于适应性预训练的零 - shot 视频文本检索的有效与高效性

Jan, 2024

M2-RAAP：一种多模式方法以推进基于适应性预训练的零 - shot 视频文本检索的有效与高效性

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval

PDF

Xingning Dong, Zipeng Feng, Chunluan Zhou, Xuzheng Yu, Ming Yang...

TL;DR我们提出了一种名为 M2-RAAP 的多模态配方，用于推进基于适应性预训练的零 - shot 视频文本检索，具有有效和高效的特点。通过对视频文本预训练中的四个关键步骤进行全面研究，我们总结了这项实证研究成果，其中我们的技术贡献包括数据过滤和文本重写流水线、将视频输入改为关键帧以加速预训练、以及辅助字幕引导策略来增强视频特征。通过在两种不同语言的优化视频文本数据集上将三种图像 - 文本基础模型进行适配，进行了大量实验验证了 M2-RAAP 在基于适应性预训练方面的鲁棒性和可重现性。结果表明，M2-RAAP 在显著减少数据量（-90%）和时间消耗（-95%）的同时，取得了优越的性能，为四个英文和两个中文零 - shot 检索数据集建立了新的 SOTA。我们正在准备我们的优化双语数据注释和代码库，将在该 URL 上提供。

Abstract

We present a multi-modal recipe for Advancing adaptation-based pre-training towards effective and efficient zero-shot video-text retrieval

multi-modal recipe adaptation-based pre-training zero-shot video-text retrieval data filtering temporal modeling

发现论文，激发创造

基于稀疏相关适配器的高效文本 - 视频检索

使用一种称为 RAP 的稀疏且相关的 AdaPter 模型，通过在少数参数化层上进行预训练模型的微调，以提供高效的文本视频检索。RAP 配备了两个必要特征：时间稀疏性和相关性建模。通过引入低秩调制模块和异步自注意力机制，RAP 能够在四个文本视频检索数据集上表现出优越或可比较的性能。

May, 2024

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

M2-CLIP: 视频动作识别的多模态多任务自适应框架

该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架，通过引入多模态适配器和多任务解码器，实现强大的监督学习性能和在零样本场景中的强大泛化能力。

Jan, 2024

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

TAP: 面向 Text-VQA 和 Text-Caption 的文本感知预训练

本文提出了一种名为 TAP 的方法，通过使用光学字符识别引擎生成的图像文字来预训练模型，从而帮助模型在三种模态 —— 文本单词、视觉对象和场景文本中学习更好的对齐表示，在多个任务上均表现出卓越的性能。

Dec, 2020

RaP：红 undancy-aware 视 deo-language 预 ning 练词为 Text- 视 deo 检索

通过测量视频补丁和文本单元的冗余度，我们提出了一种针对视觉和文本信息之间互模态冗余问题的视频语言预训练方法，并通过冗余感知对比学习获得了显著的结果提升。

Oct, 2022

文本 - 视频检索的跨模态适配器

提出了一种跨模态适配器（Cross-Modal Adapter）方法，对预训练模型进行参数高效微调，可在多模态模型上减少 99.6％的参数、节省 30％的训练时间以及共享预训练模型，在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。

Nov, 2022

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

VLAB: 通过特征调整和混合增强视频语言预训练

本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法，通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型，验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。

May, 2023

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023