Jan, 2024

M2-RAAP:一种多模式方法以推进基于适应性预训练的零 - shot 视频文本检索的有效与高效性

TL;DR我们提出了一种名为 M2-RAAP 的多模态配方,用于推进基于适应性预训练的零 - shot 视频文本检索,具有有效和高效的特点。通过对视频文本预训练中的四个关键步骤进行全面研究,我们总结了这项实证研究成果,其中我们的技术贡献包括数据过滤和文本重写流水线、将视频输入改为关键帧以加速预训练、以及辅助字幕引导策略来增强视频特征。通过在两种不同语言的优化视频文本数据集上将三种图像 - 文本基础模型进行适配,进行了大量实验验证了 M2-RAAP 在基于适应性预训练方面的鲁棒性和可重现性。结果表明,M2-RAAP 在显著减少数据量(-90%)和时间消耗(-95%)的同时,取得了优越的性能,为四个英文和两个中文零 - shot 检索数据集建立了新的 SOTA。我们正在准备我们的优化双语数据注释和代码库,将在该 URL 上提供。