RaP：红 undancy-aware 视 deo-language 预 ning 练词为 Text- 视 deo 检索

EMNLPOct, 2022

RaP：红 undancy-aware 视 deo-language 预 ning 练词为 Text- 视 deo 检索

RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval

Xing Wu, Chaochen Gao, Zijia Lin, Zhongyuan Wang, Jizhong Han...

TL;DR通过测量视频补丁和文本单元的冗余度，我们提出了一种针对视觉和文本信息之间互模态冗余问题的视频语言预训练方法，并通过冗余感知对比学习获得了显著的结果提升。

Abstract

video language pre-training methods have mainly adopted sparse sampling techniques to alleviate the temporal redundancy of videos. Though effective, →

video language pre-training sparse sampling visual redundancy textual redundancy redundancy-aware contrastive learning

发现论文，激发创造

用于高效视频文本检索的掩码对比预训练

本文提出了一种简单而有效的视频 - 语言预训练框架，用于视频 - 文本检索任务，并采用掩蔽对比视频 - 语言预训练进行了优化，以提高预训练效率和性能，并实现了与图像 - 文本检索任务的竞争结果。

Dec, 2022

基于稀疏相关适配器的高效文本 - 视频检索

使用一种称为 RAP 的稀疏且相关的 AdaPter 模型，通过在少数参数化层上进行预训练模型的微调，以提供高效的文本视频检索。RAP 配备了两个必要特征：时间稀疏性和相关性建模。通过引入低秩调制模块和异步自注意力机制，RAP 能够在四个文本视频检索数据集上表现出优越或可比较的性能。

May, 2024

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

用于多通道视频 - 语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

跨模态通用蒸馏方法用于文本 - 视频检索

这篇论文探索了利用大规模预训练的多个文本编码器设计的算法，提出了一种新颖的综合蒸馏方法 TeachText，并将其拓展应用到视频检索上，在多个视频检索基准上超过了现有技术，而且在测试时不会增加计算负荷。

Apr, 2021

通向可泛化的视频片段检索：通过将视觉动态注入到图像 - 文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法 Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频 - 文本对齐，该方法在现有 VMR 方法的基础上取得了显著的进展。

Feb, 2023

视频问答的冗余感知 Transformer

这篇论文介绍了当前 VideoQA 中存在的两种冗余问题，并提出了一种新的基于 Transformer 的体系结构来解决这些问题，通过模拟 VideoQA 的冗余特点，该模型在多个 VideoQA 基准上取得了最先进的结果。

Aug, 2023

多模态不确定性感知视觉 - 语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022

跨媒体语言 - 视频注意力 X-Pool 在文本 - 视频检索中的应用

提出了一种名为 X-Pool 的跨模态注意力模型，用于在文本和视频之间进行推理，从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制，允许文本关注其最语义相似的帧，并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估，实现了相对提高 Recall@1 高达 12% 的新的最佳效果。

Mar, 2022