文本-视频检索的跨模态适配器

Nov, 2022

Cross-Modal Adapter for Text-Video Retrieval

Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni...

TL;DR提出了一种跨模态适配器（Cross-Modal Adapter）方法，对预训练模型进行参数高效微调，可在多模态模型上减少99.6％的参数、节省30％的训练时间以及共享预训练模型，在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。

Abstract

text-video retrieval is an important multi-modal learning task, where the goal is to retrieve the most relevant video for a given text query. Recently, pre-trained models, e.g., CLIP, show great potential on this

发现论文，激发创造

视频检索的多模态Transformer

本文提出了一种基于多模态transformer架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态transformer的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

视频片段检索的逐帧跨模态匹配

本文提出了一种基于交互建模的专注跨模态相关性匹配（ACRM）模型，用于预测时间边界，并通过内部帧进行模型训练以提高定位精度，通过在TACoS和Charades-STA数据集上进行的实验表明，ACRM模型优于几种最先进的方法。

Sep, 2020

快速检索、智能重新排名：协作和联合方法改进跨模态检索

本文提出了一种基于 fine-tuning 的框架，将任何预先训练的文本-图像多模态模型转换为高效的检索模型，并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器，实现更准确、更高效的跨模态检索。

Mar, 2021

HiT：层次化动量对比视频-文本检索的Transformer模型

提出了一种新的名为Hierarchical Transformer (HiT)的方法，其中包括Hierarchical Cross-modal Contrastive Matching和Momentum Cross-modal Contrast的元素，以解决现有交叉模式Transformer方法存在的局限性，并在三个主要的Video-Text检索基准数据集上实现了优越的实验结果。

Mar, 2021

跨模态视频文字检索的记忆增强嵌入学习

本研究提出了一种新颖的记忆增强嵌入学习（MEEL）方法，构建了两种记忆模块，交叉模态记忆模块和文本中心记忆模块，用于跨模态视频文本检索任务，解决了局部负样本和文本描述多样性的问题。在MSR-VTT和VATEX两个基准数据集上进行的实验表明，该方法具有很高的有效性。

Mar, 2021

视觉语言预训练模型在监督跨模态检索中的全面经验研究

本文使用最新的视觉-语言预训练模型CLIP，设计了一种名为CLIP4CMR的改进型跨模态检索框架，通过实验研究不同学习目标的设计问题、在解决多模态类别级联表示问题方面的应用、及其对实际应用的影响和灵敏度等关注方面的分析，对监督型跨模态检索进行了全面的实证研究，以期提供对模型设计和实际应用的意见和新视角。

Jan, 2022

跨模态图像-文本检索基准的重新思考

本文针对图文检索中的细粒度语义匹配问题，以MSCOCO-Test-5K和Flickr30K-Test-1K数据集不足的情况为背景，提出了将其重建为MSCOCO-FG和Flickr30K-FG等数据集的方法，并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。

Apr, 2023

一个带有阅读理解的大型跨模态视频检索数据集

提出了一种新的跨模态视频检索数据集TextVR，它包含了八个场景领域的10.5k个视频和42.2k个查询语句，并介绍了一种统一的跨模态模型，有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。

May, 2023

Prompt Switch: 高效的CLIP适应文本-视频检索

该研究论文介绍了一种在文本-视频检索中学习视频语义表示的方法，通过将一个空间-时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD和LSMDC）的最先进性能。

Aug, 2023

跨模态协调：在多元输入模态中的协同

提出两种不同的方法来解决跨模态检索的问题，一种基于CLIP对任意数量的输入模式进行扩展，而第二种方法通过回归跨模态相似性来解决协调问题，并在多个数据集上进行实验证明其简单有效，并允许以新的方式解决检索问题。

Jan, 2024