标签对齐前的多模式标签集成视频文本检索

Jan, 2023

标签对齐前的多模式标签集成视频文本检索

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval

Yizhen Chen, Jie Wang, Lijian Lin, Zhongang Qi, Jin Ma...

TL;DR本文提出了一种用于视频-文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE模型在MSR-VTT、MSVD、LSMDC和DiDeMo等多个视频-文本检索基准中表现出了最先进的性能。

Abstract

vision-language alignment learning for video-text retrieval arouses a lot of attention in recent years. Most of the existing methods either transfer the knowledge of image-text pretraining model to →

发现论文，激发创造

使用Transformer编码器进行跨模态检索的细粒度视觉文本对齐

通过词区匹配实现图像-句子匹配, 本文提出了一种名为TERAN的新方法，在图像和句子的不同组件之间执行精细匹配，从而实现了跨模式检索，并在MS-COCO和Flickr30k数据集上获得了最先进的结果。

Aug, 2020

T2VLAD：文本-视频检索的全局-局部序列对齐

本文主要设计了一种高效的全局-局部对齐方法，在共享的语义中心集合中，自适应地汇聚多模式视频序列和文本特征，并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性，从而实现了细致的局部比较，同时降低了交互成本。此外，还提出了一种全局对齐方法，并在三个标准的文本-视频检索基准测试中取得了一致的改进和领先的效果。

Apr, 2021

HANet: 视频文本检索的分层对齐网络

本文提出了一种Hierarchical Alignment Network框架，通过把视频和文本分解成三个层次，即事件-动作-实体水平，并在个体-局部-全局层次上构建层次表示，捕捉视频和文本之间的从精细到粗略的对应关系，从而最大化利用三个语义层次的互补信息，以实现视频文本检索和匹配任务的高效和精度。实验结果表明，所提出的框架在两个公共数据集上优于其他最先进的方法，证明了层次表示和匹配的有效性。

Jul, 2021

结构化的多模态特征嵌入和对齐——面向图像-句子检索

本文提出了一种新的结构化多模式特征嵌入与对齐模型（SMFEA）来增强图像-句子检索，通过构建视觉和文本片段之间的内在结构和外在交叉模态结构和语义对应关系，使用共享的上下文感知式引用树的新型多模式结构模块联合并显性地学习视觉-文本嵌入和跨模态对齐，将各自模态的片段处理为结构化树编码，通过最大化相应跨模态树节点之间的语义和结构相似性来首次实现了对齐方法的交叉模态结构和语义对应关系.

Aug, 2021

通过多流语料库对齐和双 Softmax 损失来改进视频文本检索

本文提出一种基于多流语料库对齐网络和双softmax损失函数的方法（CAMoE和DSL），以解决CLIP模型在视频和文本结构和内容异构性方面过拟合和检索效率相对较差的问题，并在各种基准测试中取得了最先进的成果。

Sep, 2021

使用实体提示进行语言及视频预训练

本文提出了一种高效且有效的视频和语言预训练框架——Align and Prompt，通过提出视频-文本对比（VTC）损失和提示实体建模（PEM）任务来更好地跨模态对齐，从而学习精细的区域-实体对齐，与以前的方法相比取得了显着性能提升。

Dec, 2021

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像-文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过VQA、NLVR2、Visual Entailment、RefCOCO+等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

迈向平衡对齐：视频时刻检索的模态增强语义建模

通过提升视频模态和文本模态的特征，Modal-Enhanced Semantic Modeling（MESM）框架在视频短片检索中实现了更平衡的对齐，填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。

Dec, 2023

全局-局部语义一致学习的文本-视频检索

通过提出 Global-Local 语义一致性学习方法，该研究利用文本-视频预训练模型，实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐，并引入一致性损失和多样性损失，达到概念对齐和生成更有区分性的概念的目的。实验结果表明，该方法在多个基准测试中具有优越的性能和高效率。

May, 2024

TOPA: 通过文本预对齐扩展大型语言模型用于视频理解

该论文介绍了一种名为TOPA的新方法，通过使用现有的大型语言模型（LLM）自动生成模拟真实视频-文本数据的连续文本帧，进而预对齐一种仅使用语言的LLM与视频模态之间的差距，并利用CLIP模型作为特征提取器来对齐图像和文本模态，从而实现了视频内容与LLMs的对齐。经过广泛实验证明，TOPA是一种有效而高效的框架，可与视频理解任务相结合，并达到与GPT-3.5基于视频代理相当的性能。

May, 2024