HaVTR：利用大型基础模型改进视频 - 文本检索的方法

Apr, 2024

HaVTR：利用大型基础模型改进视频 - 文本检索的方法

HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models

Yimu Wang, Shuai Yuan, Xiangru Jian, Wei Pang, Mushi Wang...

TL;DRHaVTR 提出了一种新颖的视频 - 文本学习范式，通过数据增强和引入生成模型生成更加丰富的数据，提高视频 - 文本检索模型的表示学习能力，在多个检索基准测试中展现了优越性。

Abstract

While recent progress in video-text retrieval has been driven by the exploration of powerful model architectures and training strategies, the representation learning ability of →

video-text retrieval representation learning augmentation method language models visual generative models

发现论文，激发创造

利用显式高层语义提升视频文本检索

本文提出了一种名为 HiSE 的视觉语言对齐模型，通过明确的高层语义信息来提高跨模态表示，结合图形推理技术来促进全局和离散高级语义之间的交互，通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明，我们的方法在 VTR 上实现了优于现有方法的性能表现。

Aug, 2022

VicTR: 视频条件的文本表示用于活动识别

本文提出了使用 VicTR 方法对视频文本模型进行优化，在视觉信息外，加入文本信息，以提高活动识别性能，实验结果证明在多个基准测试中，该方法具有竞争性能，特别是在视频文本模型的监督、零样本和少样本情况下。

Apr, 2023

多事件视频文本检索

本研究介绍了多事件视频 - 文本检索（MeVTR）任务，旨在解决视频内容通常包含多个事件，而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever，它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明，这个简单的框架在视频到文本和文本到视频任务中胜过其他模型，为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。

Aug, 2023

一种特征空间多模态数据增强技术用于文本 - 视频检索

本文介绍了利用文本 - 视频检索方法，并结合数据增强技术及多模态数据的方法，对大规模公共数据集 EPIC-Kitchens-100 的测试性能进行提升，灵敏的处理方式能以自然语言查询进行相关视频的查找。

Aug, 2022

通向可泛化的视频片段检索：通过将视觉动态注入到图像 - 文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法 Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频 - 文本对齐，该方法在现有 VMR 方法的基础上取得了显著的进展。

Feb, 2023

半参数视频文本生成

通过对数据存储库中的视频采用非参数帧检索器进行预处理，将其与查询一起进行聚合，从而有效地表示长时间未修剪的视频的可扩展视频 - 语言建模新视角。在四个视频 - 语言数据集上达到了新的技术水平。

Jan, 2023

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互，取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果

Nov, 2021

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本 - 视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024