文本自适应的多视觉原型匹配用于视频检索

NIPSSep, 2022

文本自适应的多视觉原型匹配用于视频检索

Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval

Chengzhi Lin, Ancong Wu, Junwei Liang, Jun Zhang, Wenhang Ge...

TL;DR本文提出了一种文本自适应多视觉原型匹配模型，通过自适应聚合视频标记特征来描述视频，以解决视频和文本之间的关联模糊问题，而且此方法表现优于当前公共视频检索数据集上的最新技术。

Abstract

cross-modal retrieval between videos and texts has gained increasing research interest due to the rapid emergence of videos on the web. Generally, a video contains rich instance and event information and the query text only describes a part of the information. Thus, a video can corresp

cross-modal retrieval video-text correspondence ambiguity visual prototype matching variance loss video retrieval datasets

发现论文，激发创造

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本 - 视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024

多查询视频检索

本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Jan, 2022

T2VLAD：文本 - 视频检索的全局 - 局部序列对齐

本文主要设计了一种高效的全局 - 局部对齐方法，在共享的语义中心集合中，自适应地汇聚多模式视频序列和文本特征，并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性，从而实现了细致的局部比较，同时降低了交互成本。此外，还提出了一种全局对齐方法，并在三个标准的文本 - 视频检索基准测试中取得了一致的改进和领先的效果。

Apr, 2021

用于多通道视频 - 语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

多事件视频文本检索

本研究介绍了多事件视频 - 文本检索（MeVTR）任务，旨在解决视频内容通常包含多个事件，而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever，它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明，这个简单的框架在视频到文本和文本到视频任务中胜过其他模型，为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。

Aug, 2023

所有组合都相等吗？使用多空间学习将文本和视觉特征结合以进行基于文本的视频检索

本文旨在解决跨模态视频检索问题，具体聚焦于文本到视频的检索，并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构，引入额外的 softmax 运算来修正推断的查询 - 视频相似性，并在三个大规模数据集上进行实验验证，以记录所提出网络的表现。

Nov, 2022

跨模态视频文字检索的记忆增强嵌入学习

本研究提出了一种新颖的记忆增强嵌入学习（MEEL）方法，构建了两种记忆模块，交叉模态记忆模块和文本中心记忆模块，用于跨模态视频文本检索任务，解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实验表明，该方法具有很高的有效性。

Mar, 2021

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

多层次语言和视觉融合的文本到视频检索

本文提出了一种多层级的模型，早期并更紧密地集成了视觉和语言特性，用于解决从未剪辑的视频中基于文本的活动检索问题，其中包括注入文本特性以加速处理和提高性能，以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量，同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。

Apr, 2018

VicTR: 视频条件的文本表示用于活动识别

本文提出了使用 VicTR 方法对视频文本模型进行优化，在视觉信息外，加入文本信息，以提高活动识别性能，实验结果证明在多个基准测试中，该方法具有竞争性能，特别是在视频文本模型的监督、零样本和少样本情况下。

Apr, 2023