利用多项选择题桥接视频文本检索

CVPRJan, 2022

利用多项选择题桥接视频文本检索

Bridging Video-text Retrieval with Multiple Choice Questions

Yuying Ge, Yixiao Ge, Xihui Liu, Dian Li, Ying Shan...

TL;DR该研究提出了一种新的预训练方法，利用多项选择问题建立视频和文本之间的语义联系以实现更高效的检索，其结果在不同实验设置下如零成本和微调等多种数据集上均优于现有方法。

Abstract

Pre-training a model to learn transferable video-text representation for retrieval has attracted a lot of attention in recent years. Previous dominant works mainly adopt two separate encoders for efficient retrieval

transferable video-text representation multiple choice questions semantic associations efficient retrieval bridgeformer

发现论文，激发创造

用于多通道视频 - 语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

迭代视频 - 文本共同标记的视频问答

本文提出了一种新型的多流视频编码器，使用多个视频输入和新的视频文本迭代共同标记方法来回答与视频相关的各种问题，同时将所需的 GFLOPs 从 150-360 减少到只有 67，实现了高效的视频问答模型，并在 MSRVTT-QA，MSVD-QA，IVQA 等多个数据集上实验评估，优于以往的最先进技术。

Aug, 2022

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

视频银行：融合和解耦增强跨模态生成

该研究提出了一种名为 Video-Teller 的视频语言基础模型，通过多模态融合和细粒度模态对齐来显著增强视频到文本生成任务。实验结果表明，该模型在准确理解视频和生成连贯且精确的语言描述方面取得了显著效果。

Oct, 2023

文本自适应的多视觉原型匹配用于视频检索

本文提出了一种文本自适应多视觉原型匹配模型，通过自适应聚合视频标记特征来描述视频，以解决视频和文本之间的关联模糊问题，而且此方法表现优于当前公共视频检索数据集上的最新技术。

Sep, 2022

凝固的时间：一种用于端到端检索的联合视频和图像编码器

本研究目标是视频文本检索 - 特别是一种联合嵌入，可以实现高效的文本到视频检索。作者们提出了一种端到端可训练的模型，旨在利用大规模的图像和视频字幕数据集。该模型是近期 ViT 和 Timesformer 框架的改进扩展，包括时间和空间方面的注意力机制。通过训练 WebVid-2M 数据集，作者们表明这种方法在标准下游的视频检索基准测试中取得了最先进的结果。

Apr, 2021