用 FIRE 对抗火灾：评估文本到视频检索基准的有效性

ACLOct, 2022

用 FIRE 对抗火灾：评估文本到视频检索基准的有效性

Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks

Pedro Rodriguez, Mahmoud Azab, Becka Silvert, Renato Sanchez, Linzy Labson...

TL;DR通过修正误标的负样本，我们评测了三种模型在两个标准测试集上的表现，发现在最佳模型上，修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和，同时我们推荐以样本抽样方式缓解标注数据成本，对未来的 text-to-video retrieval 基准测试提出了建议。

Abstract

Searching troves of videos with textual descriptions is a core multimodal retrieval task. Owing to the lack of a purpose-built dataset for text-to-video retrieval, video captioning datasets have been re-purposed to evaluate models by (1) treating captions as positive matches to their respective videos and (2) assuming all other videos to be negatives. Howeve

text-to-video retrieval caption-video pairs benchmark evaluation model performance annotated dataset

发现论文，激发创造

一段视频胜过万言：利用多样化字幕进行更好的长视频检索的训练和基准测试

通过对长视频生成多样的合成标题，使用大型语言模型评估长视频检索系统的能力，并提出轻量级微调方法（基于对不同标题中信息层级的差异进行对比损失学习），在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。

Nov, 2023

关于视音频检索中的语义相似度

本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Mar, 2021

Cap4Video: 文本 - 视频检索中辅助字幕的作用

本文提出了一种基于 zero-shot video captioning 和 cross-modal feature interaction 的 text-video retrieval 方法，即 Cap4Video，该方法通过增强视频表示和 Input data、Intermediate feature interaction、Output score 三种方式来利用生成的与视频关联的字幕进行 text-video retrieval。经验证，该方法在 MSR-VTT、VATEX、MSVD 和 DiDeMo 四个标准数据集上的表现达到了 state-of-the-art 水平。

Dec, 2022

学习从图像描述到视频检索

我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练，在这种协议下，我们不假设对任何视频有标签的访问，即没有对应用真实字幕的视频集的访问权限；但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景，因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近，零样本学习的图像专家，如 CLIP 已经为视频理解任务建立了强大的基准线。在本文中，我们利用这一进展，实例化两种类型的图像专家模型：文本到图像检索模型用于提供初始骨架，以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧，可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征，进而在文本到视频检索任务中胜过强大的零样本学习基准线 CLIP。在训练过程中，我们从多个最佳匹配视觉内容的视频帧中采样字幕，并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解，并通过在三个标准数据集（ActivityNet、MSR-VTT 和 MSVD）上胜过 CLIP 的零样本学习基准线来证明这个简单框架的有效性。

Apr, 2024

多查询视频检索

本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Jan, 2022

衡量文本 - 视频模型输出的质量：指标和数据集

我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Sep, 2023

走向更好的文本到视频生成度量

本文研究现有评估指标的局限性，并引入一种新的评估方法，即 Text-to-Video Score (T2VScore)，该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时，我们提出了 TVGE 数据集，以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性，能够提供更好的评估指标。

Jan, 2024

使用 CLIP 的视频检索简明框架

本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Feb, 2021

部分相关性视频检索

本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务，并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络，以同时学习剪辑尺度和帧尺度下的相似性，并在三个数据集上进行了全面的实验来证明该方法的可行性，还表明该方法可以用于改进视频语料库时刻检索。

Aug, 2022

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022