多查询视频检索

ECCVJan, 2022

Multi-Query Video Retrieval

Zeyu Wang, Yu Wu, Karthik Narasimhan, Olga Russakovsky

TL;DR本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Abstract

Retrieving target videos based on text descriptions is a task of great practical value and has received increasing attention over the past few years. Despite recent progress, imperfect annotations in existing video retr

video retrieval multi-query retrieval imperfect annotations model evaluation training

发现论文，激发创造

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

利用用户评论提升视频文字检索

本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Oct, 2022

关于视音频检索中的语义相似度

本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Mar, 2021

文本自适应的多视觉原型匹配用于视频检索

本文提出了一种文本自适应多视觉原型匹配模型，通过自适应聚合视频标记特征来描述视频，以解决视频和文本之间的关联模糊问题，而且此方法表现优于当前公共视频检索数据集上的最新技术。

Sep, 2022

从文本查询中弱监督的视频片段检索

本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题，并使用基于文本引导的注意力机制学习视频中的相关片段，该方法在两个基准数据集上获得了与监督式学习方法相当的性能。

Apr, 2019

多模式超图网络的文本视频检索

我们提出了一种基于分块匹配的文本 - 视频检索方法，通过构建多模态超图和引入变分推断，实现在高阶语义空间中对文本和视频的复杂多元交互进行建模，进而提高检索性能。

Jan, 2024

基于查询的视频时刻检索中的隐含挑战揭示

本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力，指出了目前数据集存在的偏差。作者同时提出了新的实验方法，以便更好地可视化结果，并在最后展望了未来的研究方向与改进。

Sep, 2020

使用 CLIP 的视频检索简明框架

本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Feb, 2021

交互式视频检索与对话

本研究介绍了一种基于交互对话的视频检索系统，能够帮助用户在包含许多类似的视频中快速准确地找到目标视频，并通过 AVSD 数据集的实验证明了系统的有效性。

May, 2019

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020