关于视音频检索中的语义相似度

CVPRMar, 2021

On Semantic Similarity in Video Retrieval

Michael Wray, Hazel Doughty, Dima Damen

TL;DR本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Abstract

Current video retrieval efforts all found their evaluation on an instance-based assumption, that only a single caption is relevant to a query video and vice versa. We demonstrate that this assumption results in performa

video retrieval semantic similarity performance proxies large-scale datasets

发现论文，激发创造

利用现有资源：使用协同信息源提取视频表示

该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式，以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法，采用协作专家模型来聚合信息，具有良好的检索性能。

Jul, 2019

探索视觉检索模型中的组合和语义理解

对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验，发现对象和属性组成部分在视频理解上发挥更重要的作用，且使用预训练的图像 - 文本表示（如 CLIP）的视频检索模型具有更好的语义和组成理解能力。

Jun, 2023

用 FIRE 对抗火灾：评估文本到视频检索基准的有效性

通过修正误标的负样本，我们评测了三种模型在两个标准测试集上的表现，发现在最佳模型上，修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和，同时我们推荐以样本抽样方式缓解标注数据成本，对未来的 text-to-video retrieval 基准测试提出了建议。

Oct, 2022

面向文本到视频检索的语义角色感知相关性变换器

该论文提出了一种新型的 Transformer 模型，将文本和视频显式分离，通过注意力机制了解三种角色的内部和内部角色之间的相关性，以在不同级别上寻找识别特征，初步结果表明，在所有的指标中，我们的方法都超过了当前最先进的方法，在两个指标上也超过了两种最先进的方法。

Jun, 2022

多查询视频检索

本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Jan, 2022

利用语义角色上下文化视频特徵进行多示例文本 - 视频检索 —— EPIC-KITCHENS-100 针对多示例检索挑战赛 2022 年的应用

本研究介绍了我们在 2022 年 EPIC-KITCHENS-100 多实例检索挑战中的方法，首先将句子解析为动词和名词对应的语义角色，然后通过自注意力在多个嵌入空间内的三元损失函数利用语义角色语境化视频特征和文本特征，优于强基线方法的标准化折扣累积增益（nDCG），对于语义相似性更有价值，我们的提交在 nDCG 中排名第三，在 mAP 中排名第四。

Jun, 2022

使用 CLIP 的视频检索简明框架

本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Feb, 2021

利用视觉语义推理进行视频 - 文本检索

为了提高视频检索的性能，我们提出了一种名为 ViSERN 的可视化语义增强的推理网络，该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征，并聚合这些特征以形成帧级特征，以求衡量视频和文本之间的相似性。

Jun, 2020

基于语义补全网络的弱监督视频时刻检索

本文提出了一种新的弱监督视频瞬间检索框架，包括提议生成和语义完成等组件，并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。

Nov, 2019

部分相关性视频检索

本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务，并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络，以同时学习剪辑尺度和帧尺度下的相似性，并在三个数据集上进行了全面的实验来证明该方法的可行性，还表明该方法可以用于改进视频语料库时刻检索。

Aug, 2022