该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验,发现对象和属性组成部分在视频理解上发挥更重要的作用,且使用预训练的图像 - 文本表示(如 CLIP)的视频检索模型具有更好的语义和组成理解能力。
Jun, 2023
通过修正误标的负样本,我们评测了三种模型在两个标准测试集上的表现,发现在最佳模型上,修正后的指标提升了 25% 以上。此外我们发现测试集的 recall@10 已经接近饱和,同时我们推荐以样本抽样方式缓解标注数据成本,对未来的 text-to-video retrieval 基准测试提出了建议。
Oct, 2022
该论文提出了一种新型的 Transformer 模型,将文本和视频显式分离,通过注意力机制了解三种角色的内部和内部角色之间的相关性,以在不同级别上寻找识别特征,初步结果表明,在所有的指标中,我们的方法都超过了当前最先进的方 法,在两个指标上也超过了两种最先进的方法。
Jun, 2022
本篇论文主要探讨了多查询视频检索技术,可以有效弥补现有数据集中存在的不完善的注释问题,并提出了多个优化方法,以提高模型的检索能力及泛化性。
Jan, 2022
本研究介绍了我们在 2022 年 EPIC-KITCHENS-100 多实例检索挑战中的方法,首先将句子解析为动词和名词对应的语义角色,然后通过自注意力在多个嵌入空间内的三元损失函数利用语义角色语境化视频特征和文本特征,优于强基线方法的标准化折扣累积增益(nDCG),对于语义相似性更有价值,我们的提交在 nDCG 中排名第三,在 mAP 中排名第四。
本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示,而不需要用户注释,这一技术扩展应用于视频检索中取得了最先进的结果。
Feb, 2021
为了提高视频检索的性能,我们提出了一种名为 ViSERN 的可视化语义增强的推理网络,该网络利用图卷积网络执行随机游走规则来生成涉及语义关系的区域特征,并聚合这些特征以形成帧级特征, 以求衡量视频和文本之间的相似性。
Jun, 2020
本文提出了一种新的弱监督视频瞬间检索框架,包括提议生成和语义完成等组件,并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。
Nov, 2019
本文提出了一种名为部分相关视频检索的新的文本到视频检索子任务,并将其作为多实例学习问题来解决。作者构建了一个多尺度相似性学习网络,以同时学习剪辑尺度和帧尺度下的相似性,并在三个数据集上进行了全面的实验来证明该方法的可行性,还表明该方法可以用于改进视频语料库时刻检索。
Aug, 2022