该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。
Oct, 2022
本文提出了一种基于语义相似性的视频检索方法,它允许多个视频和标题被视为同等相关,并且排名的顺序不影响检索性能比较,同时,它还提出了多种估计语义相似性的方法,以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。
Mar, 2021
本文提出了一种文本自适应多视觉原型匹配模型,通过自适应聚合视频标记特征来描述视频,以解决视频和文本之间的关联模糊问题,而且此方法表现优于当前公共视频检索数据集上的最新技术。
Sep, 2022
本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题,并使用基于文本引导的注意力机制学习视频中的相关片段,该方法在两个基准数据集上获得了与监督式学习方法相当的性能。
Apr, 2019
我们提出了一种基于分块匹配的文本 - 视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024
本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力,指出了目前数据集存在的偏差。作者同时提出了新的实验方法,以便更好地可视化结果,并在最后展望了未来的研究方向与改进。
Sep, 2020
本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示,而不需要用户注释,这一技术扩展应用于视频检索中取得了最先进的结果。
Feb, 2021
本研究介绍了一种基于交互对话的视频检索系统,能够帮助用户在包含许多类似的视频中快速准确地找到目标视频,并通过 AVSD 数据集的实验证明了系统的有效性。
May, 2019
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020