复杂查询视频检索的树增强交叉模态编码
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
本文提出了一种基于多模态transformer架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态transformer的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
Sep, 2020
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本-图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
本研究提出了一种新颖的记忆增强嵌入学习(MEEL)方法,构建了两种记忆模块,交叉模态记忆模块和文本中心记忆模块,用于跨模态视频文本检索任务,解决了局部负样本和文本描述多样性的问题。在MSR-VTT和VATEX两个基准数据集上进行的实验表明,该方法具有很高的有效性。
Mar, 2021
本研究提出了用于跨视图视频检索的混合对比量化(HCQ)方法,该方法通过引入transformers来学习粗粒度和细粒度量化,并在跨视图的多个细粒度层次上进行不对称量化对比学习(AQ-CL)以对齐文本和视频。 HCQ方法在存储和计算方面表现出高效率,并展示了与最先进的非压缩检索方法相当的性能。
Feb, 2022
提出了一种名为 X-Pool 的跨模态注意力模型,用于在文本和视频之间进行推理,从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制,允许文本关注其最语义相似的帧,并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估,实现了相对提高 Recall@1 高达 12% 的新的最佳效果。
Mar, 2022
通过提出 Global-Local 语义一致性学习方法,该研究利用文本-视频预训练模型,实现在文本-视频检索中的高效性和效果提升。通过全局和局部交互模块实现粗粒度和细粒度的语义对齐,并引入一致性损失和多样性损失,达到概念对齐和生成更有区分性的概念的目的。实验结果表明,该方法在多个基准测试中具有优越的性能和高效率。
May, 2024