一种特征空间多模态数据增强技术用于文本 - 视频检索
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。
Oct, 2022
本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的 softmax 运算来修正推断的查询 - 视频相似性,并在三个大规模数据集上进行实验验证,以记录所提出网络的表现。
Nov, 2022
该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中,从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题,并创建了一个大规模音频 - 视频字幕数据集,使得使用这个数据集能够训练出性能优异的多模态转换模型,并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能,并且能够实现文本 - 音频预训练,并在音频检索任务中达到最先进的结果。
Apr, 2022
本文提出了一种基于提示的增量视频摘要方法,采用少样本的方式提取语义概念并结合聚类和查询技术提高摘要生成效率,并通过实验证明使用视频中相关实体和动作作为提示能够增强模型生成的摘要。
Mar, 2023
HaVTR 提出了一种新颖的视频 - 文本学习范式,通过数据增强和引入生成模型生成更加丰富的数据,提高视频 - 文本检索模型的表示学习能力,在多个检索基准测试中展现了优越性。
Apr, 2024
该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
本文提出了一种基于语义相似性的视频检索方法,它允许多个视频和标题被视为同等相关,并且排名的顺序不影响检索性能比较,同时,它还提出了多种估计语义相似性的方法,以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。
Mar, 2021
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。
Sep, 2020