文本是 MASS: 用于文本 - 视频检索的随机嵌入建模
本文提出了一种文本自适应多视觉原型匹配模型,通过自适应聚合视频标记特征来描述视频,以解决视频和文本之间的关联模糊问题,而且此方法表现优于当前公共视频检索数据集上的最新技术。
Sep, 2022
本文探讨了多模态序列数据的建模技术,提出了一种通用模型,即基于层次结构的序列嵌入模型 (HSE),该模型将不同模态的序列数据嵌入层次语义空间中,取得了超越现有方法的结果,并在零样本动作识别和视频字幕自动生成等下游任务中取得了更好的效果。
Oct, 2018
我们提出了一种基于分块匹配的文本 - 视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024
该研究提出了一种 Mixture-of-Embedding-Experts 模型,可以利用来自图像和视频数据集的数据源同时改进文本视频嵌入,解决了训练中缺失输入因素的难题,并在视频检索任务中表现出显著的改进和优越性能。
Apr, 2018
提出了一种名为 X-Pool 的跨模态注意力模型,用于在文本和视频之间进行推理,从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制,允许文本关注其最语义相似的帧,并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSVD 和 LSMDC 三个基准数据集上进行评估,实现了相对提高 Recall@1 高达 12% 的新的最佳效果。
Mar, 2022
论文提出一种新的方法,使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入,并通过建模嵌入的积极感知提出新的三元损失函数,以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率,实验结果表明,该方法的表现优于现有方法,并且对于现实世界的文本到视觉检索也十分有效。
May, 2019
本研究提出了一种新颖的记忆增强嵌入学习(MEEL)方法,构建了两种记忆模块,交叉模态记忆模块和文本中心记忆模块,用于跨模态视频文本检索任务,解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实验表明,该方法具有很高的有效性。
Mar, 2021
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018
本文提出了一种无监督建模方法,通过引入新的相似度度量和矩阵嵌入的优化问题,可以更加灵活地表示文本嵌入,并在文档分类、文档聚类和语义文本相似性基准测试等方面得到改进的结果。
Nov, 2022
通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024