Word2VisualVec: 利用视觉特征预测图像和视频对句子的匹配
本文介绍了一种利用神经网络模型Text2Vis在视觉特征空间中实现基于短文本描述信息的图像搜索方法,并通过针对文本和视觉损失函数的优化来提高搜索效率和精确度,并在MS-COCO数据集上进行了初步结果呈现。
Jun, 2016
本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型,通过多尺度句向量化和多层感知器等方法,将文本输入转化为视觉特征表示,实现了优于文本嵌入的多模态检索效果。
Sep, 2017
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉-文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在Flickr 30k和MSCOCO上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在MSCOCO数据集上实现了最先进的跨模态检索结果。
Nov, 2017
文章提出了利用网络图像及对应标签实现鲁棒视觉-语义联合嵌入学习的方法,通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像-文本检索性能提升。
Aug, 2018
文章提出了一种针对图像-文本匹配问题的解决方法,利用一种双通路递归神经网络(DP-RNN)处理对称的输入,通过提取对象顺序信息、对象关系、同时引入自注意力和跨模态联合注意力实现了图片和文本的相似度匹配,实验验证提出的方法在Flickr30K数据集上达到了最先进的性能表现,MS-COCO数据集也表现具有竞争力。
Feb, 2020
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
Sep, 2020
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本-图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。
Mar, 2021
本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的softmax运算来修正推断的查询-视频相似性,并在三个大规模数据集上进行实验验证,以记录所提出网络的表现。
Nov, 2022