学习用于图像文本匹配任务的双分支神经网络
提出使用双分支神经网络进行联合嵌入图像和文本的方法,包含多层线性投影和非线性激活函数,通过结合度量学习和交叉视图约束优化进行训练,实验结果表明该方法在图像 - 文本检索和短语定位任务上具有显著性能改进。
Nov, 2015
本论文提出了多模态卷积神经网络 (m-CNNs),用于匹配图像和句子。该网络结构采用卷积架构来利用图像表示、单词组合和两种模态之间的匹配关系。实验结果表明,我们的 m-CNNs 可以有效地捕捉图像和句子匹配所需的信息,并在 Flickr30K 和 Microsoft COCO 数据库的双向图像和句子检索上取得了最先进的性能。
Apr, 2015
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉 - 文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
本文提出了一种基于图像的短语 grounding 方法,基于一个端到端模型的多重条件嵌入来实现。为了将文本短语划分为语义上的不同子空间,我们提出了一个概念权重分支,可以自动将短语分配到嵌入,而不是像传统方法一样预先定义这些分配。我们的方法简化了个体嵌入的表征需求,并允许未被充分表示的概念在输入到概念特定层之前充分利用共享表示。在三个短语 grounding 数据集上的综合实验验证了我们方法的有效性,从而获得了强大的区域 - 短语嵌入基线 4%,3%和 4% 的性能改进。
Nov, 2017
图像 - 文本匹配仍然是一项具有挑战性的任务,由于模态之间异构的语义多样性和三元组内不足的距离可分性。与之前的方法不同,我们旨在通过增强聚类方法中的知识转移来寻求更强大的匹配模型。具体地说,我们提出了一种全新的深度增强学习(DBL)算法,其中锚点分支首先被训练以提供对数据属性的洞察,而目标分支获取更先进的知识以开发出最佳特征和距离度量。通过实验证实,我们的 DBL 能够在图像 - 文本匹配领域的各种最新先进模型的基础上取得令人印象深刻且一致的改进,并且优于相关的普遍合作策略,例如常规蒸馏、互联学习和对应学习。此外,我们证实 DBL 可以无缝集成到它们的训练场景中,并在相同的计算成本下实现卓越性能,从而展示了我们提出的方法的灵活性和广泛适用性。我们的代码可以在此 https URL 上公开获取。
Apr, 2024
本研究提出了一种新的两条路径的神经网络,其中视觉路径采用了最新的空间感知池化机制模型,结合从头开始训练的文本路径,实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后,该模型可提供新的跨模态检索性能和短语的视觉定位,达到了最新的最佳表现。
Apr, 2018
本文分析了几种神经网络设计(及其变体),对八个数据集进行了广泛的比较,包括释义识别、语义文本相似性、自然语言推断和问题回答等任务。我们提供了一个系统的研究,表明编码上下文信息的 LSTM 和句间交互至关重要,而 Tree-LSTM 并不能像先前宣传的那样有所帮助,但却出人意料地提高了 Twitter 数据集的性能;增强顺序推理模型是迄今为止较大数据集的最佳选择,而基于词对交互的模型在较少数据可用时实现最佳性能。我们将我们的实现作为开源工具包发布。
Jun, 2018