在汉堡中查找豆子：利用深度语义视觉嵌入实现定位

CVPRApr, 2018

在汉堡中查找豆子：利用深度语义视觉嵌入实现定位

Finding beans in burgers: Deep semantic-visual embedding with localization

Martin Engilberge, Louis Chevallier, Patrick Pérez, Matthieu Cord

TL;DR本研究提出了一种新的两条路径的神经网络，其中视觉路径采用了最新的空间感知池化机制模型，结合从头开始训练的文本路径，实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后，该模型可提供新的跨模态检索性能和短语的视觉定位，达到了最新的最佳表现。

Abstract

Several works have proposed to learn a two-path neural network that maps images and texts, respectively, to a same shared Euclidean space where geometry captures useful semantic relationships. Such a multi-modal embeddi

two-path neural network multi-modal embedding image captioning space-aware pooling mechanisms visual grounding

发现论文，激发创造

基于语义感知的注意力神经嵌入在基于图像的视觉定位中的应用

提出了一种新的，综合了外观和语义信息的 2D VL 定位方法，该方法使用多模态线索生成稳健的嵌入向量，其中利用了场景的语义布局的不变性，并提出了一个基于深度学习的注重注意力的框架来指导嵌入向量生成的过程，在三个具有挑战性的本地化数据集上测试，平均绝对提高了 19％，并且通过对模型各个组件进行广泛研究，证明了语义信息和注意模块的贡献。

Dec, 2018

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

学习深度结构保持的图像文本嵌入

提出使用双分支神经网络进行联合嵌入图像和文本的方法，包含多层线性投影和非线性激活函数，通过结合度量学习和交叉视图约束优化进行训练，实验结果表明该方法在图像 - 文本检索和短语定位任务上具有显著性能改进。

Nov, 2015

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

多层级多模态共享语义空间用于图像 - 短语对齐

本文提出了一种基于学习多级共享文本和视觉模态的通用语义空间的方法，通过深度卷积神经网络的多级特征映射和基于字符的语言模型的词和句子嵌入来提取多个通用语义空间，在其中进行图像和文本之间的相关性计算，通过多级多模态注意力机制来指导模型，实现了在图像语句配对的协同注意力下的短语本地化，相比先前最先进的方法性能提升了 20%-60%，并在公共基准数据集上有了新的性能纪录。

Nov, 2018

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

本文提出了一种跨模态检索模型，采用视觉和文本数据对餐品及其食谱进行建模，并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证，取得了比先前最先进模型更好的效果，并针对计算烹饪应用案例展示了质量结果。

Apr, 2018

LEWIS: 单词图像的潜在嵌入及其语义

本文提出一种使用卷积神经网络和加权排名损失函数的方法，从单词图像中直接预测语义概念，实现文本识别和检索中的语义关联，实验证明该方法的正确性和高度准确性。

Sep, 2015