从网络数据中通过深度语义嵌入学习学习

ECCVAug, 2018

从网络数据中通过深度语义嵌入学习学习

Learning to Learn from Web Data through Deep Semantic Embeddings

Raul Gomez, Lluis Gomez, Jaume Gibert, Dimosthenis Karatzas

TL;DR本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Abstract

In this paper we propose to learn a multimodal image and text embedding from Web and Social Media data, aiming to leverage the semantic knowledge learnt in the text domain and transfer it to a visual model for semantic

multimodal image and text embedding semantic knowledge transfer image retrieval instagram dataset semantic multimodal image retrieval

发现论文，激发创造

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

利用大规模网络标注图像进行多模态词嵌入的训练和评估

本研究旨在使用文本和视觉信息进行有效的单词嵌入训练和评估。研究人员提出了一个大规模数据集，其中包含 300 万语句，描述了来自 Pinterest 的超过 4000 万张图像。该研究还报道了一种基于 RNN 的多模态模型，通过在嵌入中整合视觉信息，该模型可以找到语义相似或相关的单词和短语。经验表明，共享策略对于学习这种多模态嵌入至关重要。

Nov, 2016

MCSE: 句子嵌入的多模态对比学习

本文提出了一种基于多模态对比目标的句子嵌入学习方法，利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能，并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。

Apr, 2022

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

理解、分类和预测语义图像 - 文本关系

本文借鉴视觉传达研究，探究了多模式信息检索的有用语义图像 - 文本关系，在自动收集和扩充数据资源的基础上，采用深度学习系统和三种度量标准（跨模态互信息、语义相关性和图像与文本的状态关系）对八种语义图像 - 文本类别进行了预测，并在一个严格的测试集上展示了该方法的可行性。

Jun, 2019

利用图像和文本的联合嵌入进行多媒体语义完整性评估

本文提出了一种基于深度学习的、用于评估包含图像和标题的多媒体包的语义完整性的方法，这样可以检测包的操纵，他们利用一个引用数据集创建图像和标题的联合嵌入，并提供了图像 - 标题一致性得分。作者们还提出了 MultimodAl 数据操纵数据集 (MAIM)，用来验证这种方法的性能。在检测语义不一致的媒体包方面，本方法的 F1 得分分别为 0.75、0.89 和 0.94。

Jul, 2017

烹饪情境下的跨模态检索：学习语义文本 - 图像嵌入

本文提出了一种跨模态检索模型，采用视觉和文本数据对餐品及其食谱进行建模，并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证，取得了比先前最先进模型更好的效果，并针对计算烹饪应用案例展示了质量结果。

Apr, 2018