学习鲁棒的视觉 - 语义嵌入 | BriefGPT

Mar, 2017

学习鲁棒的视觉 - 语义嵌入

Learning Robust Visual-Semantic Embeddings

Yao-Hung Hubert Tsai, Liang-Kang Huang, Ruslan Salakhutdinov

TL;DR该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Abstract

Many of the existing methods for learning joint embedding of images and text use only supervised information from paired images and its textual attributes. Taking advantage of the recent success of unsupervised learning in deep neural networks, we propose an end-to-end learning framewo

multi-modal representation unsupervised learning deep neural networks cross-domain learning image recognition

发现论文，激发创造

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

学习深度结构保持的图像文本嵌入

提出使用双分支神经网络进行联合嵌入图像和文本的方法，包含多层线性投影和非线性激活函数，通过结合度量学习和交叉视图约束优化进行训练，实验结果表明该方法在图像 - 文本检索和短语定位任务上具有显著性能改进。

Nov, 2015

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

基于语义的零样本学习视觉嵌入

提出了一种称为 joint embeddings for zero-shot learning 的方法，通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息，并利用辅助字幕来提高图像和文本表示之间的对齐，从而在多个基准数据集上评估了该方法，在标准的（aPY 上 + 1.6％，FLO 上 + 2.6％）和常规的（AWA2 上 + 2.1％，CUB 上 + 2.2％）零 - shot 识别中提高了现有最先进方法的性能。

Jan, 2022

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

在汉堡中查找豆子：利用深度语义视觉嵌入实现定位

本研究提出了一种新的两条路径的神经网络，其中视觉路径采用了最新的空间感知池化机制模型，结合从头开始训练的文本路径，实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后，该模型可提供新的跨模态检索性能和短语的视觉定位，达到了最新的最佳表现。

Apr, 2018

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

学习细粒度视觉描述的深度表示

本文提出了使用神经语言模型来克服零 - shot 视觉识别中属性的局限性，并取得了在文本图像检索精度和零 - shot 分类准确率上的显著性提升。

May, 2016

使用自然语言的语言 - 视觉嵌入学习以理解电影

本文研究了三种不同的联合语言 - 视觉神经网络模型，使用 LSMDC16 电影数据集评估模型在自然语言图像 / 视频注释和检索任务中的性能，并在标准排名和多项选择测试中取得优异的结果。

Sep, 2016