零样本图像检索的视觉 - 语义嵌入方法综述

ICMLMay, 2021

零样本图像检索的视觉 - 语义嵌入方法综述

Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval

Kazuya Ueki

TL;DR本文关注零样本图像检索，使用句子作为查询条件，概述了该领域的技术趋势，包括图像与文本匹配的历史、常用的数据集和方法的评估结果，并介绍了 Github 上的实现，旨在鼓励研究者进一步发掘语言与图像之间的联系。

Abstract

visual-semantic embedding is an interesting research topic because it is useful for various tasks, such as visual question answering (VQA), image-text retrieval, image captioning, and scene graph generation. In this paper, we focus on →

visual-semantic embedding zero-shot image retrieval image-to-text matching datasets evaluation results

发现论文，激发创造

基于语义的零样本学习视觉嵌入

提出了一种称为 joint embeddings for zero-shot learning 的方法，通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息，并利用辅助字幕来提高图像和文本表示之间的对齐，从而在多个基准数据集上评估了该方法，在标准的（aPY 上 + 1.6％，FLO 上 + 2.6％）和常规的（AWA2 上 + 2.1％，CUB 上 + 2.2％）零 - shot 识别中提高了现有最先进方法的性能。

Jan, 2022

零样本视觉问答

本文提出了一种评估 VQA 方法能力的新协议，该方法旨在衡量其执行零摄影技术需求 (Zero-Shot VQA) 的能力，并在此过程中凸显了当前方法的一些实际缺陷，其中一些缺陷被当前数据集中的偏见掩盖。通过在预训练单词嵌入和物体分类器等方面进行实验，我们提出并评估了多种实现零摄影技术需求的策略，并在标准 VQA 评估设置中实现了最先进的性能。

Nov, 2016

基于视觉语义嵌入的广义零样本识别

本文提出了一种新颖的广义零样本学习（GZSL）方法，它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙，并借助一个新的视觉神谕来量化噪声语义数据的影响，以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示，该方法在语义和视觉监督下均明显优于现有技术。

Nov, 2018

大规模零样本学习的文档表示重访

本文讨论了使用语义表达来识别未见过的物体，提出了一种基于文档的语义表示方法，通过半自动机制提取并加权了文档中包含的可视信息，形成了语义表示，相比现有方法在 ImageNet 数据集上表现更佳。

Apr, 2021

面向零样本基于草图的图像检索的模态感知表示学习

零样本学习在机器学习模型中提供了一种有效的解决方案，用于处理未见类别，避免了繁琐数据收集。本文提出了一种新颖的框架，通过对比文本间接对齐素描和照片，避免了对素描照片成对样本的需求。通过从数据中学习明确的形态编码，我们的方法将形态不可知的语义与形态特定信息进行了分解，桥接了形态间的差距，并在联合潜空间内实现了有效的跨模态内容检索。通过全面的实验验证了所提出模型在零样本基于素描的图像检索上的有效性，并可应用于广义和细粒度设置。

Jan, 2024

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

如何为遥感视觉问答寻找良好的图像 - 文本嵌入？

该论文研究了三种不同的融合方法在远程遥感领域的视觉问答中的应用，并分析了与模型复杂度相关的精度提高。结果表明，采用更复杂的融合机制可以提高性能，但在实践中寻求模型复杂度和性能之间的平衡是值得的。

Sep, 2021

Doodle to Search: 实用的零样本基于草图的图像检索

本文提出了一种新的零样本基于草图的图像检索 (ZS-SBIR) 场景，该场景能够有效解决 ZS-SBIR 实际应用中常见的大领域差异和大规模检索问题，提供了一个全新的 ZS-SBIR 数据集 QuickDraw-Extended，采用了一种新策略来处理领域差异，同时集成了外部语义知识以帮助语义转换，实验表明该模型在现有数据集上表现优异，并提供训练代码和数据集以供未来研究使用。

Apr, 2019

视觉和文本嵌入的零样本文本到图像定制的协调

通过引入正交视觉嵌入并利用自我注意力交换，我们提出了一种高效维护主题身份的方法，以解决文本到图像模型中遭遇的问题，并展示了该方法的效果和鲁棒性。

Mar, 2024

通过保留视觉主要语义实现图像文本检索

本文提出了一种语义优化方法，称为视觉语义损失（VSL），以辅助模型专注于图像的主要内容，通过对图像的注释文本的利用，减少次要内容的负面影响，通过两个基准数据集（MSCOCO 和 Flickr30K）的大量实验，证明了该方法的卓越性能。

Apr, 2023