草图胜千言：带文本和草图的图像检索

ECCVAug, 2022

草图胜千言：带文本和草图的图像检索

A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch

Patsorn Sangkloy, Wittawat Jitkrittum, Diyi Yang, James Hays

TL;DR本文介绍了一个基于文本及草图的图像检索模型，该模型称为 “TASK-former”，并采用了类似于 CLIP 的融合编码器的方法，众多实验表明，使用草图可以明显提高图像检索的召回率。

Abstract

We address the problem of retrieving images with both a sketch and a text query. We present task-former (Text And SKetch transformer), an end-to-end trainable model for image retrieval using a text description an

image retrieval sketches text queries task-former dual-encoder

发现论文，激发创造

你将永不独行：细粒度图像检索的草图与文本二重奏

这篇论文提出了通过合成模型和文本来改进细粒度图像检索的方法，创新性地将素描和文本结合起来，从而实现了以往无法实现的精确检索，同时提供了解决各种实际场景的解决方案。

Mar, 2024

使用文本和草图学习跨模态深度嵌入进行多对象图像检索

本文介绍了一种跨模态图像检索系统，允许文本和草图作为查询的输入模态。使用跨模态深度网络架构共同建模草图和文本输入模态以及图像输出模态，通过学习文本和图像之间以及草图和图像之间的共同嵌入，使用注意力模型有选择性地关注图像的不同对象，可以实现多对象检索。实验结果表明，所提出的方法在标准数据集中实现了最佳的单对象和多对象图像检索

Apr, 2018

图像检索中的文本与图像构成 - 实证之旅

本文提出了一种基于图像和文本相结合的检索方法，利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述，并在三种不同数据集上进行了验证，证明了该方法在输入查询分类和图像检索方面的有效性。

Dec, 2018

CustomSketching：基于草图概念提取的草图图像合成和编辑

使用个性化技术的大型文本到图像（T2I）模型允许用户从参考图像中融入新概念。本文旨在通过探索一种新颖的任务，即草图概念提取，通过两阶段框架 CustomSketching 实现草图概念的提取，以实现基于草图的图像合成和编辑。

Feb, 2024

即兴精细草图检索

本文通过优化基于细粒度素描的图像检索方法，使用增强学习及跨模态检索框架实现检索效率的提升与最少笔画查询目标图像的目标，是一种有效的搜索框架。

Feb, 2020

开放词汇语义场景素描理解

我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器，其产生了一个语义感知的特征空间，并通过对语义草图分割任务的性能进行评估。为了训练我们的模型，我们仅依赖于具有简要标题的位图草图的可用性，并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化，我们建立在预先训练的 CLIP 模型上的视觉变换编码器的基础上。我们冻结文本编码器，并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计，实现了高效的语义解耦：第一级确保了整体场景草图编码，第二级专注于个别类别。然后，在层次结构的第二级中，我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注 CLIP 像素分割结果的 37 个点，达到 FS-COCO 草图数据集上 85.5％的准确率。最后，我们进行了用户研究，以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。

Dec, 2023

Doodle to Search: 实用的零样本基于草图的图像检索

本文提出了一种新的零样本基于草图的图像检索 (ZS-SBIR) 场景，该场景能够有效解决 ZS-SBIR 实际应用中常见的大领域差异和大规模检索问题，提供了一个全新的 ZS-SBIR 数据集 QuickDraw-Extended，采用了一种新策略来处理领域差异，同时集成了外部语义知识以帮助语义转换，实验表明该模型在现有数据集上表现优异，并提供训练代码和数据集以供未来研究使用。

Apr, 2019

Transformer 和 CNN 都在 SBIR 上击败了人类

本文介绍了以往三元组 SBIR 方案存在的问题，提出了建立具有更好翻转等变性的 SBIR 解决方案的多种方法，并深入评估了每种方法的有效性，揭示了视觉 Transformer 对于 SBIR 任务更加适用，性能比卷积神经网络高得多，引入了第一个在大规模 SBIR 基准（Sketchy）上超越人类表现的模型，具体表现为召回率 62.25％，比以前的最先进方法 46.2％高。

Sep, 2022

文本到图像扩散模型是优秀的素描照片匹配工具

这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型，发现其能够无缝地弥合草图与照片之间的差距，利用交叉模态能力和形状倾向性，通过我们的初步研究得到验证。为了有效利用预训练的扩散模型，我们引入了一种简单而有效的策略，着重于两个关键方面：选择最佳特征层和利用视觉和文本提示。通过识别最丰富信息且最适合特定检索要求（分类级别或细粒度）的层，然后使用视觉和文本提示来引导模型的特征提取过程，使其生成更具辨别力和相关上下文的交叉模态表示。在几个基准数据集上进行的大量实验证实了显著的性能提升。

Mar, 2024

针对细粒度素描图像检索的跨模态层次建模

本文提出一种基于 sketch 的图像检索方法，通过使用跨模态协同和层次结构融合的策略，能够在不同层次的详细程度上匹配 sketch 和照片，并在公共基准测试中取得远超其他方法的性能表现。

Jul, 2020