草图胜千言:带文本和草图的图像检索
这篇论文提出了通过合成模型和文本来改进细粒度图像检索的方法,创新性地将素描和文本结合起来,从而实现了以往无法实现的精确检索,同时提供了解决各种实际场景的解决方案。
Mar, 2024
本文介绍了一种跨模态图像检索系统,允许文本和草图作为查询的输入模态。使用跨模态深度网络架构共同建模草图和文本输入模态以及图像输出模态,通过学习文本和图像之间以及草图和图像之间的共同嵌入,使用注意力模型有选择性地关注图像的不同对象,可以实现多对象检索。实验结果表明,所提出的方法在标准数据集中实现了最佳的单对象和多对象图像检索
Apr, 2018
本文提出了一种基于图像和文本相结合的检索方法,利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述,并在三种不同数据集上进行了验证,证明了该方法在输入查询分类和图像检索方面的有效性。
Dec, 2018
使用个性化技术的大型文本到图像(T2I)模型允许用户从参考图像中融入新概念。本文旨在通过探索一种新颖的任务,即草图概念提取,通过两阶段框架 CustomSketching 实现草图概念的提取,以实现基于草图的图像合成和编辑。
Feb, 2024
我们研究了机器对抽象手绘场景草图的理解这一未被充分探索但基本的视觉问题。我们介绍了一种草图编码器,其产生了一个语义感知的特征空间,并通过对语义草图分割任务的性能进行评估。为了训练我们的模型,我们仅依赖于具有简要标题的位图草图的可用性,并且不需要任何像素级的注释。为了实现对大量草图和类别的泛化,我们建立在预先训练的 CLIP 模型上的视觉变换编码器的基础上。我们冻结文本编码器,并通过引入一组关键的修改来执行视觉提示微调视觉编码器分支。我们提供了一个两级分层网络设计,实现了高效的语义解耦:第一级确保了整体场景草图编码,第二级专注于个别类别。然后,在层次结构的第二级中,我们引入了文本和视觉分支之间的交叉注意。我们的方法超越了无标注 CLIP 像素分割结果的 37 个点,达到 FS-COCO 草图数据集上 85.5%的准确率。最后,我们进行了用户研究,以确定我们的方法在调和机器和人类对场景草图的理解方面还需要进一步改进。
Dec, 2023
本文提出了一种新的零样本基于草图的图像检索 (ZS-SBIR) 场景,该场景能够有效解决 ZS-SBIR 实际应用中常见的大领域差异和大规模检索问题,提供了一个全新的 ZS-SBIR 数据集 QuickDraw-Extended,采用了一种新策略来处理领域差异,同时集成了外部语义知识以帮助语义转换,实验表明该模型在现有数据集上表现优异,并提供训练代码和数据集以供未来研究使用。
Apr, 2019
本文介绍了以往三元组 SBIR 方案存在的问题,提出了建立具有更好翻转等变性的 SBIR 解决方案的多种方法,并深入评估了每种方法的有效性,揭示了视觉 Transformer 对于 SBIR 任务更加适用,性能比卷积神经网络高得多,引入了第一个在大规模 SBIR 基准(Sketchy)上超越人类表现的模型,具体表现为召回率 62.25%,比以前的最先进方法 46.2%高。
Sep, 2022
这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型,发现其能够无缝地弥合草图与照片之间的差距,利用交叉模态能力和形状倾向性,通过我们的初步研究得到验证。为了有效利用预训练的扩散模型,我们引入了一种简单而有效的策略,着重于两个关键方面:选择最佳特征层和利用视觉和文本提示。通过识别最丰富信息且最适合特定检索要求(分类级别或细粒度)的层,然后使用视觉和文本提示来引导模型的特征提取过程,使其生成更具辨别力和相关上下文的交叉模态表示。在几个基准数据集上进行的大量实验证实了显著的性能提升。
Mar, 2024
本文提出一种基于 sketch 的图像检索方法,通过使用跨模态协同和层次结构融合的策略,能够在不同层次的详细程度上匹配 sketch 和照片,并在公共基准测试中取得远超其他方法的性能表现。
Jul, 2020