用辅助文本描述的跨模态注意力对齐网络用于零样本基于素描的图像检索
零样本学习在机器学习模型中提供了一种有效的解决方案,用于处理未见类别,避免了繁琐数据收集。本文提出了一种新颖的框架,通过对比文本间接对齐素描和照片,避免了对素描照片成对样本的需求。通过从数据中学习明确的形态编码,我们的方法将形态不可知的语义与形态特定信息进行了分解,桥接了形态间的差距,并在联合潜空间内实现了有效的跨模态内容检索。通过全面的实验验证了所提出模型在零样本基于素描的图像检索上的有效性,并可应用于广义和细粒度设置。
Jan, 2024
该论文提出了一种用于零样本草图图像检索的新型方法,采用了对称双向知识对齐学习框架以实现教师和学生模型之间的知识对齐,通过一对多的聚类跨模态匹配方法来缩小模态差距,实验证明该算法在多个 ZS-SBIR 数据集上表现优越。
Dec, 2023
本文研究了零短距离素描图像检索(ZS-SBIR)问题,并提出了一种基于 transformer 的跨模态网络,包括可学习 tokenizer 的自我关注模块,计算视觉 tokens 之间的交叉关注模块,以及基于核的相关网络,通过对组之间的比较,实现了优秀的性能,同时通过可视化 tokens 实现了解释性。
Mar, 2023
本文提出了一种有效的 “适应和对齐” 方法来解决无人监督草图图像检索(ZS-SBIR)中的关键挑战,并通过与更语义化的文本嵌入相对齐实现了从已见类到未见类的知识转移。
May, 2023
这篇论文首次探索了用于零样本基于草图的图像检索的文本到图像扩散模型,发现其能够无缝地弥合草图与照片之间的差距,利用交叉模态能力和形状倾向性,通过我们的初步研究得到验证。为了有效利用预训练的扩散模型,我们引入了一种简单而有效的策略,着重于两个关键方面:选择最佳特征层和利用视觉和文本提示。通过识别最丰富信息且最适合特定检索要求(分类级别或细粒度)的层,然后使用视觉和文本提示来引导模型的特征提取过程,使其生成更具辨别力和相关上下文的交叉模态表示。在几个基准数据集上进行的大量实验证实了显著的性能提升。
Mar, 2024
ZS-A2T 是一个零射击框架,将给定模型的转换器注意力转换为自然语言而无需任何训练,以可理解形式提供关于该模型的见解。它在视觉问答(VQA)的上下文中构建在预训练的大型语言模型上,并通过利用 VQA 模型的文本 - 图像匹配能力来确定其相似性,从而实现了无需训练并能够替换不同引导来源(例如属性而非注意力矩阵)或语言模型的框架。在 VQA 的文本解释数据集上进行了评估,并在 GQA-REX 和 VQA-X 的零射击设置中达到了最先进的性能。
Nov, 2023
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
该研究提出了一种基于领域平滑网络 (DSN) 的零样本图形检索 (ZS-SBIR) 方法,该方法通过使用跨模态对比方法挖掘增强样本的关系以平滑领域差距,并在草图领域中探索类别特定的记忆库来减少草图的内类别差异。实验结果表明,该方法在 Sketchy 和 TU-Berlin 数据集中表现出色。
Jun, 2021
本论文探讨采用跨语言预训练的零样本方法来学习多模态表示,提出建立跨语言图像检索模型的简单实用方法,并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集(XTD10)的零样本模型性能,证明跨语言模型可用于零样本的下游任务, 如多语言图像标记。
Sep, 2021
本文介绍了一个新方法,通过多模态信息的融合来准确地检索符合查询的图像,并在零样本场景下,在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。
Jun, 2023