改进图像检索的证据变换器
本文介绍了使用Transformer Encoder Reasoning Network架构来进行图像与文本的自动匹配,以便于实现大规模信息检索。试验结果表明,本架构成功实现了该任务且获得了创新性的成果。
Apr, 2020
本文提出一种基于变换器的图像检索方法,通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练,结合对比损失和微分熵正则化,相比于卷积方法,提高了图像检索性能,特别是对于短向量表示和低分辨率图像。
Feb, 2021
本文提出了一种新的模型Reranking Transformers (RRTs),它可以在有监督的环境下整合全局和局部特征,以重排匹配的图像,从而替代代价较高的基于几何验证的过程。经实验表明,该模型的性能优于以前的重排序方法,且使用更少的本地描述符达到更好的结果。
Mar, 2021
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。
Mar, 2021
本文研究了在跨模态(即文本和图像)环境下使用概率嵌入的优势,并提出了一种简单的方法,将现有图像-文本匹配模型中的标准向量点嵌入替换为参数化学习的概率分布。通过广泛的实验,证明在跨模态检索中,概率表示法具有一致的优势,并验证了其捕捉不确定性的能力。
Apr, 2022
我们提出了一种基于双曲空间的带不确定性度量学习的图像嵌入算法,通过广泛的实验验证了该算法在相关方法中达到了最新的成果,并通过全面的剖析研究验证了提出算法的每个组成部分的有效性。
Oct, 2023
内容检索(CBIR)系统在计算机视觉领域成为关键工具,通过基于视觉内容而非仅依赖元数据进行图像搜索。本综述论文全面介绍了CBIR,并强调了其在目标检测方面的作用,以及基于内容特征识别和检索视觉相似图像的潜力。文章探讨了CBIR系统面临的挑战,包括语义差距和可扩展性,并提出了潜在的解决方案。重点阐述了语义差距,即低级特征和高级语义概念之间的差异,并探索了弥合该差距的方法。值得注意的解决方案之一是集成相关反馈(RF),使用户能够对检索到的图像提供反馈并迭代地改进搜索结果。综述涵盖了长期和短期学习方法,利用RF提高CBIR的准确性和相关性。这些方法侧重于权重优化和利用主动学习算法选择样本进行分类器训练。此外,本论文还研究了机器学习技术以及利用深度学习和卷积神经网络提高CBIR性能的方法。该综述论文在推进CBIR和RF技术的理解方面发挥着重要作用。它指导研究人员和从业者理解现有的方法、挑战和潜在的解决方案,促进知识传播和确定研究空白。通过讨论未来的研究方向,为增强CBIR在各个应用领域的检索准确性、可用性和效果奠定了基础。
Dec, 2023
基于视觉-语义对齐和双向跨模态零样本学习方法的研究,通过属性描述和知识传递实现对新类别的识别,应对实际挑战并提高模型的鲁棒性和独特解释能力。
Apr, 2024
本文提出了实用的细粒度图像检索模型设计指南,包括强调对象、凸显子类别特异性差异以及采用有效的训练策略。通过遵循指南并设计了一种新颖的双重视觉过滤机制(DVF),本文在三个广泛使用的细粒度数据集上实现了最先进的性能表现。
Apr, 2024
这篇论文提出了Vision transformers(ViTs)在解释方法方面的需求,通过引入概率概念解释器(PACE)来提供可信的事后概念解释,并通过实验表明PACE在定义的需求方面优于现有方法。
Jun, 2024