- AAAIRankDNN: 学习用于少样本学习的排序深度神经网络
本文提出了一种新的 few-shot learning pipeline,将图像检索的相关性排名转化为二进制排名关系分类。我们的深度神经网络的核心组件是一个简单的 MLP,并可构建于任何最先进的特征提取器之上。在元测试期间,RankDNN - InDiReCT: 语言引导的零样本深度度量学习(Deep Metric Learning)用于图像
本研究提出了一种基于自然语言的零样本度量学习方法,应用于图像检索系统中,使用自然语言控制图像表征属性,通过使用文本提示进行训练,并利用 CLIP 模型将文本提示嵌入到图像嵌入空间中,从而实现根据不同的相似度概念创建自定义嵌入空间的快速训练和 - ECCV使用 ViT CLIP 的通用图像描述符用于开放世界图像检索
本文介绍了 Google Universal Image Embedding Challenge 竞赛中 4th place 的解决方案,重点讲述了用 CLIP 对零样本 Vision Transformers 进行微调的技巧,从而在多领域 - MMHyP$^2$ Loss:多标签图像检索的超球度量空间之外
本文提出了一种新的深度哈希度量学习框架 HyP^2 Loss,在多标签情境下构建了一个表达性强且训练复杂度低的度量空间,将数据对的数据对应性和代理方法的高效性相融合,提高图像检索的性能。
- ECCV草图胜千言:带文本和草图的图像检索
本文介绍了一个基于文本及草图的图像检索模型,该模型称为 “TASK-former”,并采用了类似于 CLIP 的融合编码器的方法,众多实验表明,使用草图可以明显提高图像检索的召回率。
- ECCV无监督跨域图像检索的特征表示学习
本文探讨无监督的跨域图像检索任务,提出了基于类簇对比学习和距离 - 距离损失的方法,无需外部监督,在 Office-Home 和 DomainNet 数据集上实验结果表明,我们的方法优于现有最先进方法。
- 层次平均精度训练用于相关图像检索
本论文介绍了一种新的层次 AP 训练方法(HAP-PIER),其中 HAPPIER 基于一种新的 H-AP 指标,利用概念层次对 AP 进行细化,以整合错误的重要性并更好地评估排名,通过在 6 个数据集上的广泛实验,表明 HAPPIER 在 - 探究图像检索对视觉定位的作用 —— 一个详尽的基准测试
该研究论文研究了视觉定位中图像检索方法对定位性能的影响,并提出了专为定位场景设计的检索方法的需求。通过引入基准测试和多种 “地面真实性” 定义以及针对经典地标检索或地点识别任务的检索效能的分析,探讨了这种影响。
- 内省式深度度量学习
该论文提出了一种基于内省的深层度量学习框架,用于对图像进行不确定性感知的比较,该框架使用语义嵌入和不确定性嵌入来表示图像的特征以及模糊程度,并使用内省相似性度量来进行图像的相似度比较,取得了在图像检索和分类任务中的最先进性能。
- SIGIR混合模态查询下的图像检索渐进式学习
本论文介绍一种将语音和图像相结合进行图像检索的复杂检索方法,从而需要语义空间学习和跨模态融合,同时提出了自我监督适应权重策略以更好地检索,通过广泛的实验,表明该方法在 Fashion-IQ 和 Shoes 基准数据集上的召回率均比现有方法提 - 基于变分图嵌入的开放式世界组合零样本学习
本文提出了一种基于组合变分图自编码器(CVGAE)的方法来学习基本概念及其组成的可行性,以达到零样本分类的目的,并通过图像检索验证了该方法的有效性。
- CVPR多模式图像检索的概率组合嵌入
本文在图像检索中,研究了使用多个多模态查询的检索场景,并提出了一种新的多模态概率组合器,用于检索具有多个多模态查询指定语义概念的目标图像,同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。
- 通过比较和重新加权进行独特图像字幕
本研究旨在通过比较和重新加权计算一组相似图像来提高图像字幕的独特性。我们提出了一种称为 CIDErBtw 的独特性度量,用于衡量字幕与类似图像的独特性,并在训练期间重新加权了每个人工注释,以提高生成的字幕的独特性和准确性。
- ECCV个性化的冰冻视觉语言表征:这是我的独角兽 Fluffy
我们提出了一种名为 PerVL 的新学习设置,它允许自由语言的预训练模型独立于下游任务学习个性化的视觉概念,并通过新词嵌入扩展模型的输入词汇以推理它们。我们在图像检索和语义分割中证明了我们的方法能够从少量示例中学习个性化的视觉概念并有效地应 - CVPR图像检索的相关性验证
本研究提出了一种名为 Correlation Verification Networks (CVNet) 的图像检索网络,包括深度堆叠的 4D 卷积层,以及横跨多个尺度的特征金字塔和特征相关结构,并使用课程学习与硬负采样和 “捉迷藏” 策略 - ACL从上下文描述中检索图像
本文介绍了新的多模态挑战 ImageCoDe,探讨当前视觉 - 语言模型集成上下文、包括感知和时间信息的能力。通过从一批候选图像中选择正确的图像作为回应上下文描述,验证了多种现代模型的表现,并发现相对于人类表现差距巨大。文章介绍了新的模型变 - CVPR无忧绘图:噪声容忍的基于草图的图像检索
本文利用强化学习设计了一种画笔子集选择器,用于减少噪声干扰,提高图片检索的效率,相比现有算法有了 8%-10% 的性能提升,成为了业内的新标杆,并且展示了该选择器可以用于多种人工智能应用中。
- ICLRARTEMIS:基于注意力机制的文本显式匹配与隐式相似度检索
该论文通过观察文本到图像和图像到图像检索两者的关系,提出并验证了一种利用特殊关系而不需预训练大型架构等辅助信息,且表现最优秀的基于注意力机制协调图像和自由格式文本修饰符检索的方法。
- 利用加性注意力组合学习的图像搜索与文本反馈
该研究提出了一种称为 AACL 的方法,它基于多模式 Transformer 结构,可用于有效地检索类似于给定源图像的目标图像并且满足所提供的修改。在多项实验中,AACL 均实现了最新的最佳结果。
- ECCVFS-COCO: 探索常见物体在环境中的自由手绘素描理解
本文介绍了一个新的自由手场景草图数据集(FS-COCO),并使用该数据集进行了细粒度图像检索研究。作者还提出了一个层次化草图解码器,并探讨了草图和图片标题的信息互补性,以及结合两种模式的潜在好处。