比较与对比:学习显著视觉差异
本文介绍了一项任务,即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集,并提出了一种模型,该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐,以捕捉视觉显著性并实现语言和视觉的对准。
Aug, 2018
该论文提出了一种基于深度神经网络的相对属性预测方法,其中采用卷积神经网络 (ConvNet) 学习特征,包含排名层 (rank layer) 学习根据这些特征对图像进行排序,并采用适当的排名损失进行训练,优于基线和最先进的方法,适用于不同类型的数据集。
Dec, 2015
本文介绍了一种 Learning-to-Compare 模型,该模型能够理解两个图像之间的语义结构并学习描述每个图像,从而有效地进行图像比较和生成描述。使用该模型可以在 Birds-to-Words 数据集上实现比基准模型更好的性能,且同时在自动评估和人类评估中表现良好。
Feb, 2021
最近基础模型的进展为可解释的视觉识别提供了新的机会,通过查询大型语言模型获取描述每个类别的属性,然后应用视觉语言模型通过这些属性对图像进行分类,我们的研究发现,大量的 LLM 生成的属性与随机词几乎没有差别,我们提出了一种新的学习搜索方法来发现那些简明的属性集,该方法在 CUB 数据集上使用仅 32 个属性来区分 200 个鸟类的性能接近于大量 LLM 生成的属性(例如 CUB 的 10,000 个属性),此外,我们的新范式还展示了几个附加优势:人类的更高可解释性和互动性,以及总结知识的能力。
Aug, 2023
本研究提出了一种利用用户反馈进行二元监督的面部图像检索方法,采用对比学习范例,通过在线优化损失函数进行个性化处理,实验证明该方法可以更快地收敛和提高推荐准确性,同时提供了用户友好的网页端界面,让用户有实时的面部图像检索体验。
May, 2022
提出了一个端到端的深度卷积神经网络,可以同时定位和排序相对视觉属性,在仅使用弱监督成对图像比较的情况下进行学习。不同于之前的方法,我们的网络联合学习了特征、定位和排序。我们的定位模块发现属性最有信息量的图像区域,这个区域被排序模块用来学习属性的排序模型。我们的端到端框架也显著加速了处理速度,比之前的方法快得多。我们在各种相对属性数据集上展示了最先进的排序结果,我们的定位结果清楚地表明了我们的网络学习了有意义的图像块。
Aug, 2016
该论文提出了一种新颖的图像搜索反馈模式,其中用户可以描述应调整示例图像的哪些属性以更贴近其所寻找的图像的心理模型,并利用比较语言以多维属性空间中的约束迭代更新其相关性函数和重新排列图像数据库,通过使用相对属性的顺序特性,以提高搜索速度和准确性,优化了人、产品和场景的图像搜索。
May, 2015