EUFCC-CIR:用于GLAM收藏的组合图像检索数据集
本文介绍了一种基于计算机视觉的算法,利用多样性特征融合和区域投票技术可以准确地搜索和定位艺术品中指定的图案或物体,有效地解决了大规模数字化艺术品数据集的图像检索问题。
Jul, 2021
我们提出了DEArt,它是一个针对文化遗产绘画的检测数据集,检测物体和姿势分类,是一个与众不同的数据集,具有69个类别和12个姿势,并且可以通过迁移学习实现与最先进模型相媲美的精度。
Nov, 2022
提出了一种名为Pic2Word的方法,该方法可以在没有标记三元组的情况下使用弱标记和未标记的数据集训练出一个具有很好泛化性能的CIR模型。
Feb, 2023
本文提出了一种不需要标记的数据集来解决CIR问题的新方法Zero-Shot CIR,并介绍了一个基于视觉特征和文本描述的SEARLE方法,同时提出了一个名为CIRCO的真实场景数据集,实验表明SEARLE在CIRCO数据集上的表现优于基线方法。
Mar, 2023
通过使用大规模视觉语言模型(VLMs)和大型语言模型(LLMs)并基于文本目标修改对参考图像进行标题化,然后通过CLIP进行检索,我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法,以训练免费的方式解决 CIR 问题,并取得了与有监督的方法相竞争的性能。
Oct, 2023
通过将计算美学中的重要因素图像组合导入检索模型,我们的方法能够在分析大量数字化历史图像数据时,更好地考虑图像的组合规则和语义信息,从而提高图像检索的准确性和效果。
Mar, 2024
基于图像和相关说明的复合图像检索(CIR)是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集,提出了一种名为iSEARLE(改进的无监督复合图像检索)的方法,该方法将参考图像的视觉信息映射到CLIP标记嵌入空间的伪词标记中,并与相关说明结合。为促进ZS-CIR的研究,我们提供了一个名为CIRCO的开放领域基准数据集,这是第一个每个查询都用多个真实值和语义分类进行标记的CIR数据集。实验结果表明,iSEARLE在三个不同的CIR数据集(FashionIQ、CIRR和CIRCO)以及领域转换和对象组合的两种额外评估设置上都获得了最先进的性能。数据集、代码和模型在此https URL上公开可用。
May, 2024
本研究讨论了在文化遗产领域中自动元数据注释的挑战,并介绍了一种新颖的数据集EUFCC340K。该数据集采集自Europeana门户网站,包含超过340,000张图像,并按照材料、对象类型、学科和主题等多个维度进行组织,遵循AAT的分层结构。研究开发了多种基线模型,基于ConvNeXT骨干网络在图像各个维度上进行多标签标注,并使用图像文本对对CLIP模型进行微调。两个不同的测试场景下的实验证明了该数据集在改进多标签分类工具方面的鲁棒性和泛化能力,有潜力缓解文化遗产部门的编目任务。
Jun, 2024
本文提出了一种使用合成标签来提升零样本图像检索性能的混合检索方法(HyCIR),使用了合成CIR三元组和对比学习两种策略,实现了在CIRR和CIRCO等常见图像检索基准中的零样本任务的最新性能。
Jul, 2024