Jun, 2024
EUFCC-340K:面向 GLAM 藏品元数据标注的多面向层次数据集
EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections
Francesc Net, Marc Folia, Pep Casals, Andrew D. Bagdanov, Lluis Gomez
TL;DR本研究讨论了在文化遗产领域中自动元数据注释的挑战,并介绍了一种新颖的数据集 EUFCC340K。该数据集采集自 Europeana 门户网站,包含超过 340,000 张图像,并按照材料、对象类型、学科和主题等多个维度进行组织,遵循 AAT 的分层结构。研究开发了多种基线模型,基于 ConvNeXT 骨干网络在图像各个维度上进行多标签标注,并使用图像文本对对 CLIP 模型进行微调。两个不同的测试场景下的实验证明了该数据集在改进多标签分类工具方面的鲁棒性和泛化能力,有潜力缓解文化遗产部门的编目任务。