ICCVDec, 2020

视觉表示学习中的概念泛化

TL;DR该论文提出了一个基于自然语言处理技术的 ImageNet-CoG 基准,以系统性地评估模型训练出来的视觉表示对预测过程中视觉概念的泛化能力。通过利用 WordNet 中的专业知识,我们定义了一系列与 ImageNet-1K 子集在语义上越来越远的无人监督类别集,以测试在 ImageNet-1K 数据集上训练的视觉表示的泛化能力。 对 31 种卷积和变压器模型进行了大规模研究,展示了不同架构、不同层次的监督、正则化技术和使用 Web 数据对概念泛化性能的影响。