视觉表示学习中的概念泛化

ICCVDec, 2020

Concept Generalization in Visual Representation Learning

Mert Bulent Sariyildiz, Yannis Kalantidis, Diane Larlus, Karteek Alahari

TL;DR该论文提出了一个基于自然语言处理技术的 ImageNet-CoG 基准，以系统性地评估模型训练出来的视觉表示对预测过程中视觉概念的泛化能力。通过利用 WordNet 中的专业知识，我们定义了一系列与 ImageNet-1K 子集在语义上越来越远的无人监督类别集，以测试在 ImageNet-1K 数据集上训练的视觉表示的泛化能力。对 31 种卷积和变压器模型进行了大规模研究，展示了不同架构、不同层次的监督、正则化技术和使用 Web 数据对概念泛化性能的影响。

Abstract

Measuring concept generalization, i.e., the extent to which models trained on a set of (seen) visual concepts can be leveraged to recognize a new set of (unseen) concepts, is a popular way of evaluating visual represent

concept generalization visual representations self-supervised learning benchmark semantic relationships

发现论文，激发创造

贝叶斯推广的复杂性

本文研究了视觉概念在表征层面和计算层面的复杂度变化，通过属性的可代表性计算得出结论：使用可代表性高的属性描述视觉概念，随着视觉复杂度的增加，描述长度呈倒 U 型变化。同时，研究发现，在基于规则和相似性的泛化中，视觉表征的复杂度对泛化方式的影响存在差异。

Nov, 2022

图像字幕中的组合泛化

该论文研究了图像编码模型的组合推广问题，使用多任务模型相结合的方法，结合了描述生成和图像 - 句子排序，并使用重新排序的解码机制，该模型在描述未见过的概念时比现有现有模型表现更好。

Sep, 2019

通用视觉模型的网络监督概念扩展

本文介绍了一种有效且廉价的方法：利用监督数据集学习技能，利用网络图像搜索学习概念，再利用 GPV 跨技能传递视觉知识，以实现 web-based 的概念扩展；同时，提出了支持各种任务的新架构 GPV-2，在多项基准测试中表现优异。

Feb, 2022

如何利用通用常识本体提升基于学习的图像检索性能

本文探讨了如何利用 MIT 的通用本体库 ConceptNet，改进最新视觉系统的性能，实验表明，通用常识本体库可以通过过滤选择有意义的视觉关系，提升视觉推理任务的表现。

May, 2017

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

将技能与概念分离以进行新颖视觉问答

提出了一种基于视觉任务的方法，将 VQA 问题分解为技能和概念，并通过对对应的概念表示和技能编码的解耦实现模型内部的有效组合，从而提高了处理新组合任务的能力。

Jul, 2021

通过有意义的学习重新审视系统化泛化

通过对人类意义学习能力的重新审视，本文重新评估语序 - 语序模型在新旧概念之间语义联系的条件下所具有的组合技能，证明了它能够通过语义关联来成功地进行一次性泛化到新概念和组合中，这为更高级的学习方案揭示了现代神经网络在系统概括中的潜力。

Mar, 2020

利用生成模型对无监督概念为基础的可解释网络进行重新设计

通过将概念特征映射到预训练生成模型的潜在空间中，我们提出了一种新方法，以生成高质量的可视化结果并提供直观、交互式的解释方式。我们验证了该方法在可解释预测网络准确性、重构保真度以及概念学习的忠实性和一致性方面的有效性。

Jul, 2024

神经网络中的泛化：一项广泛调查

本文综述了神经网络模型不同抽象级别的概念、建模方法和最近的研究发现，包括网络模型的概括、分布、域、任务、模式和范围的泛化，着重于在各泛化层次上存在的问题，例如过拟合问题和域适应问题。

Sep, 2022

跨架构的零样本泛化视觉分类

深度网络的概括性是未见数据的关键要求，但其与分类准确性的关系尚不清楚。使用极简的视觉数据集和一种概括能力度量，我们展示了受欢迎的网络，从深度卷积网络（CNN）到 Transformer，在层级和体系结构的不同方面对未见类别的外推能力存在差异。准确性不能很好地预测概括能力，并且概括能力与层级深度变化的关系是非单调的。

Feb, 2024