CAILA: 概念感知内部层适配器用于组合式零样本学习

May, 2023

CAILA: 概念感知内部层适配器用于组合式零样本学习

CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning

Zhaoheng Zheng, Haidong Zhu, Ram Nevatia

TL;DR研究了组合零样本学习 (Compositional Zero-Shot Learning, CZSL) 的问题，并提出了一种新方法 CAILA，其中使用结构插座，增加了对 “对象”，“属性” 和 “组合” 的概念的知觉，相对于现有技术，CAILA 在 MIT-States，C-GQA 和 UT-Zappos 数据集上都有两位数的改进。

Abstract

compositionality, the ability to combine existing concepts and generalize towards novel compositions, is a key functionality for intelligent entities. Here, we study the problem of compositional zero-shot learning

compositionality compositional zero-shot learning vlp adapters caila

发现论文，激发创造

学习条件属性，用于组合式零样本学习

该研究提出了一种基于条件属性嵌入的学习框架来解决组合零样本学习中的属性建模问题，并在实验中取得了较优的表现。

May, 2023

学习关注力作为组合式零样本学习中的解缕器

该论文提出了一种使用交叉注意力作为组合分离器来学习分离概念嵌入的方法，使用地球移动距离作为跨注意力模块中的特征相似度度量，在多个概念概率的基础上提高推理结果，并在三个 CZSL 基准数据集上进行的综合实验表明，该方法在闭合和开放世界设置下都显著优于以前的方法，建立了一个新的最先进技术。

Mar, 2023

分层视觉基元专家的组合式零样本学习

通过使用 Composition Transformer（CoT）框架，我们提出了一种简单可扩展的方法来解决组合式零样本学习（CZSL）中的上下文问题、视觉特征可辨识性问题和真实世界组合数据的长尾分布问题；CoT 框架通过底层的自下而上方式提取代表性的物体嵌入，并通过顶层的自上而下方式以一种显式建模上下文性的对象引导注意力模块生成代表性的属性嵌入；我们还开发了一种简单的少数类属性增广（MAA）方法，通过混合两张图像和过采样少数类属性来合成虚拟样本，以解决不平衡的数据分布所引起的预测偏差；我们的方法在多个基准测试集上达到了最先进的性能，包括 MIT-States，C-GQA 和 VAW-CZSL；此外，我们还展示了 CoT 在提高视觉辨识能力和解决因不平衡数据分布而引起的模型偏差方面的有效性。

Aug, 2023

面向组合式零样本学习的语言指导分布促进

本文提出了一种使用 CLIP 模型的语言信息分布 ——PLID 模型来增强光学识别任务中未知组合视觉概念的泛化性能，通过软提示类嵌入式的组合和原始的嵌入式混合策略来融合一致的分类决策。使用 MIT-States、UT-Zappos、C-GQA 数据集的实验结果表明，PLID 方法相较于其他方法表现更佳。

May, 2023

CLIP 是否绑定概念？探索大型图像模型的组合能力

本文探讨了 CLIP 在合成知识下图像描述的能力，提出了五种计算模型并设计出新的训练算法 CoSI，在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现，结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合，但其无法可靠地绑定特性，对于对象之间的关系无法可靠地学习。

Dec, 2022

基于原始对抗训练的上下文交互用于组合式零样本学习

通过模块化对抗训练方法来解决复杂交互引起的零样本学习问题，同时采用基于对象相似性的过采样策略以提高目标组合训练数据的处理能力。

Jun, 2024

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

ComCLIP: 无须训练的图文组合匹配

本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题，通过将输入图像分解为主题、对象和动作子图像，并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配，从而实现了对差异性语义的建模，提高了 CLIP 的零样本推理能力。

Nov, 2022

Tip-Adapter: 无需训练的适应 CLIP 用于少样本分类

本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter，来有效地增强 Contrastive Vision-Language Pre-training（CLIP）的适应能力，为少样本学习提供了一个计算资源高效的选择。实验证明，Tip-Adapter 在 11 个数据集上均有突出表现，并可以通过少量的模型微调达到 ImageNet 上的最优。

Jul, 2022

基于上下文和多样性驱动的合成零样本学习中的特异性

为了更准确地预测未见过的属性 - 物体对并改善在开放世界中的组合过滤，在通常被忽略的特异性水平上考虑属性的多样性和上下文，我们引入了基于上下文和多样性的特异性学习框架用于组合零样本学习 (CDS-CZSL)。在闭世界和开放世界的情景中进行了实验，我们的模型在三个数据集上实现了最先进的结果。

Feb, 2024