CAILA: 概念感知内部层适配器用于组合式零样本学习
该论文提出了一种使用交叉注意力作为组合分离器来学习分离概念嵌入的方法,使用地球移动距离作为跨注意力模块中的特征相似度度量,在多个概念概率的基础上提高推理结果,并在三个 CZSL 基准数据集上进行的综合实验表明,该方法在闭合和开放世界设置下都显著优于以前的方法,建立了一个新的最先进技术。
Mar, 2023
通过使用 Composition Transformer(CoT)框架,我们提出了一种简单可扩展的方法来解决组合式零样本学习(CZSL)中的上下文问题、视觉特征可辨识性问题和真实世界组合数据的长尾分布问题;CoT 框架通过底层的自下而上方式提取代表性的物体嵌入,并通过顶层的自上而下方式以一种显式建模上下文性的对象引导注意力模块生成代表性的属性嵌入;我们还开发了一种简单的少数类属性增广(MAA)方法,通过混合两张图像和过采样少数类属性来合成虚拟样本,以解决不平衡的数据分布所引起的预测偏差;我们的方法在多个基准测试集上达到了最先进的性能,包括 MIT-States,C-GQA 和 VAW-CZSL;此外,我们还展示了 CoT 在提高视觉辨识能力和解决因不平衡数据分布而引起的模型偏差方面的有效性。
Aug, 2023
本文提出了一种使用 CLIP 模型的语言信息分布 ——PLID 模型来增强光学识别任务中未知组合视觉概念的泛化性能,通过软提示类嵌入式的组合和原始的嵌入式混合策略来融合一致的分类决策。使用 MIT-States、UT-Zappos、C-GQA 数据集的实验结果表明,PLID 方法相较于其他方法表现更佳。
May, 2023
本文探讨了 CLIP 在合成知识下图像描述的能力,提出了五种计算模型并设计出新的训练算法 CoSI,在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现,结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合,但其无法可靠地绑定特性,对于对象之间的关系无法可靠地学习。
Dec, 2022
通过引入语义组合样本,我们通过一个简单的技术(称为 CLIP-C),显著改善了零样本图像分类和跨模态检索的能力,而不需要额外的计算开销或模型参数增加。
Jul, 2024
本文通过提出一种新颖的训练免费的组合 CLIP 模型 (ComCLIP) 来解决复合图像和文本匹配的问题,通过将输入图像分解为主题、对象和动作子图像,并组合 CLIP 的视觉编码器和文本编码器来在组成性文本嵌入和子图像嵌入上执行动态匹配,从而实现了对差异性语义的建模,提高了 CLIP 的零样本推理能力。
Nov, 2022
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
为了更准确地预测未见过的属性 - 物体对并改善在开放世界中的组合过滤,在通常被忽略的特异性水平上考虑属性的多样性和上下文,我们引入了基于上下文和多样性的特异性学习框架用于组合零样本学习 (CDS-CZSL)。在闭世界和开放世界的情景中进行了实验,我们的模型在三个数据集上实现了最先进的结果。
Feb, 2024