零 - shot 组合学习的提示调优
本文提出了一种新的模型用于 compositional zero-shot learning,该模型通过评估组合成分的可行性分数,采用余弦相似度来估计视觉特征和组成嵌入之间的相似度,从而实现解决开放世界中的 compositional zero-shot learning 问题的目标。在实验中,该方法表现出了显着的优越性能。
Jan, 2021
本文提出了一种使用 CLIP 模型的语言信息分布 ——PLID 模型来增强光学识别任务中未知组合视觉概念的泛化性能,通过软提示类嵌入式的组合和原始的嵌入式混合策略来融合一致的分类决策。使用 MIT-States、UT-Zappos、C-GQA 数据集的实验结果表明,PLID 方法相较于其他方法表现更佳。
May, 2023
通过使用 Composition Transformer(CoT)框架,我们提出了一种简单可扩展的方法来解决组合式零样本学习(CZSL)中的上下文问题、视觉特征可辨识性问题和真实世界组合数据的长尾分布问题;CoT 框架通过底层的自下而上方式提取代表性的物体嵌入,并通过顶层的自上而下方式以一种显式建模上下文性的对象引导注意力模块生成代表性的属性嵌入;我们还开发了一种简单的少数类属性增广(MAA)方法,通过混合两张图像和过采样少数类属性来合成虚拟样本,以解决不平衡的数据分布所引起的预测偏差;我们的方法在多个基准测试集上达到了最先进的性能,包括 MIT-States,C-GQA 和 VAW-CZSL;此外,我们还展示了 CoT 在提高视觉辨识能力和解决因不平衡数据分布而引起的模型偏差方面的有效性。
Aug, 2023
本文介绍了一种名为 DRPT 的新型分离和循环提示调整框架,通过将状态和对象原语视为嵌入提示中的可学习词汇标记,并在已知组成物上进行调整,精细地调整提示参数并优化引导空间,从而更好地发挥视觉语言模型在组成零样本学习中的潜力。
May, 2023
本文提出了一种叫做 CSP 的组成式软提示技术,用于提高大规模预训练视觉 - 语言模型的零样本组成性能;对比已有的方法,CSP 通过训练学习组件而不是固定的预设生词表,可以实现更好的预测表现。
Apr, 2022
本文研究 open-world compositional zero-shot learning 领域,提出了一种基于 primitive 预测、使用 external knowledge 估计可行性的模型 KG-SP,并引入 CZSL under partial supervision 的新设置,实现了优于竞争对手的表现。
May, 2022
本文针对画面语言模型在组合式零样本学习领域存在的问题,提出了一种基于多路径识别分支的新型组合式零样本学习范式,同时加入跨模态牵引模块,通过大量实验验证, 该方法在闭环和开环设置下,均优于现有解决方案。
Mar, 2023
该论文提出了元调谐(meta-tuning)方法,旨在直接针对零样本学习目标对预训练语言模型进行微调,应用于分类任务,并通过聚合 43 个现有的数据集和 441 个标签描述来构建元数据集。实验证明,相比基于自然语言推理的先前 SOTA 零样本学习系统以及同样大小的 QA 模型,元调整模型在新的任务上表现更好,同时我们认为,增加参数数量会进一步提升 AUC-ROC 分数。
Apr, 2021
本文提出了一种基于图卷积神经网络的组合余弦图嵌入方法,通过估计每种未知组合的可行性得分,进而提高其在余弦相似度损失函数中的权重,并在开放世界场景中实现了最先进的表现。
May, 2021