May, 2023

面向组合式零样本学习的语言指导分布促进

TL;DR本文提出了一种使用 CLIP 模型的语言信息分布 ——PLID 模型来增强光学识别任务中未知组合视觉概念的泛化性能,通过软提示类嵌入式的组合和原始的嵌入式混合策略来融合一致的分类决策。使用 MIT-States、UT-Zappos、C-GQA 数据集的实验结果表明,PLID 方法相较于其他方法表现更佳。