May, 2023

面向组合式零样本学习的语言指导分布促进

TL;DR本文提出了一种使用CLIP模型的语言信息分布——PLID模型来增强光学识别任务中未知组合视觉概念的泛化性能,通过软提示类嵌入式的组合和原始的嵌入式混合策略来融合一致的分类决策。使用MIT-States、UT-Zappos、C-GQA数据集的实验结果表明,PLID方法相较于其他方法表现更佳。