Aug, 2023

通过自我结构语义对齐实现真实零样本分类

TL;DR我们提出了Self Structural Semantic Alignment (S^3A)框架,该框架通过从无标签数据中提取结构语义信息并进行自学习,克服了传统的基于大规模预训练视觉语言模型方法所存在的假设有部分源监督或理想词汇表的限制,通过Cluster-Vote-Prompt-Realign算法实现迭代聚类,利用大语言模型生成辨别性提示来识别混淆的类别候选项,并通过师生学习策略进行自学习,实现了对现实中零样本分类的挑战,多个实验表明该方法明显优于现有的基于VLMs的方法,相对于CLIP平均提高了15%以上的准确性。