May, 2023

LMPT:长尾多标签视觉识别中的类别特定嵌入损失的提示调整

TL;DR本研究提出了一种统一框架——基于类特定嵌入损失的提示调整(LMPT)——用于解决多标记视觉识别中长尾类别的问题,结合文本和图像,引入嵌入损失函数,以类感知的软间距和重新权重为基础,学习特定于类别的上下文,采用分布平衡型损失函数作为分类损失函数,进一步提高了小类别的性能,与前人研究方法和零样本CLIP相比,结果表明所提出的方法显著优于先前的最先进方法。