Aug, 2024

VLM-KD:基于 VLM 的长尾视觉识别知识蒸馏

TL;DR本研究解决了视觉识别中知识蒸馏在长尾分类问题上的不足,通过采用现成的视觉语言模型(VLM)生成新的文本监督来改进传统的视觉教师模型。VLM-KD 框架展现了其在多个评估数据集上的优越性,超越了多种最新的长尾视觉分类器,标志着在视觉编码器中应用文本监督蒸馏的首创。