Feb, 2024

图像字幕编码提升零样本泛化能力

TL;DR最近的视觉语言模型通过将对比方法与生成方法相结合,在下游推理任务(如零样本图像分类)上取得了最先进的效果。然而,图像分类模型的一个持续问题是它们在未知分布下的泛化能力。我们提出了图像 - 字幕编码(ICE)方法,通过直接在评估时仅强制图像条件和字幕条件的预测一致性来引导模型预测到正确的类别。我们展示了该方法可以与其他最先进方法轻松结合,平均提高 0.5%的一流未知分布准确率,在具有挑战性的数据集上高达 3%。