Mar, 2024
填补视觉语言模型选择中的模态和容量差距
Bridge the Modality and Capacity Gaps in Vision-Language Model Selection
TL;DR本文分析了在使用语言-仅依据进行视觉语义模型(VLM)选择中的两个固有挑战:模态差异和能力差异,并提出了一种称为SWAB的方法来缓解这两个差距,通过最优传输捕捉开源数据集与目标数据集之间的相关性,并将有用的统计信息从开源数据集传输到目标数据集,从而增强VLM在选择中的能力估计。通过在多个VLM和图像分类数据集上进行的实验验证了SWAB的有效性。