Apr, 2024

BRAVE:拓宽视觉语言模型的视觉编码

TL;DR通常,视觉语言模型(VLM)由视觉编码器(例如 CLIP)和解释编码特征以解决下游任务的语言模型(LM)组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性,我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能。我们观察到,没有一种单一的编码配置能在不同任务中始终达到最佳性能,具有不同偏差的编码器可以表现出令人惊讶的相似性。出于这个动机,我们提出了一种名为 BRAVE 的方法,该方法将多个冻结的编码器的特征整合成更多变的表示,并直接作为冻结的 LM 的输入。BRAVE 在广泛的字幕生成和视觉问答基准上实现了最先进的性能,并显著减轻了 VLM 的先前问题,同时需要比现有方法更少的可训练参数并具有更紧凑的表示。我们的结果突显了将不同的视觉偏差纳入 VLM 以获得更广泛和上下文化的视觉理解的潜力。