May, 2023

跨语言模型传递视觉提示生成器

TL;DR本文旨在探究现有 VPG 在 VL-LLMs 之间的可迁移性,并通过提出的 VPGTrans 方案,成功在不牺牲性能的情况下将 VPG 从 BLIP-2 OPT $_{2.7B}$ 迁移到了 BLIP-2 OPT $_{6.7B}$,在迁移过程中节省了 10 倍的时间和 10.7% 的训练数据。