May, 2024

大语言模型权重的视觉感知

TL;DR通过参数空间对齐,我们提出了一种新颖的方法来表示视觉信息,将其表示为模型权重,并使用感知权重与 LLM 的权重进行合并。这种方法不需要视觉令牌作为 LLM 的输入,从而减少了输入序列的长度并大大提高了效率。我们的 VLoRA 基于此方法,通过感知权重生成器将视觉特征转换为低秩属性的感知权重,通过在各种基准测试中实验证明,VLoRA 在 MLLMs 上实现了可比较的性能,并显著降低了训练和推断的计算成本。