May, 2024

可视锚点是多模态大语言模型的强信息聚合器

TL;DR本研究提出了一种强大的视觉 - 语言连接器,通过挖掘视觉锚点并在预训练中利用其丰富的先验知识,实现高准确性和低计算成本的多模态大型语言模型。通过广泛的实验验证,该方法相比基线方法将计算成本减少了三分之二,同时表现更好,突显了 AcFormer 的效果和效率。