Aug, 2024

跨模态适配器:高效的多模态大型语言模型

TL;DR本研究解决了多模态大语言模型在成本效益训练和适应性方面的挑战,现有方法通常需要昂贵的语言模型重训练且适应性有限。本研究提出的CROME框架通过新颖的门控跨模态适配器有效组合视觉和文本表示,展示了在视觉问答和指令跟随基准测试上的卓越零-shot性能,并在参数效率方面与任务特定的最佳方法相竞争,揭示了预训练语言模型对构建可扩展和高效的多模态模型的潜力。