Dec, 2024

LlamaFusion:为多模态生成适应预训练语言模型

TL;DR本文提出了LlamaFusion框架,针对预训练的文本专属大型语言模型(LLMs)赋予其多模态生成能力,从而能够理解和生成文本与图像。该框架通过冻结文本特定模块,仅训练图像特定模块,显著提高图像理解和生成能力,并在保留语言能力的同时,仅使用50%的计算量实现了20%的理解提升和3.6%的生成改进,展现了高效多模态模型开发的新方向。