Aug, 2024

SEA:用于多模态大语言模型的标记级视觉文本集成的监督嵌入对齐

TL;DR本研究解决了多模态大语言模型中视觉和语言组件之间的显著不对齐问题,限制了模型的实用性。提出的监督嵌入对齐(SEA)方法通过对比学习,将视觉标记与大语言模型的嵌入空间对齐,从而提升了模型的性能和可解释性。实验表明,SEA在无需增加额外数据或推理计算的情况下显著改善了模型表现,尤其是对小型模型影响显著。