Oct, 2024

EMMA:多模态大语言模型中的高效视觉对齐

TL;DR本研究针对多模态大语言模型中视觉编码与语言模型融合不佳的问题,提出了一种轻量级的跨模态模块EMMA,实现高效的视觉与文本编码融合。研究显示,EMMA在多个任务中的性能提升可达9.3%,并显著增强了模型对幻觉现象的鲁棒性。