Aug, 2024

多模态大语言模型的语义对齐

TL;DR该研究针对多模态大语言模型(MLLMs)在图像跨模态指令处理中的语义对齐问题,提出了一种新方法——语义对齐模型(SAM)。通过在视觉标记提取过程中实现不同图像之间的双向语义指导,SAM显著提升了图像间联系信息的保留,实验结果表明其在组caption任务和故事讲述任务上均明显优于现有方法,显示出巨大的潜在影响。