Jun, 2024

让任何多模态大型语言模型都能高效地进行上下文学习

TL;DR通过聚合多模态演示的图像信息到相应的语言部分的密集潜在空间,我们提出了一种称为 AIM 的通用轻量级框架来解决多模态 ICL 的两个问题。