轻量级上下文调整的多模态统一模型
基于多模式大型语言模型和大型语言模型,提出了一种新颖的上下文学习方法(In-Context Learning),通过加强因果关系,引导模型识别类比和数据点间的潜在因果关联,使模型能够识别未见过的图像和理解新概念更有效。
Aug, 2023
该研究分析了不同的多模态指导调优方法,并评估了它们在复杂推理、对话、图像字幕、多项选择题和二元分类等任务中的性能,揭示了在将多模态能力融入大型语言模型时的架构选择的关键见解,但当前方法存在局限性,未能充分解决丰富多样的多模态指导数据集的需求和生成响应的真实性和事实性问题,这些发现阐明了适应图像理解的语言模型的现有方法学限制,并为寻求利用多模态版本的大型语言模型的研究人员和实践者提供了有价值的指导。
Oct, 2023
我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架,通过将文本和视觉提示量化和嵌入到统一的表示空间中,并采用仅具有解码器的稀疏Transformer架构在其上执行生成建模。实验结果表明,我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言,我们的研究在统一多模态上下文学习方面迈出了进一步的一步。
Dec, 2023
我们展示了一个37亿参数的生成式多模态模型Emu2,通过在大规模多模态序列上训练,使模型具备了强大的多模态上下文学习能力,甚至能够解决需要实时推理的任务,如视觉提示和目标驱动生成。该模型在少样本情况下刷新了多个多模态理解任务的记录,并在指令调整后在问题回答和主题驱动生成等挑战性任务上达到了最新的最高水平。这些成就表明Emu2可以作为一个基准模型和广泛应用于各种多模态任务的通用接口。
Dec, 2023
通过对一些最先进的VLM(Visual Language Model)进行分析,我们发现它们在执行ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的VLM对齐框架,实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了21.03%的ICL表现(平均11.3%),超过了最强VLM基线和多种ICL基准,并为VLM的ICL评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
Mar, 2024
该研究介绍了一个全面的多模态上下文学习基准测试VL-ICL Bench,评估了先进的视觉大语言模型在这个基准测试套件上的能力,揭示了它们的各种优势和弱点,并表明即使是最先进的模型,如GPT-4,也会在这些任务中面临挑战。
Mar, 2024
通过对大型多模态模型的多模态ICL的研究,我们发现M-ICL主要依赖于文本驱动机制,几乎不受图像模态的影响。当与高级ICL策略(如RICES)一起使用时,M-ICL并不比基于大多数投票的上下文示例简单策略更好,此外,我们还发现了几种M-ICL的偏见和局限性,值得在部署之前考虑。
Apr, 2024
学习型ICV(L-ICV)从示范中提取必要的任务信息,改善LMM中的ICL性能,通过与传统ICL和其他不可学习的ICV方法相比,实验结果显示L-ICV能够显著降低计算成本并提高VQA任务的准确性。
Jun, 2024
通过利用内插的大型多模态模型中的多模态任务向量,我们的研究工作实现了多模态的多射击上下文学习,并证明这些提取出的多模态任务向量可以随着压缩射击数的增加而提高性能,并且可以推广到类似的领域任务而不需要额外的上下文长度进行推理。
Jun, 2024