Ovis: 多模型大型语言模型的结构嵌入对齐
本研究介绍了一种新的培训范式 mPLUG-Owl,该方法通过基于模块化的学习将 Large language models(LLMs)配备了多模态能力。实验表明,通过此方法可以获得多种单模态和多模态能力,包括指导视觉能力、多回合对话和知识推理等,同时出现了一些意想不到且令人兴奋的特性,如多图像相关性和场景文本理解。
Apr, 2023
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
本研究提出了一种用于多模态大型语言模型的新型视觉表达方法 ——Visual Table,它提供了层次化的视觉场景文本描述,并包括了场景描述和多个以对象为中心的描述,涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示,我们的模型在多个基准测试中始终优于现有最先进的多模态大型语言模型。当视觉表格作为独立的视觉表示时,我们的模型可以与甚至超过基于 CLIP 视觉嵌入的最先进的多模态大型语言模型。
Mar, 2024
使用集成专家技术,从不同的视觉编码器中协同能力,通过融合网络统一处理来自不同视觉专家的输出,并解决图像编码器和预训练 LLMs 之间的差距,同时探索不同的位置编码方案以解决位置溢出和长度限制问题,实验证明,具有多个专家的 VLMs 在性能上表现出优势,并随着集成更多专家而显著提升表现。
Jan, 2024
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
通过参数空间对齐,我们提出了一种新颖的方法来表示视觉信息,将其表示为模型权重,并使用感知权重与 LLM 的权重进行合并。这种方法不需要视觉令牌作为 LLM 的输入,从而减少了输入序列的长度并大大提高了效率。我们的 VLoRA 基于此方法,通过感知权重生成器将视觉特征转换为低秩属性的感知权重,通过在各种基准测试中实验证明,VLoRA 在 MLLMs 上实现了可比较的性能,并显著降低了训练和推断的计算成本。
May, 2024
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023
这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了 MLLMs 的视觉感知能力。
Jan, 2024