NVLM:开放前沿级多模态大语言模型
本文介绍了一个 LVLM-eHub综合评估平台,使用6种多模态能力定量评估47个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的LVLM评估流水线提供了启示。
Jun, 2023
讨论构建出色的多模态大型语言模型的重要组成部分和数据选择,通过仔细和全面的分析,证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型,构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型,这些模型在预训练指标上取得最新成果,并在一系列已建立的多模态基准测试中实现了有竞争力的性能。
Mar, 2024
通过对一些最先进的VLM(Visual Language Model)进行分析,我们发现它们在执行ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的VLM对齐框架,实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了21.03%的ICL表现(平均11.3%),超过了最强VLM基线和多种ICL基准,并为VLM的ICL评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
Mar, 2024
该研究介绍了一个全面的多模态上下文学习基准测试VL-ICL Bench,评估了先进的视觉大语言模型在这个基准测试套件上的能力,揭示了它们的各种优势和弱点,并表明即使是最先进的模型,如GPT-4,也会在这些任务中面临挑战。
Mar, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
InternVL 1.5是一种开源的多模态大型语言模型,通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进,提升了多模态理解的能力,在OCR和中文相关任务中达到与传统型和专有模型相竞争的性能。
Apr, 2024
我们介绍了Xmodel-VLM,这是一款先进的多模态视觉语言模型,旨在在消费级GPU服务器上进行高效部署。我们的工作直接应对了一个关键行业问题,即解决了巨大规模多模态系统普及所面临的高昂服务成本限制。通过严格的训练,我们从头开始开发了一个10亿级的语言模型,采用了LLaVA模式用于模态对齐。结果是,我们称之为Xmodel-VLM的模型,它既轻量又强大。通过在多个经典多模态基准测试中进行了全面的测试,我们发现尽管模型体积较小且执行速度更快,但Xmodel-VLM的性能与较大模型相当。我们的模型检查点和代码公开在GitHub上提供。
May, 2024
本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制,采用组合注意力机制,既不增加额外模块或可学习参数,又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能,具有显著的潜在影响。
Aug, 2024