InternVL:扩展视觉基础模型并对通用视觉语言任务进行对齐
通过ReForm-Eval基准测试,我们对LVLM的各种能力进行了全面的定量评估,发现并分析了现有LVLM的优点和缺点,并确定了潜在的影响因素。
Oct, 2023
通过引入视觉语义,将大规模的视觉-语言模型 (LVLMs) 融合到多模态对话中,Ziya-VL 在英语和汉语多模态场景中展现出了具有竞争力的图片-文本生成和理解能力。
Oct, 2023
通过对一些最先进的VLM(Visual Language Model)进行分析,我们发现它们在执行ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的VLM对齐框架,实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了21.03%的ICL表现(平均11.3%),超过了最强VLM基线和多种ICL基准,并为VLM的ICL评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
Mar, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于LLM中的世界知识。2)在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题,我们提出了MMStar,这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM,以评估它们的多模态能力,并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
InternVL 1.5是一种开源的多模态大型语言模型,通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进,提升了多模态理解的能力,在OCR和中文相关任务中达到与传统型和专有模型相竞争的性能。
Apr, 2024
我们提出了InternLM-XComposer-2.5(IXC-2.5),这是一个支持长上下文输入和输出的多功能大视野语言模型。通过使用包含24K交错的图像文本上下文进行训练,IXC-2.5可以无缝扩展到96K的长上下文,从而在需要广泛输入和输出上下文的任务中表现出色。在图像-文本理解方面,IXC-2.5具备超高分辨率理解、细粒度视频理解和多回合多图像对话三个重要升级。另外,在文本-图像组合方面,IXC-2.5通过使用额外的LoRA参数,扩展到两个引人注目的应用:网页构建和高质量的文本-图像文章创作。在28个基准测试中,IXC-2.5在16个基准测试中表现出色,优于已有的开源最先进模型,在16个关键任务上超过或接近GPT-4V和Gemini Pro。InternLM-XComposer-2.5可在指定的URL上公开获取。
Jul, 2024
本研究解决了单一多模态大型语言模型(MLLM)在集成视觉编码与语言解码的过程中面临的训练困难,尤其是灾难性遗忘的问题。提出了Mono-InternVL模型,通过在预训练语言模型中嵌入视觉参数并采用内生视觉预训练策略,显著提升了模型的视觉能力和部署效率,实验结果显示该模型在多个基准上优于现有最先进的MLLM。
Oct, 2024
本研究解决了多模态大语言模型(MLLM)在消费者级GPU或边缘设备上训练和部署的高计算成本问题。我们提出的Mini-InternVL系列模型在参数仅为5%的情况下实现90%的性能,通过统一适应框架使其在一系列下游任务中超越专门模型,显著提升了MLLM的应用效能。
Oct, 2024