单一内部视觉模型：推动内生视觉预训练的单一多模态大型语言模型的边界

Oct, 2024

单一内部视觉模型：推动内生视觉预训练的单一多模态大型语言模型的边界

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

HTML

PDF

Gen Luo, Xue Yang, Wenhan Dou, Zhaokai Wang, Jifeng Dai...

TL;DR本研究解决了单一多模态大型语言模型（MLLM）在集成视觉编码与语言解码的过程中面临的训练困难，尤其是灾难性遗忘的问题。提出了Mono-InternVL模型，通过在预训练语言模型中嵌入视觉参数并采用内生视觉预训练策略，显著提升了模型的视觉能力和部署效率，实验结果显示该模型在多个基准上优于现有最先进的MLLM。

Abstract

The rapid advancement of Large Language Models (LLMs) has led to an influx of efforts to extend their capabilities to multimodal tasks. Among them, growing attention has been focused on monolithic Multimodal Large Language Models (MLLMs) that integrate visual encoding and language deco

发现论文，激发创造

基于深度学习的视觉-语言任务统一框架

通过引入pool-adapter模块，保留视觉嵌入的位置信息，我们的InfMLLM方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到60亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

融入视觉专家解决多模态大语言模型中的信息损失

这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型(MLLMs)的视觉感知能力的方法，并通过集成视觉专家实现了视觉输入的更全面准确的概括，进一步提升了MLLMs的视觉感知能力。

Jan, 2024

MM1: 多模态LLM预训练的方法、分析与洞察

讨论构建出色的多模态大型语言模型的重要组成部分和数据选择，通过仔细和全面的分析，证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型，构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型，这些模型在预训练指标上取得最新成果，并在一系列已建立的多模态基准测试中实现了有竞争力的性能。

Mar, 2024

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的VLM（Visual Language Model）进行分析，我们发现它们在执行ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的VLM对齐框架，实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了21.03%的ICL表现（平均11.3%），超过了最强VLM基线和多种ICL基准，并为VLM的ICL评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

GPT-4V的进展：通过开源套件缩小与商业多模型的差距

InternVL 1.5是一种开源的多模态大型语言模型，通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进，提升了多模态理解的能力，在OCR和中文相关任务中达到与传统型和专有模型相竞争的性能。

Apr, 2024

EE-MLLM：一种数据高效和计算高效的多模态大型语言模型

本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制，采用组合注意力机制，既不增加额外模块或可学习参数，又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能，具有显著的潜在影响。

Aug, 2024

NVLM：开放前沿级多模态大语言模型

本研究针对当前多模态大语言模型在视觉-语言任务中的表现不足，提出了NVLM 1.0系列模型，显著提升了该领域的性能。通过综合比较现有模型，提出了一种新架构，优化了训练效率及多模态推理能力。研究表明，数据集质量和任务多样性重于规模，推动了视觉-语言任务的研究进展。

Sep, 2024

Mini-InternVL：一个灵活传输的口袋多模态模型，参数仅占5%且性能达90%

本研究解决了多模态大语言模型（MLLM）在消费者级GPU或边缘设备上训练和部署的高计算成本问题。我们提出的Mini-InternVL系列模型在参数仅为5%的情况下实现90%的性能，通过统一适应框架使其在一系列下游任务中超越专门模型，显著提升了MLLM的应用效能。

Oct, 2024

自适应嵌入融合用于高效的视觉-语言调优

本研究针对视觉-语言模型在硬件资源需求和计算复杂性方面的挑战，提出了一种高效的方法ADEM-VL，采用无参数的交叉注意机制进行多模态融合。通过仅需嵌入视觉特征到语言空间，该方法显著减少了可训练参数数量，提高了训练和推理速度，同时在多个视觉-语言任务中表现优越，展现了其较现有方法更高的准确性和效率。

Oct, 2024