InternLM-XComposer2：掌握视觉语言大型模型中的自由文本 - 图像组合和理解

Jan, 2024

InternLM-XComposer2：掌握视觉语言大型模型中的自由文本 - 图像组合和理解

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang...

TL;DRInternLM-XComposer2 是一种先进的视觉 - 语言模型，擅长自由形式的文本 - 图像组合和理解，在从轮廓、详细的文本规范和参考图像等多样输入中巧妙地创建交错的文本 - 图像内容，实现了高度可定制的内容创作。InternLM-XComposer2 提出了 “Partial LoRA (PLoRA)” 方法，将额外的 LoRA 参数专门应用于图像标记，以保留预训练语言知识的完整性，在精确的视觉理解和具有文学才能的文本组合之间取得平衡。实验结果表明，在产生高质量的长文本多模态内容和在各种基准测试中的出色视觉 - 语言理解性能方面，InternLM-XComposer2 基于 InternLM2-7B 模型具有明显优势，不仅显著优于现有的多模态模型，而且在某些评估中甚至超过 GPT-4V 和 Gemini Pro，凸显了它在多模态理解领域的卓越能力。InternLM-XComposer2 系列模型的参数为 7B，可公开获取。

Abstract

We introduce internlm-xcomposer2, a cutting-edge vision-language model excelling in free-form text-image composition and comprehension. Th

internlm-xcomposer2 vision-language model text-image composition multimodal understanding language knowledge

发现论文，激发创造

InternLM-XComposer：面向高级文本图像理解与构图的视觉语言大模型

我们提出了 InternLM-XComposer，一个能够实现高级图像 - 文本理解和组合的视觉语言模型。该模型具有三个吸引人的特点：1）交错式文本 - 图像组合：InternLM-XComposer 可以轻松生成连贯且情境感强的文章，将图像无缝地融入其中，提供更具吸引力和沉浸式的阅读体验。只需提供标题，我们的系统将生成相应的手稿。它能够智能地识别文本中可以增强内容的图像区域，并自动插入最合适的视觉候选。2）基于丰富的多语言知识的理解：通过在广泛的多模态多语言概念上进行训练，并采用精心设计的策略，增强了图片 - 文本的理解能力。3）最先进的性能：我们的模型在包括 MME 基准、MMBench、MMBench-CN、Seed-Bench 和 CCBench（中国文化基准）等各种主流视觉 - 语言基础模型基准测试中始终取得最先进的结果。综上所述，InternLM-XComposer 巧妙地融合了先进的文本 - 图像理解和组合，革新了视觉 - 语言交互，并提供了新的见解和机会。InternLM-XComposer 带有 70 亿参数的模型已公开提供于此 URL。

Sep, 2023

InternLM-XComposer2-4KHD: 处理从 336 像素到 4K 高清分辨率的创新大型视觉语言模型

InternLM-XComposer2-4KHD 是一项具有里程碑意义的研究，通过引入动态分辨率和自动分片配置的新方法，将 LVLM 的分辨率能力提升到 4K HD 并在多个方面取得了卓越的性能提升。

Apr, 2024

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Nov, 2023

冻结大型语言模型在视觉信号理解中的应用

我们研究了大型语言模型（LLM）在没有对多模态数据集进行微调的情况下，直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器（V2T Tokenizer），通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成 “外语”。通过这种创新的图像编码方式，LLM 不仅具备了视觉理解能力，还能以自回归方式进行图像去噪和恢复，关键是不需要任何微调。我们进行了严格的实验证实了我们的方法，包括图像识别、图像字幕、视觉问题回答等理解任务，以及修复任务，如修复、扩展、去模糊和位移复原。

Mar, 2024

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

GPT-4V 的进展：通过开源套件缩小与商业多模型的差距

InternVL 1.5 是一种开源的多模态大型语言模型，通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进，提升了多模态理解的能力，在 OCR 和中文相关任务中达到与传统型和专有模型相竞争的性能。

Apr, 2024

InternLM2 技术报告

InternLM2 是一种开源的大型语言模型，通过创新的预训练和优化技术，在多个维度和 30 个基准测试中优于之前的模型，并在长文本建模和开放主观评估方面取得突出表现。该模型通过精心设计的预训练过程，使用了包括文本、代码和长文本数据在内的多种数据类型，并具备捕捉长期依赖、高效处理任务的能力。此外，通过释放不同训练阶段和模型大小的 InternLM2 模型，为社区提供了对模型演进的深入理解。

Mar, 2024

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024