InternLM-XComposer：面向高级文本图像理解与构图的视觉语言大模型

Sep, 2023

InternLM-XComposer：面向高级文本图像理解与构图的视觉语言大模型

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

Pan Zhang, Xiaoyi Dong Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang...

TL;DR我们提出了 InternLM-XComposer，一个能够实现高级图像 - 文本理解和组合的视觉语言模型。该模型具有三个吸引人的特点：1）交错式文本 - 图像组合：InternLM-XComposer 可以轻松生成连贯且情境感强的文章，将图像无缝地融入其中，提供更具吸引力和沉浸式的阅读体验。只需提供标题，我们的系统将生成相应的手稿。它能够智能地识别文本中可以增强内容的图像区域，并自动插入最合适的视觉候选。2）基于丰富的多语言知识的理解：通过在广泛的多模态多语言概念上进行训练，并采用精心设计的策略，增强了图片 - 文本的理解能力。3）最先进的性能：我们的模型在包括 MME 基准、MMBench、MMBench-CN、Seed-Bench 和 CCBench（中国文化基准）等各种主流视觉 - 语言基础模型基准测试中始终取得最先进的结果。综上所述，InternLM-XComposer 巧妙地融合了先进的文本 - 图像理解和组合，革新了视觉 - 语言交互，并提供了新的见解和机会。InternLM-XComposer 带有 70 亿参数的模型已公开提供于此 URL。

Abstract

We propose internlm-xcomposer, a vision-language large model that enables advanced image-text comprehension and composition. The innovativ

internlm-xcomposer vision-language image-text comprehension multilingual knowledge state-of-the-art performance

发现论文，激发创造

InternLM-XComposer2：掌握视觉语言大型模型中的自由文本 - 图像组合和理解

InternLM-XComposer2 是一种先进的视觉 - 语言模型，擅长自由形式的文本 - 图像组合和理解，在从轮廓、详细的文本规范和参考图像等多样输入中巧妙地创建交错的文本 - 图像内容，实现了高度可定制的内容创作。InternLM-XComposer2 提出了 “Partial LoRA (PLoRA)” 方法，将额外的 LoRA 参数专门应用于图像标记，以保留预训练语言知识的完整性，在精确的视觉理解和具有文学才能的文本组合之间取得平衡。实验结果表明，在产生高质量的长文本多模态内容和在各种基准测试中的出色视觉 - 语言理解性能方面，InternLM-XComposer2 基于 InternLM2-7B 模型具有明显优势，不仅显著优于现有的多模态模型，而且在某些评估中甚至超过 GPT-4V 和 Gemini Pro，凸显了它在多模态理解领域的卓越能力。InternLM-XComposer2 系列模型的参数为 7B，可公开获取。

Jan, 2024

InternLM-XComposer2-4KHD: 处理从 336 像素到 4K 高清分辨率的创新大型视觉语言模型

InternLM-XComposer2-4KHD 是一项具有里程碑意义的研究，通过引入动态分辨率和自动分片配置的新方法，将 LVLM 的分辨率能力提升到 4K HD 并在多个方面取得了卓越的性能提升。

Apr, 2024

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Nov, 2023

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

SongComposer: 歌曲生成中用于歌词和旋律创作的大型语言模型

SongComposer 是一种创新的基于 LLM 的歌曲作曲技术，通过利用 LLM 的能力来理解和生成具有象征性歌曲表示的旋律和歌词，通过符号化歌曲表示的方式，使 LLM 能够像人类一样明确地作曲，通过 SongCompose-PT 预训练数据集的收集和充分的预训练，SongComposer 在歌词到旋律生成、旋律到歌词生成、歌曲延续和文本到歌曲创作等领域展现出优越的性能。

Feb, 2024

GPT-4V 的进展：通过开源套件缩小与商业多模型的差距

InternVL 1.5 是一种开源的多模态大型语言模型，通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进，提升了多模态理解的能力，在 OCR 和中文相关任务中达到与传统型和专有模型相竞争的性能。

Apr, 2024

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

分而治之：语言模型可用于规划和自我纠正组合式文本到图像生成

我们提出了 CompAgent，这是一种无需训练的组合文本到图像生成方法，核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性，尤其是在保留对象属性和关系方面，通过先将文本提示分解成独立的对象、属性和场景布局，并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。

Jan, 2024

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024