Sep, 2023

InternLM-XComposer:面向高级文本图像理解与构图的视觉语言大模型

TL;DR我们提出了 InternLM-XComposer,一个能够实现高级图像 - 文本理解和组合的视觉语言模型。该模型具有三个吸引人的特点:1)交错式文本 - 图像组合:InternLM-XComposer 可以轻松生成连贯且情境感强的文章,将图像无缝地融入其中,提供更具吸引力和沉浸式的阅读体验。只需提供标题,我们的系统将生成相应的手稿。它能够智能地识别文本中可以增强内容的图像区域,并自动插入最合适的视觉候选。2)基于丰富的多语言知识的理解:通过在广泛的多模态多语言概念上进行训练,并采用精心设计的策略,增强了图片 - 文本的理解能力。3)最先进的性能:我们的模型在包括 MME 基准、MMBench、MMBench-CN、Seed-Bench 和 CCBench(中国文化基准)等各种主流视觉 - 语言基础模型基准测试中始终取得最先进的结果。综上所述,InternLM-XComposer 巧妙地融合了先进的文本 - 图像理解和组合,革新了视觉 - 语言交互,并提供了新的见解和机会。InternLM-XComposer 带有 70 亿参数的模型已公开提供于此 URL。