Dec, 2023

InternVL:扩展视觉基础模型并对通用视觉语言任务进行对齐

TL;DR通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到60亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。