Dec, 2023
InternVL:扩展视觉基础模型并对通用视觉语言任务进行对齐
InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks
TL;DR通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到60亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。