Dec, 2023

序列建模为大型视觉模型实现可扩展学习

TL;DR我们引入了一种新颖的顺序建模方法,可以学习大规模视觉模型(LVM)而无需使用任何语言数据。通过将原始图像、视频以及注解数据源转化为 “视觉句子” 的公共格式,我们可以表示各种视觉数据,并通过训练模型来解决多个视觉任务。