Feb, 2024

子对象级别图像标记化

TL;DR基于 Transformer 的视觉模型通常将图像以固定大小的方形分块作为输入单元,缺乏对图像内容的适应性,忽视了固有的像素分组结构。受语言模型中广泛采用的子词分词启发,我们提出了一种在子对象级别进行图像分词的方法,其中子对象通过分割模型(例如,分割任意模型)获得的具有语义含义的图像段表示。为了基于子对象分词实现学习系统,我们首先引入了一个序列到序列自编码器(SeqAE),将具有不同尺寸和形状的子对象段压缩为紧凑的嵌入向量,然后将子对象嵌入输入到大型语言模型中进行视觉语言学习。实证结果表明,与传统的分块级别分词相比,我们的子对象级别分词显著促进了将图像翻译为对象和属性描述的高效学习。代码和模型将在此 https URL 开源。