Oct, 2024

从像素到标记:量化视觉模态中的字节对编码

TL;DR本研究针对多模态大型语言模型在视觉与文本信息对齐方面的困难,提出了一种新型图像标记器,利用字节对编码原理直接将结构先验信息融入图像标记中。这一创新方法显著提升了模型在多模态理解能力上的表现,并展示了在有限训练数据下的良好扩展性,可能为更高效的多模态基础模型开辟新的方向。