Mar, 2024

UniCode: 学习用于多模态大型语言模型的统一码书

TL;DR提出了一种名为 UniCode 的新方法,通过学习统一的码书,能够在多模态的大型语言模型中有效地对视觉、文本和其他类型的信号进行标记化,通过使用语言驱动的迭代训练方法和图像解压缩预训练任务,我们的模型能够解释压缩的视觉数据并生成高质量图像。UniCode 可适应各种堆叠的量化方法,将视觉信号压缩为更紧凑的标记表示。尽管在训练过程中使用的参数和数据少得多,但 UniCode 在视觉重建和生成方面展示出有希望的能力,并在各种 VQA 基准测试中实现了与领先的 MLLM 相当的性能。