May, 2023
大型语言模型的良好视觉分词器的特点是什么?
What Makes for Good Visual Tokenizers for Large Language Models?
TL;DR通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉理解能力,特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。