从像素到标记:量化视觉模态中的字节对编码
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉理解能力,特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。
May, 2023
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为LLM可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像-文本语料库上预训练的LaVIT具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此https URL上提供。
Sep, 2023
提出了一种名为UniCode的新方法,通过学习统一的码书,能够在多模态的大型语言模型中有效地对视觉、文本和其他类型的信号进行标记化,通过使用语言驱动的迭代训练方法和图像解压缩预训练任务,我们的模型能够解释压缩的视觉数据并生成高质量图像。UniCode可适应各种堆叠的量化方法,将视觉信号压缩为更紧凑的标记表示。尽管在训练过程中使用的参数和数据少得多,但UniCode在视觉重建和生成方面展示出有希望的能力,并在各种VQA基准测试中实现了与领先的MLLM相当的性能。
Mar, 2024
通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能,通过分析注意力集中现象和信息迁移现象,我们发现在深层的MLLMs中不需要视觉特征信息,并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作,使得我们的方法能在维持性能的同时,减少超过40%的计算开销。
May, 2024
在视觉-语言预训练框架中,通过提供语义上有意义的视觉标记给transformer编码器,本文探索了视觉transformer在学习综合和组合性视觉数据表示方面的限制,并通过使用现成的分割和场景图模型,提取了实例分割掩码(称为有形标记)和关系动作(称为无形标记)的表示,从而在视觉side的transformer预训练中引入了这些新增的标记,并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明,在COCO数据集上,相比ViTs,在文本到图像(+47%)和图像到文本(+44%)检索任务中学到了更好的表示质量,并且在组合性评估基准(如ARO(+18%)和Winoground(+10%))上展示了优势。
May, 2024
测量视觉-语言对齐中投影模块的有效性的问题尚未得到充分探索,本研究通过追踪语义相关流从生成的语言标记到原始视觉编码器块和投影模块的中间输出,揭示了'双抽象'现象。为了缓解这个问题,本研究提出了“Decouple Compression from Abstraction(DeCo)”的关键见解,通过投影模块在补丁层面压缩视觉标记数量,并使LLM完全处理视觉语义抽象,实验证明DeCo在性能和效率方面优于传统的压缩式投影模块。
May, 2024
该研究针对多模态大语言模型(MLLMs)在图像跨模态指令处理中的语义对齐问题,提出了一种新方法——语义对齐模型(SAM)。通过在视觉标记提取过程中实现不同图像之间的双向语义指导,SAM显著提升了图像间联系信息的保留,实验结果表明其在组caption任务和故事讲述任务上均明显优于现有方法,显示出巨大的潜在影响。
Aug, 2024
本研究针对大规模多模态模型在视觉令牌压缩中的不足,提出了一种基于文本信息的动态视觉令牌恢复机制,此机制可以有效避免重要信息的损失。实验结果显示,该方法在压缩视觉令牌至原始数量的10%时,表现与原始方法相当,提升了模型的训练与推理效率。
Sep, 2024