在大型语言模型中种下一个愿景的种子
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉理解能力,特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。
May, 2023
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为LLM可以阅读的一系列离散标记的视觉分词器,LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像-文本语料库上预训练的LaVIT具有令人印象深刻的多模态理解能力。广泛的实验表明,它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此https URL上提供。
Sep, 2023
通过引入SEED图像标记器,使LLMs能够在其原始训练配方下执行可扩展的多模式自回归,并在广泛的多模式理解和生成任务中展示出令人印象深刻的性能。
Oct, 2023
通过引入MAGVIT-v2作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。
Oct, 2023
我们研究了大型语言模型(LLM)在没有对多模态数据集进行微调的情况下,直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器(V2T Tokenizer),通过编码器-解码器、LLM词汇表和CLIP模型将图像转换成“外语”。通过这种创新的图像编码方式,LLM不仅具备了视觉理解能力,还能以自回归方式进行图像去噪和恢复,关键是不需要任何微调。我们进行了严格的实验证实了我们的方法,包括图像识别、图像字幕、视觉问题回答等理解任务,以及修复任务,如修复、扩展、去模糊和位移复原。
Mar, 2024
我们介绍了SEED-Bench-2-Plus,这是一个专门设计用于评估MLLMs的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前MLLMs在文本丰富视觉理解方面的限制。
Apr, 2024
通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能,通过分析注意力集中现象和信息迁移现象,我们发现在深层的MLLMs中不需要视觉特征信息,并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作,使得我们的方法能在维持性能的同时,减少超过40%的计算开销。
May, 2024
本研究针对多模态大型语言模型在计算成本方面的挑战,提出了一种动态剪枝算法,旨在提高模型的训练和推理效率。通过对视觉和CLS标记的相似性进行分析,该方法在不显著降低性能的情况下,将输入标记减少至原始数量的22%。
Sep, 2024
本研究针对多模态大型语言模型在视觉与文本信息对齐方面的困难,提出了一种新型图像标记器,利用字节对编码原理直接将结构先验信息融入图像标记中。这一创新方法显著提升了模型在多模态理解能力上的表现,并展示了在有限训练数据下的良好扩展性,可能为更高效的多模态基础模型开辟新的方向。
Oct, 2024
本文解决了多模态大型语言模型在视觉和文本信息整合中的对齐问题。我们提出了一种创新的图像标记器,通过将字节对编码(BPE)原则应用于视觉数据,直接将结构先验信息融入图像符号,实现了更有效的多模态学习和推理。实验证明,该方法显著提升了模型的多模态理解能力,并展现出良好的可扩展性。
Oct, 2024