TokenPacker: 多模态 LLM 的高效视觉投影器
测量视觉 - 语言对齐中投影模块的有效性的问题尚未得到充分探索,本研究通过追踪语义相关流从生成的语言标记到原始视觉编码器块和投影模块的中间输出,揭示了 ' 双抽象 ' 现象。为了缓解这个问题,本研究提出了 “Decouple Compression from Abstraction(DeCo)” 的关键见解,通过投影模块在补丁层面压缩视觉标记数量,并使 LLM 完全处理视觉语义抽象,实验证明 DeCo 在性能和效率方面优于传统的压缩式投影模块。
May, 2024
通过减少视觉标记并合并相关标记,我们提出了一种自适应的视觉标记压缩方法 PruMerge,可以显著减少可视标记的数量并保持相似的模型性能。
Mar, 2024
通过实证研究,我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器,以使大型语言模型(LLM)成为强大的多模态大语言模型(MLLM)。我们发现,GVT 在不引入额外的参数和任务特定的微调的情况下,展现出了在多个尺度上的强大视觉理解能力,特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。
May, 2023
通过对视觉标记和训练效率的分析研究,提出了一种名为 Visual Context Compressor 的方法,通过压缩视觉标记来提高多模式模型的训练效率,最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。
Jun, 2024
通过实验证明,对多模态大型语言模型进行微调时,虽然确实获得了特定领域的视觉能力,但更新不会导致提取相关的特定领域视觉属性。结果表明,即使只对投影进行微调,领域特定的视觉属性仍由语言模型来建模。通过这项研究,我们提供了对多模态大型语言模型架构中交叉模态投影作用的潜在重新解释。
Feb, 2024
本文提出了一种名为 PerceptionGPT 的新型端到端框架,通过利用 LLMs 的 token 嵌入的表示能力,高效有效地赋予 VLLMs 视觉感知能力。该方法以 LLMs 的 token 嵌入作为空间信息的携带者,利用轻量级的视觉任务编码器和解码器执行视觉感知任务(如检测、分割),有效缓解了以往将视觉输出离散化为 token 的训练困难,并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外,由于推理过程中只需要一个 token 嵌入来解码视觉输出,结果序列长度可大幅减少。因此,该方法能够实现准确灵活的表示,无缝集成视觉感知任务,并高效处理多个视觉输出,通过广泛的实验证实了该方法的有效性和效率,结果表明,在更少的可训练参数和 GPU 时间的情况下取得了显著的改进,为未来赋予 LLMs 视觉感知能力的研究提供了便利。
Nov, 2023
本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法,该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记,从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中,我们提出的框架表现出竞争性的性能。
Feb, 2024
提出了一种新颖的动态语义等价视觉标记器(SeTok)来解决现有视觉标记器的问题,该标记器通过动态聚类算法将视觉特征分组为语义单元,灵活确定标记数目。由此产生的视觉标记能够有效地保持语义完整性,并捕捉低频和高频视觉特征。所提出的具备 SeTok 的多模态大型语言模型(Setokim)在各种任务中显着展现了卓越的性能,如我们的实验结果所证明。
Jun, 2024
通过引入 pool-adapter 模块,保留视觉嵌入的位置信息,我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。
Nov, 2023