TokenPacker: 多模态 LLM 的高效视觉投影器

Jul, 2024

TokenPacker: 多模态 LLM 的高效视觉投影器

TokenPacker: Efficient Visual Projector for Multimodal LLM

Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang...

TL;DR我们提出了一种新的视觉投影仪，采用粗细方案，通过注入丰富的特征生成压缩的视觉标记，并实现了更高的效率。

Abstract

The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a multimodal llm (mllm

visual projector multimodal llm mllm visual tokens llm reasoning

发现论文，激发创造

多模态大型语言模型中标记压缩与语义抽象的解耦

测量视觉 - 语言对齐中投影模块的有效性的问题尚未得到充分探索，本研究通过追踪语义相关流从生成的语言标记到原始视觉编码器块和投影模块的中间输出，揭示了 ' 双抽象 ' 现象。为了缓解这个问题，本研究提出了 “Decouple Compression from Abstraction（DeCo）” 的关键见解，通过投影模块在补丁层面压缩视觉标记数量，并使 LLM 完全处理视觉语义抽象，实验证明 DeCo 在性能和效率方面优于传统的压缩式投影模块。

May, 2024

LLaVA-PruMerge: 高效大型多模态模型的自适应令牌减少

通过减少视觉标记并合并相关标记，我们提出了一种自适应的视觉标记压缩方法 PruMerge，可以显著减少可视标记的数量并保持相似的模型性能。

Mar, 2024

大型语言模型的良好视觉分词器的特点是什么？

通过实证研究，我们讨论了将主流的预训练方法应用于视觉编码器以构建良好的视觉分词器，以使大型语言模型（LLM）成为强大的多模态大语言模型（MLLM）。我们发现，GVT 在不引入额外的参数和任务特定的微调的情况下，展现出了在多个尺度上的强大视觉理解能力，特别是在视觉问答、图像字幕、对象计数和多类别识别等细粒度视觉理解任务上具有优异的性能。

May, 2023

LLaVolta: 通过分阶段视觉上下文压缩实现高效多模态模型

通过对视觉标记和训练效率的分析研究，提出了一种名为 Visual Context Compressor 的方法，通过压缩视觉标记来提高多模式模型的训练效率，最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。

Jun, 2024

为多模态 LLM 自动编码 Morph-Tokens

多模式 LLMs 的新方法利用形态标记解决了视觉理解和生成之间的冲突，并在多模式理解和生成中取得了 SOTA 结果。

May, 2024

神秘投影：多模态 LLMs 获得领域特定的视觉能力，无需更丰富的跨模态投影

通过实验证明，对多模态大型语言模型进行微调时，虽然确实获得了特定领域的视觉能力，但更新不会导致提取相关的特定领域视觉属性。结果表明，即使只对投影进行微调，领域特定的视觉属性仍由语言模型来建模。通过这项研究，我们提供了对多模态大型语言模型架构中交叉模态投影作用的潜在重新解释。

Feb, 2024

PerceptionGPT: 将视觉感知有效融合到 LLM 中

本文提出了一种名为 PerceptionGPT 的新型端到端框架，通过利用 LLMs 的 token 嵌入的表示能力，高效有效地赋予 VLLMs 视觉感知能力。该方法以 LLMs 的 token 嵌入作为空间信息的携带者，利用轻量级的视觉任务编码器和解码器执行视觉感知任务（如检测、分割），有效缓解了以往将视觉输出离散化为 token 的训练困难，并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外，由于推理过程中只需要一个 token 嵌入来解码视觉输出，结果序列长度可大幅减少。因此，该方法能够实现准确灵活的表示，无缝集成视觉感知任务，并高效处理多个视觉输出，通过广泛的实验证实了该方法的有效性和效率，结果表明，在更少的可训练参数和 GPU 时间的情况下取得了显著的改进，为未来赋予 LLMs 视觉感知能力的研究提供了便利。

Nov, 2023

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

面向多模态语言模型中的标记化语义等价性

提出了一种新颖的动态语义等价视觉标记器（SeTok）来解决现有视觉标记器的问题，该标记器通过动态聚类算法将视觉特征分组为语义单元，灵活确定标记数目。由此产生的视觉标记能够有效地保持语义完整性，并捕捉低频和高频视觉特征。所提出的具备 SeTok 的多模态大型语言模型（Setokim）在各种任务中显着展现了卓越的性能，如我们的实验结果所证明。

Jun, 2024

基于深度学习的视觉 - 语言任务统一框架

通过引入 pool-adapter 模块，保留视觉嵌入的位置信息，我们的 InfMLLM 方法在图像描述、视觉问题回答和视觉定位等任务中达到了与最新的多模态大语言模型相当或超越的性能。

Nov, 2023