可恢复压缩:一种基于文本信息的多模态视觉令牌恢复机制
利用大型语言模型进行视觉任务,通过冻结预训练的语言模型的转换器块作为视觉令牌的编码器层,能够显著改善计算机视觉任务的性能,并提出信息过滤假设来解释预训练语言模型在视觉编码中的有效性。
Oct, 2023
我们研究了大型语言模型(LLM)在没有对多模态数据集进行微调的情况下,直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器(V2T Tokenizer),通过编码器-解码器、LLM词汇表和CLIP模型将图像转换成“外语”。通过这种创新的图像编码方式,LLM不仅具备了视觉理解能力,还能以自回归方式进行图像去噪和恢复,关键是不需要任何微调。我们进行了严格的实验证实了我们的方法,包括图像识别、图像字幕、视觉问题回答等理解任务,以及修复任务,如修复、扩展、去模糊和位移复原。
Mar, 2024
通过减少视觉标记并合并相关标记,我们提出了一种自适应的视觉标记压缩方法 PruMerge,可以显著减少可视标记的数量并保持相似的模型性能。
Mar, 2024
通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能,通过分析注意力集中现象和信息迁移现象,我们发现在深层的MLLMs中不需要视觉特征信息,并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作,使得我们的方法能在维持性能的同时,减少超过40%的计算开销。
May, 2024
测量视觉-语言对齐中投影模块的有效性的问题尚未得到充分探索,本研究通过追踪语义相关流从生成的语言标记到原始视觉编码器块和投影模块的中间输出,揭示了'双抽象'现象。为了缓解这个问题,本研究提出了“Decouple Compression from Abstraction(DeCo)”的关键见解,通过投影模块在补丁层面压缩视觉标记数量,并使LLM完全处理视觉语义抽象,实验证明DeCo在性能和效率方面优于传统的压缩式投影模块。
May, 2024
通过对视觉标记和训练效率的分析研究,提出了一种名为 Visual Context Compressor 的方法,通过压缩视觉标记来提高多模式模型的训练效率,最终实现在图像语言理解和视频语言理解领域性能的提升和训练成本的降低。
Jun, 2024
本研究针对多模态大型语言模型在计算成本方面的挑战,提出了一种动态剪枝算法,旨在提高模型的训练和推理效率。通过对视觉和CLS标记的相似性进行分析,该方法在不显著降低性能的情况下,将输入标记减少至原始数量的22%。
Sep, 2024
本研究解决了多模态大型语言模型(MLLMs)中视觉标记冗余及计算负担过重的问题。提出的FitPrune方法通过统计分析快速生成修剪方案,从而在保持高性能的同时显著减少计算复杂度。实验结果表明,该方法在不显著损失准确度的情况下,能够减少多达54.9%的计算量。
Sep, 2024
本研究针对多模态大型语言模型在视觉与文本信息对齐方面的困难,提出了一种新型图像标记器,利用字节对编码原理直接将结构先验信息融入图像标记中。这一创新方法显著提升了模型在多模态理解能力上的表现,并展示了在有限训练数据下的良好扩展性,可能为更高效的多模态基础模型开辟新的方向。
Oct, 2024