平衡性能与效率:一种基于图像文本交互的多模态大型语言模型剪枝方法
该论文提出了一种方法,通过将文本形式的大型语言模型嵌入图像编码器和解码器模型中,利用它们的嵌入空间之间的映射来融合两者,从而实现多模态的图像检索、新颖图像生成和多模态对话,同时还能生成并处理图像和文本输入,比非基于 LLM 的模型在一些基于文本生成图像任务方面表现更好。
May, 2023
讨论构建出色的多模态大型语言模型的重要组成部分和数据选择,通过仔细和全面的分析,证明了使用图像-标题、交错图像-文本和仅文本数据进行大规模多模态预训练对于在多个基准测试中实现最新成果至关重要。通过扩展所提出的模型,构建了以稠密模型和专家混合模型为特征的MM1系列多模态模型,这些模型在预训练指标上取得最新成果,并在一系列已建立的多模态基准测试中实现了有竞争力的性能。
Mar, 2024
通过减少视觉标记并合并相关标记,我们提出了一种自适应的视觉标记压缩方法 PruMerge,可以显著减少可视标记的数量并保持相似的模型性能。
Mar, 2024
本研究针对现有多模态大型语言模型(MLLMs)在训练中面临的高质量指令对需求和视觉信息丢失的问题,提出了一种视觉令牌补充框架(VTC)。该框架利用文本生成图像来识别与文本无关的特征,并通过视觉选择器生成补充的视觉令牌,从而增强原始视觉输入,显著提高响应准确性,且无需额外的图像-文本对,具备无指令调优的特性。
Aug, 2024
本研究解决了当前多模态大型语言模型中数据和计算效率之间的权衡问题。提出的EE-MLLM通过改进原有的自注意力机制,采用组合注意力机制,既不增加额外模块或可学习参数,又有效提升了数据和计算效率。实验结果验证了EE-MLLM在多个基准测试上的优越性能,具有显著的潜在影响。
Aug, 2024
本研究针对大规模多模态模型在视觉令牌压缩中的不足,提出了一种基于文本信息的动态视觉令牌恢复机制,此机制可以有效避免重要信息的损失。实验结果显示,该方法在压缩视觉令牌至原始数量的10%时,表现与原始方法相当,提升了模型的训练与推理效率。
Sep, 2024
本研究解决了多模态大型语言模型(MLLMs)中视觉标记冗余及计算负担过重的问题。提出的FitPrune方法通过统计分析快速生成修剪方案,从而在保持高性能的同时显著减少计算复杂度。实验结果表明,该方法在不显著损失准确度的情况下,能够减少多达54.9%的计算量。
Sep, 2024
本研究解决了多模态大型语言模型(MLLMs)计算效率瓶颈问题,特别是在视觉令牌数量增加导致的二次增长计算问题。研究提出通过剪枝视觉相关计算而非输入降低视觉令牌,这一新方法实现了计算增长由二次转为线性,且经过剪枝后,模型能力在某些基准测试上已超越原模型,仅需25%的计算量。这一发现开启了MLLMs引入更密集视觉令牌的可能性。
Oct, 2024
本研究针对现有视频大型语言模型数据稀缺的问题,提出了一种无训练的视频理解方法TS-LLaVA,通过缩略图和采样策略构建视觉标记。研究表明,该方法在多个基准测试中实现了最新的状态,并在MVBench基准测试中优于GPT-4V,且在MLVU基准测试中与72B的训练型视频语言模型Video-LLaMA2表现相当。
Nov, 2024