May, 2024

通过视觉令牌撤回,提升多模态大型语言模型的快速推理能力

TL;DR通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能,通过分析注意力集中现象和信息迁移现象,我们发现在深层的MLLMs中不需要视觉特征信息,并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作,使得我们的方法能在维持性能的同时,减少超过40%的计算开销。