Sep, 2024

可恢复压缩:一种基于文本信息的多模态视觉令牌恢复机制

TL;DR本研究针对大规模多模态模型在视觉令牌压缩中的不足,提出了一种基于文本信息的动态视觉令牌恢复机制,此机制可以有效避免重要信息的损失。实验结果显示,该方法在压缩视觉令牌至原始数量的10%时,表现与原始方法相当,提升了模型的训练与推理效率。