Sep, 2024
可恢复压缩:一种基于文本信息的多模态视觉令牌恢复机制
Recoverable Compression: A Multimodal Vision Token Recovery Mechanism
Guided by Text Information
TL;DR本研究针对大规模多模态模型在视觉令牌压缩中的不足,提出了一种基于文本信息的动态视觉令牌恢复机制,此机制可以有效避免重要信息的损失。实验结果显示,该方法在压缩视觉令牌至原始数量的10%时,表现与原始方法相当,提升了模型的训练与推理效率。