通过传导提升视觉语言模型
本文提出MiniVLM,一个轻量、快速的视觉-语言模型,采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比,模型大小减少73%,推理时间成本降低94%,在多个视觉-语言任务上准确率保持94-97%。希望MiniVLM可以用于边缘应用。
Dec, 2020
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似CLIP的视觉语言模型的传递性能。该方法实验结果显示,在ImageNet以及其他10个数据集上,与原始CLIP相比,UPL具有更优秀的传输表现,并且增强版的UPL在大多数数据集上甚至能够与8-shot CoOp和8-shot TIP-Adapter竞争。
Apr, 2022
本篇研究介绍了一种对于大型视觉-语言模型进行压缩的方法,该方法利用蒸馏和剪枝技术,通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的EfficientVLM模型仅含有9300万个参数,具有98.4%的性能表现,并在各种视觉-语言任务中取得了令人瞩目的结果。
Oct, 2022
通过引入测试时间原型偏移(Test-Time Prototype Shifting,TPS)框架,我们在共享嵌入空间中调制每个类别的原型,动态地学习每个原型的偏移向量,从而弥合领域差距,提高分类准确性,并在减少资源需求的情况下取得创新性能的优势。
Mar, 2024
通过Image-Conditioned Caption Correction(ICCC)指导的二次调整,提高图像与语言之间的零-shot推理性能。
Apr, 2024
通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能,通过分析注意力集中现象和信息迁移现象,我们发现在深层的MLLMs中不需要视觉特征信息,并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作,使得我们的方法能在维持性能的同时,减少超过40%的计算开销。
May, 2024
研究表明,零温度的TTA方法(ZERO)能够在只进行一次前向传播的情况下,准确性大大超过或与现有技术相当,且速度约为10倍快,内存占用约为13倍少。
May, 2024
通过引入正交微调方法和交叉正则化策略,本文提出的OrthCR提升了视觉-语言模型(VLMs)的稳健性和泛化能力,同时保持了零样本泛化的稳定性。
Jul, 2024