通过传导提升视觉语言模型

Jun, 2024

Boosting Vision-Language Models with Transduction

Maxime Zanella, Benoît Gérin, Ismail Ben Ayed

TL;DRTransCLIP是一种新颖且计算效率高的跨模态转导方法，通过集成文本编码知识和引导转导学习过程的KL散度惩罚来改善感知模型的性能。

Abstract

transduction is a powerful paradigm that leverages the structure of unlabeled data to boost predictive accuracy. We present transclip, a novel and computationally efficient transductive approach designed for

发现论文，激发创造

MiniVLM: 一个更小更快的视觉语言模型

本文提出MiniVLM，一个轻量、快速的视觉-语言模型，采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比，模型大小减少73％，推理时间成本降低94％，在多个视觉-语言任务上准确率保持94-97％。希望MiniVLM可以用于边缘应用。

Dec, 2020

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似CLIP的视觉语言模型的传递性能。该方法实验结果显示，在ImageNet以及其他10个数据集上，与原始CLIP相比，UPL具有更优秀的传输表现，并且增强版的UPL在大多数数据集上甚至能够与8-shot CoOp和8-shot TIP-Adapter竞争。

Apr, 2022

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉-语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的EfficientVLM模型仅含有9300万个参数，具有98.4％的性能表现，并在各种视觉-语言任务中取得了令人瞩目的结果。

Oct, 2022

大型视觉语言模型的少样本自适应研究

通过引入适应真实场景需求的新方法，我们综合评估了一个广泛的数据集和场景，发现其在实践中始终优于现有技术，同时作为更高效的替代方案。

Dec, 2023

零样本泛化的测试时间原型移动：与视觉语言模型

通过引入测试时间原型偏移（Test-Time Prototype Shifting，TPS）框架，我们在共享嵌入空间中调制每个类别的原型，动态地学习每个原型的偏移向量，从而弥合领域差距，提高分类准确性，并在减少资源需求的情况下取得创新性能的优势。

Mar, 2024

学习纠正：零样本生成视觉-语言推理的高效调节任务

通过Image-Conditioned Caption Correction（ICCC）指导的二次调整，提高图像与语言之间的零-shot推理性能。

Apr, 2024

通过视觉令牌撤回，提升多模态大型语言模型的快速推理能力

通过引入Visual Tokens Withdrawal模块以提升Multimodal large language models在快速推理方面的性能，通过分析注意力集中现象和信息迁移现象，我们发现在深层的MLLMs中不需要视觉特征信息，并通过判断Kullback-Leibler散度选择了合适的层进行视觉特征的提取操作，使得我们的方法能在维持性能的同时，减少超过40%的计算开销。

May, 2024

视觉语言模型易于执行时适应的令人沮丧的测试

研究表明，零温度的TTA方法（ZERO）能够在只进行一次前向传播的情况下，准确性大大超过或与现有技术相当，且速度约为10倍快，内存占用约为13倍少。

May, 2024

TroL：大规模语言与视觉模型的层遍历

一种新的高效LLVM家族，通过层级遍历的技术有效提升性能，使其超越了具有更大模型规模的开源LLVM并与具有实质规模的闭源LLVM相媲美。

Jun, 2024

通过正交学习和交叉正则化增强视觉-语言模型的鲁棒性

通过引入正交微调方法和交叉正则化策略，本文提出的OrthCR提升了视觉-语言模型（VLMs）的稳健性和泛化能力，同时保持了零样本泛化的稳定性。

Jul, 2024