VeCAF: 基于 VLM 的协同主动微调与训练目标感知

Jan, 2024

VeCAF: 基于 VLM 的协同主动微调与训练目标感知

VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness

Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy...

TL;DRPVM 领域的挑战与新方法 VeCAF：通过聚合主动微调和语言嵌入增强数据选择以提高图像分类的效率和性能。

Abstract

finetuning a pretrained vision model (PVM) is a common technique for learning downstream vision tasks. The conventional finetuning process

finetuning vision model vecaf data selection image classification

发现论文，激发创造

利用视觉基础模型，高效训练小型任务专用模型

利用大型视觉基础模型（VFMs）通过在庞大数据集上预训练，以及在有限标记的目标数据下展现出优异性能的情况下，提出了一种简单高效的面向任务的知识迁移方法，用于对小型任务特定模型进行有效训练。实验结果表明，该方法在有限标记数据的情况下，在四个目标任务上的性能优于面向任务无关的 VFM 蒸馏、Web 规模 CLIP 预训练和监督式 ImageNet 预训练，分别提升了 1-10.5%、2-22% 和 2-14%。研究还指出了用于知识迁移的数据集对最终目标任务性能的显著影响，并提出了基于图像检索的方法来筛选有效的迁移集。

Nov, 2023

连线：针对黑盒图像 - 语言模型的协作微调

该论文提出了一种名为 CraFT 的协作微调方法，用于将黑盒预训练视觉语言模型应用于下游任务，通过仅获得输入提示和输出预测来优化模型，并在少样本分类上展示出显著的结果。

Feb, 2024

对比特征遮罩开放词汇视觉变换器

CFM-ViT 是一种图像 - 文本预训练方法，具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器（MAE）目标与对比学习目标相结合，CFM-ViT 在联合图像 - 文本嵌入空间中进行重构，以比传统的 MAE 方法更好地学习区域级语义。此外，引入位置嵌入丢弃（PED）来解决图像 - 文本预训练和检测微调之间的尺度变化，从而提高检测性能并利用冻结的 ViT 骨干作为区域分类器，避免在检测微调过程中遗忘开放词汇知识。在 LVIS 开放词汇检测基准下，CFM-ViT 实现了 33.9 AP$r$ 的最新成果，超过最佳方法 7.6 个点，并在零样本检测转移方面取得更好的效果。最后，CFM-ViT 获得了强大的图像级表示，在 8 个零样本图像 - 文本检索基准中表现出了优于当前技术水平的成绩。

Sep, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

通过级联视觉语言模型提升细粒度图像分类

本研究介绍了 CascadeVLM，一种创新的框架，通过有效地利用大型视觉 - 语言模型（LVLMs）内固有的精细知识，克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明，CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型，达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测，从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。

May, 2024

视觉语言模型的开放词汇校准

通过调整温度值，根据预测文本标签与基本类之间的距离，我们提出了一种名为距离感知校准（DAC）的简单有效方法，来解决视觉语言模型中存在的置信度校准问题。在 11 个不同的下游数据集上对 7 种不同的提示学习方法进行的实验验证了 DAC 的有效性，并且不影响推理速度。

Feb, 2024

预训练视觉模型的参数高效微调：一项调查

规模化预训练视觉模型（PVMs）在各种下游视觉任务中表现出很大的适应性。然而，随着最先进的 PVMs 达到数十亿甚至数万亿参数，传统的完全微调范式变得难以持续，因为其需要巨大的计算和存储需求。为了应对这一挑战，研究人员正在探索参数高效的微调（PEFT），旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉 PEFT 的综合概述和未来方向，对最新的进展进行了系统回顾。首先，我们提供了 PEFT 的正式定义，并讨论了模型预训练方法。然后，我们将现有方法分为三类：基于添加的、基于部分的和基于统一的。最后，我们介绍了常用的数据集和应用，并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。

Feb, 2024

精细视觉语言理解进展的衡量

本文通过对四个具有挑战性的细粒度基准进行实验研究，发现 X-VLM 是最好的模型，同时强调新的损失函数和丰富的数据源对于学习细粒度技能非常重要。

May, 2023

全景调谐：提升视角不变性的视觉语言预训练模型

通过多视角训练数据集和架构优化，本论文成功改进了视觉语言预训练模型 (VLP) 在三维视角变化下的鲁棒性，提高了其对视角变化的不变性能力。

Apr, 2024

CogVLM：预训练语言模型的视觉专家

CogVLM 是一种强大的开源视觉语言基础模型，通过可训练的视觉专家模块在注意力和前馈网络层之间填补了预训练语言模型和图像编码器之间的差距，实现了视觉语言特征的深度融合，而不会牺牲在自然语言处理任务上的性能，在 10 个经典的跨模态基准测试中取得了最先进的性能，包括 NoCaps，Flicker30k 字幕，RefCOCO，RefCOCO +，RefCOCOg，Visual7W，GQA，ScienceQA，VizWiz VQA 和 TDIUC，在 VQAv2，OKVQA，TextVQA，COCO 字幕等方面排名第二，超过或与 PaLI-X 55B 相匹配。

Nov, 2023