VeCAF: 基于 VLM 的协同主动微调与训练目标感知
利用大型视觉基础模型(VFMs)通过在庞大数据集上预训练,以及在有限标记的目标数据下展现出优异性能的情况下,提出了一种简单高效的面向任务的知识迁移方法,用于对小型任务特定模型进行有效训练。实验结果表明,该方法在有限标记数据的情况下,在四个目标任务上的性能优于面向任务无关的 VFM 蒸馏、Web 规模 CLIP 预训练和监督式 ImageNet 预训练,分别提升了 1-10.5%、2-22% 和 2-14%。研究还指出了用于知识迁移的数据集对最终目标任务性能的显著影响,并提出了基于图像检索的方法来筛选有效的迁移集。
Nov, 2023
该论文提出了一种名为 CraFT 的协作微调方法,用于将黑盒预训练视觉语言模型应用于下游任务,通过仅获得输入提示和输出预测来优化模型,并在少样本分类上展示出显著的结果。
Feb, 2024
CFM-ViT 是一种图像 - 文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT 在联合图像 - 文本嵌入空间中进行重构,以比传统的 MAE 方法更好地学习区域级语义。此外,引入位置嵌入丢弃(PED)来解决图像 - 文本预训练和检测微调之间的尺度变化,从而提高检测性能并利用冻结的 ViT 骨干作为区域分类器,避免在检测微调过程中遗忘开放词汇知识。在 LVIS 开放词汇检测基准下,CFM-ViT 实现了 33.9 AP$r$ 的最新成果,超过最佳方法 7.6 个点,并在零样本检测转移方面取得更好的效果。最后,CFM-ViT 获得了强大的图像级表示,在 8 个零样本图像 - 文本检索基准中表现出了优于当前技术水平的成绩。
Sep, 2023
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本研究介绍了 CascadeVLM,一种创新的框架,通过有效地利用大型视觉 - 语言模型(LVLMs)内固有的精细知识,克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明,CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型,达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测,从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。
May, 2024
通过调整温度值,根据预测文本标签与基本类之间的距离,我们提出了一种名为距离感知校准(DAC)的简单有效方法,来解决视觉语言模型中存在的置信度校准问题。在 11 个不同的下游数据集上对 7 种不同的提示学习方法进行的实验验证了 DAC 的有效性,并且不影响推理速度。
Feb, 2024
规模化预训练视觉模型(PVMs)在各种下游视觉任务中表现出很大的适应性。然而,随着最先进的 PVMs 达到数十亿甚至数万亿参数,传统的完全微调范式变得难以持续,因为其需要巨大的计算和存储需求。为了应对这一挑战,研究人员正在探索参数高效的微调(PEFT),旨在通过最小的参数修改超越完全微调的性能。本调查提供了对视觉 PEFT 的综合概述和未来方向,对最新的进展进行了系统回顾。首先,我们提供了 PEFT 的正式定义,并讨论了模型预训练方法。然后,我们将现有方法分为三类:基于添加的、基于部分的和基于统一的。最后,我们介绍了常用的数据集和应用,并提出了未来研究的潜在挑战。所有相关资源可以在该链接中找到。
Feb, 2024
通过多视角训练数据集和架构优化,本论文成功改进了视觉语言预训练模型 (VLP) 在三维视角变化下的鲁棒性,提高了其对视角变化的不变性能力。
Apr, 2024
CogVLM 是一种强大的开源视觉语言基础模型,通过可训练的视觉专家模块在注意力和前馈网络层之间填补了预训练语言模型和图像编码器之间的差距,实现了视觉语言特征的深度融合,而不会牺牲在自然语言处理任务上的性能, 在 10 个经典的跨模态基准测试中取得了最先进的性能,包括 NoCaps,Flicker30k 字幕,RefCOCO,RefCOCO +,RefCOCOg,Visual7W,GQA,ScienceQA,VizWiz VQA 和 TDIUC, 在 VQAv2,OKVQA,TextVQA,COCO 字幕等方面排名第二,超过或与 PaLI-X 55B 相匹配。
Nov, 2023