ImageNetVC:1000 个 ImageNet 类别上的零样本视觉常识评估
我们的研究工作探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理(VCR)中的协同能力。我们将 VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。然而,在 VCI 方面,VLM 面临困难。我们提出了名为 ViCor 的协作方法,在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
Oct, 2023
本文旨在通过提供一百万级的、人工合成的图像数据集 SyViC 和相应的数据生成代码,以及细调模型的策略,探讨如何提高视觉语言模型对非物体类词汇等方面(即超越名词的视觉语言概念)的理解和组合推理能力,从而在保持零样本准确度的前提下,极大提高模型的性能。通过在 ARO 和 VL-Checklist 等基准测试上的广泛实验和削减,我们证明了用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提升其 VLC 理解能力(如在 ARO 上提高 9.9%,VL-Checklist 上提高 4.3%)。
Mar, 2023
通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉 - 语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含 7 个数据集的基准测试,以促进未来的零样本识别研究。
Jan, 2024
本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力,并发现这些模型在物体颜色,大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。
Sep, 2022
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
Jun, 2024
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估,旨在更好地理解这种模型学习常识知识的程度,结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。
Oct, 2021
本研究介绍了 CascadeVLM,一种创新的框架,通过有效地利用大型视觉 - 语言模型(LVLMs)内固有的精细知识,克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明,CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型,达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测,从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。
May, 2024
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验,证明改进后的 VLMs 相较于原来的 zero-shot classification 方法,在准确率上有显著提升。
Apr, 2023