LOVM: 语言优先视觉模型选择
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
本文分析了在使用语言 - 仅依据进行视觉语义模型 (VLM) 选择中的两个固有挑战:模态差异和能力差异,并提出了一种称为 SWAB 的方法来缓解这两个差距,通过最优传输捕捉开源数据集与目标数据集之间的相关性,并将有用的统计信息从开源数据集传输到目标数据集,从而增强 VLM 在选择中的能力估计。通过在多个 VLM 和图像分类数据集上进行的实验验证了 SWAB 的有效性。
Mar, 2024
本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法,该方法利用蒸馏和剪枝技术,通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数,具有 98.4%的性能表现,并在各种视觉 - 语言任务中取得了令人瞩目的结果。
Oct, 2022
本文提出了一种简约的视觉语言模型(Simple Visual Language Model)普及方法,使用大规模的弱监督数据,通过单一前缀语言建模目标进行端到端训练,并在不利用额外数据或任务特定的定制的情况下,在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果,还展示了 SimVLM 获得了强大的泛化和转移能力,实现了零 - shot 行为。
Aug, 2021
本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉 - 语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。
Jun, 2023
在此研究中,我们研究了一种基于文本的视觉与语言模型训练方法,并探索了如何根据下游任务的特点从大型语言模型中采样文本数据,以显著提升视觉识别性能。与先前方法相比,我们展示了达 (交) 领域特定适应的性能提高达 8.4%,精细化识别提高达 8.7%,零标记分类整体平均提高达 3.1%。
Sep, 2023
视觉语言模型(VLM)在零射击识别方面表现出色,但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率,并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。
Jan, 2024
使用预训练的视觉语言模型作为无样本奖励模型以指定任务,通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务,表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。
Oct, 2023
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于 LLM 中的世界知识。2)在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题,我们提出了 MMStar,这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM,以评估它们的多模态能力,并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024