预训练的视觉语言模型学习可发现的视觉概念
视觉语言模型(VLM)在零射击识别方面表现出色,但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率,并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。
Jan, 2024
通过多模态的视觉 - 语言基础模型作为一种视角,本文提出了一种逻辑规范语言 Con_spec,用于在这些模型的高级人类可理解概念描述的基础上编写规范并进行形式验证,通过采用 VLM 实现自然语言性质的编码和高效检查,以 ResNet 为基础的分类器在 RIVAL-10 数据集上进行的实验验证了我们的技术。
Mar, 2024
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
提出了一种名为 VaLM 的预训练框架,对语言建模进行视觉增强,通过图像检索模块检索相应图像,使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识,并在需要的情况下获取相关联的图片,通过对各种视觉知识密集型的常识推理任务的评估,展示了 VaLM 在推理对象的常识,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
May, 2022
我们利用强化学习的方法提出了一种新颖的方法 ——Extract and Explore (EX2),用于表征 Vision-Language Model (VLM) 的重要文本特征,并发现 VLM 在表示视觉概念时显著依赖于非视觉属性。
Mar, 2024
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
对于个性化视觉 - 语言模型,我们探索了增加外部概念头和中间特征空间中的概念嵌入来实现对用户提供的概念的识别和自然整合,并将其应用于个性化图像字幕生成和个性化视觉问答,结果表明模型可以推广到学习概念的未见图像,并保持在无关输入上的模型行为。
Mar, 2024
本文介绍了一种新的框架,用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型,并发现它们大多数难以展示出概念理解。然而,我们发现交叉注意力可以帮助学习概念理解,并提出了一种新的微调技术,以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。
Apr, 2023
通过一系列标准化评估和深入研究,提供了视觉相关语言模型 (VLMs) 的能力和设计决策,包括图像预处理、架构和优化等方面的细致洞察。
Feb, 2024
本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
Sep, 2022