使用合成数据的视觉和语言模型超越名词

Mar, 2023

使用合成数据的视觉和语言模型超越名词

Going Beyond Nouns With Vision & Language Models Using Synthetic Data

Paola Cascante-Bonilla, Khaled Shehada, James Seale Smith, Sivan Doveh, Donghyun Kim...

TL;DR本文旨在通过提供一百万级的、人工合成的图像数据集 SyViC 和相应的数据生成代码，以及细调模型的策略，探讨如何提高视觉语言模型对非物体类词汇等方面（即超越名词的视觉语言概念）的理解和组合推理能力，从而在保持零样本准确度的前提下，极大提高模型的性能。通过在 ARO 和 VL-Checklist 等基准测试上的广泛实验和削减，我们证明了用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提升其 VLC 理解能力（如在 ARO 上提高 9.9％，VL-Checklist 上提高 4.3％）。

Abstract

Large-scale pre-trained Vision & Language (VL) models have shown remarkable performance in many applications, enabling replacing a fixed set of supported classes with zero-shot open vocabulary reasoning over (almost arbitrary) natural language prompts. However, recent works have uncovered a fundamental weakness of these models. For example, their difficulty

vision & language models synthetic visual concepts vlc understanding compositional reasoning zero-shot accuracy

发现论文，激发创造

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

我们提出了一种利用大语言模型（LLM）和图像生成模型的优点来创建合成图像 - 文本对的新方法，以用于视觉语言模型（VLM）的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入，我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM，并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术，从而提升了 VLM 性能，拓展了其在各个领域中的适用性，并改善了数据效率和资源利用。

Mar, 2024

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

Z-LaVI: 由视觉想象力驱动的零样本语言求解器

通过利用两种互补的 “想象力”（检索已有图像和通过文本到图像生成合成不存在的图像），我们开发了一种新颖的方法 Z-LaVI，为语言模型赋予了视觉想象能力，从而解决了大规模预训练语言模型的报告偏差问题，提高了跨多个语言任务的零 - shot 性能。

Oct, 2022

利用大规模视觉语言模型进行合成图像检测

利用先进的视觉语言模型（VLMs）对合成图像进行识别的效果进行了研究，并通过调整最先进的图像字幕模型，利用大型 VLMs 的强大理解能力区分真实图像和扩散基模型生成的合成图像。

Apr, 2024

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

从模型学习视觉：模型对抗学习视觉

通过合成图像和合成标题无需真实数据地学习视觉表征，SynCLR 方法在对合成图像进行对比学习的基础上，将得到的表征在多个下游任务中转移，与其他通用视觉表征学习算法相比，在图像分类任务中表现出色；此外，在诸如语义分割等密集预测任务中，SynCLR 比以往自监督方法有显著优势。

Dec, 2023

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

ImageNetVC：1000 个 ImageNet 类别上的零样本视觉常识评估

本文利用人为标注的数据集 ImageNetVC，探究了先前被作为通用接口使用的预训练语言模型（PLMs）和其带视觉增强的对应模型（VaLMs）的视觉常识知识掌握情况及其影响因素。同时，通过研究大规模模型的因素，提供了对视觉常识知识丰富的自然语言模型发展的启示。

May, 2023

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

基于模型和数据的视觉定位学习

SynGround 是一个结合数据驱动学习和知识传递的新框架，通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力，并通过合成图像和文本来提高模型性能，最终在多个数据集上展示出提升。

Mar, 2024