Mar, 2023

使用合成数据的视觉和语言模型超越名词

TL;DR本文旨在通过提供一百万级的、人工合成的图像数据集 SyViC 和相应的数据生成代码,以及细调模型的策略,探讨如何提高视觉语言模型对非物体类词汇等方面(即超越名词的视觉语言概念)的理解和组合推理能力,从而在保持零样本准确度的前提下,极大提高模型的性能。通过在 ARO 和 VL-Checklist 等基准测试上的广泛实验和削减,我们证明了用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提升其 VLC 理解能力(如在 ARO 上提高 9.9%,VL-Checklist 上提高 4.3%)。