Mar, 2024

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

TL;DR我们提出了一种利用大语言模型(LLM)和图像生成模型的优点来创建合成图像 - 文本对的新方法,以用于视觉语言模型(VLM)的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入,我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM,并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术,从而提升了 VLM 性能,拓展了其在各个领域中的适用性,并改善了数据效率和资源利用。