Nov, 2023

预训练语言模型无助于自回归文本到图像生成

TL;DR最新的图像编码器 VQ-VAE 已经能够使用自回归方法进行文本到图像的生成,但是这些方法尚未利用预训练语言模型的适应性,本研究通过调整预训练语言模型,对自回归文本到图像生成进行了探索,发现预训练语言模型的帮助有限,并提供了两方面的解释,即图像标记与文本标记的语义存在显著差异,导致预训练语言模型对它们的建模效果不如随机初始化模型,并且图像文本数据集中的文本标记与正常语言模型预训练数据相比过于简单,导致语言模型能力的灾难性降低。