COLINGOct, 2020

利用视觉问答改进文本到图像合成

TL;DR该论文提出一种有效的方法,将文本到图像的生成与视觉问答相结合,利用 VQA 2.0 数据集来提高生成图像的图像质量和图像文本对齐,通过生成问题与答案对的额外训练样本,并采用标准的 VQA 模型,提供 T2I 模型的辅助学习信号,鼓励从 QA 对生成的图像看起来更加逼真,并最小化外部 VQA 损失。该方法可以成功提高 T2I 综合的效果,使 FID 从 27.84 降至 25.38,R-prec 从 83.82%提高至 84.79%。