May, 2023

文本到图像生成和评估的可视化编程

TL;DR本文提出了两个基于语言模型的可解释/可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen将T2I生成拆分成三个步骤,使用LM控制前两个步骤,并提供更强的空间控制;VPEval是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。