Apr, 2023

基于掩码生成模型的文本条件采样框架用于文本生成图像

TL;DR本文提出了一种学习可采样模型的 Text-Conditioned Token Selection(TCTS)方案,通过文本信息的本地化监督来选择最优选项,这样可以提高生成图像的质量和与给定文本的语义对齐度,并引入一种统一的采样策略 Frequency Adaptive Sampling(FAS),以进一步提高图像质量和文本对齐度。我们在各种生成任务中验证了 TCTS 与 FAS 的功效,并展示它在图像 - 文本对齐和图像质量方面显著优于基线,文本条件采样框架可以将原始推理时间缩短 50% 以上,这是继承基线模型的一个重大优势。