May, 2022

基于文本的可控人类图像生成

TL;DR本文提出一种名为 Text2Human 的控制性框架,用于基于文本的生成高质量和多样化的人类图像。在此框架下,我们建立了一个分层的纹理感知码书,以存储不同类型纹理的多尺度神经表征,并使用混合专家的扩散变换采样器采样码书中的索引。通过使用细粒度文本输入,生成的图像具有更高的质量和更多的多样性,拥有比现有方法更好的性能。