Jun, 2024

STAR:基于自回归表示的按尺度文本图像生成

TL;DRSTAR 是一种文本到图像模型,通过采用自回归范式实现,并通过预训练文本编码器提取文本约束的表示,利用交叉注意力层提高生成图像与文本指导的交互作用,借助 2D RoPE 和归一化版本,确保不同尺度上的相对位置的一致解释,并通过超过现有基准的实验结果,展示其在高质量图像合成方面的潜力,为当前由扩散方法主导的 T2I 领域提供有希望的新方向。