Dec, 2023

RefineNet: 通过分层 Transformer 和渐进细化提高高分辨率和细节准确性的文本到图像转换

TL;DR我们介绍了 RefineNet,这是一种新颖的架构,旨在解决文本到图像转换系统中分辨率限制的问题。我们探讨了从文本描述生成高分辨率图像的挑战,重点关注详细准确性和计算效率之间的权衡。RefineNet 利用层次化 Transformer 结合渐进和条件改进技术,在生成详细、高质量图像方面优于现有模型。通过对多样数据集进行广泛实验,我们展示了 RefineNet 在清晰度和分辨率上的优势,特别适用于复杂图像类别如动物、植物和人脸。我们的工作不仅推动了图像到文本转换领域的发展,还为各种应用中高保真图像生成开辟了新的途径。