Sep, 2023

通过草堆中的靓丽针使图像生成模型更上一层楼

TL;DR通过在网络规模的图像 - 文本对上训练文本到图像模型,可以从文本生成广泛的视觉概念,但是这些经过预训练的模型在生成高度美学化图像方面往往面临挑战,因此需要进行美学对齐的预训练后处理。本文中,我们提出了质量微调方法,以有效地指导经过预训练的模型专门生成高度视觉吸引力图像,同时保持对视觉概念的普适性。我们的关键洞察是,使用一组数量惊人少但极具视觉吸引力的图像进行有监督的精细调整可以显著提高生成质量。我们在 11 亿个图像 - 文本对上预训练潜在扩散模型,并仅使用几千个精心挑选的高质量图像进行微调。得到的模型 Emu 在美学上的胜率为 82.9%,相比仅经过预训练的模型。与最先进的 SDXLv1.0 相比,在标准的 PartiPrompts 和我们的基于真实世界文本到图像模型使用情况的 Open User Input 基准测试上,Emu 被优先选择的概率分别为 68.4%和 71.3%。此外,我们还展示了质量微调是一种通用方法,在其他架构中也同样有效,包括像素扩散和掩膜生成变压器模型。