Nov, 2023

HiFi Tuner:高保真主题驱动微调扩散模型

TL;DR该论文研究了利用预训练的文本到图像扩散模型实现高保真个性化图像生成的进展。通过引入一种创新算法名为 HiFi Tuner 来增强在个性化图像生成过程中对对象外观保持的能力,提出了基于参数高效的微调框架,包括去噪过程和关键性倒转过程。此外,还提出了参考引导生成方法,利用参考图像的关键性倒转来减轻不想要的主题变化和伪影。实验结果表明,通过仅在文本嵌入上进行微调,CLIP-T 得分提高了 3.6 分,DINO 得分提高了 9.6 分,当对所有参数进行微调时,HiFi Tuner 在 CLIP-T 得分上提高了 1.2 分,在 DINO 得分上提高了 1.2 分,达到了新的技术水平。