Jun, 2024

利用LLaVA提示和负面提示提升图像生成

TL;DR通过利用大型语言与视觉助手(LLaVA)的多模态能力,本文提出了一种增强图像-图像生成的新方法。LLaVA分析输入图像并生成文本描述,即LLaVA生成的提示。这些提示与原始图像一起输入到图像-图像生成流程中,丰富的表示指导生成过程以展现更强的输入图像相似性。广泛的实验证明了LLaVA生成的提示在促进图像相似性方面的有效性。与传统方法相比,我们观察到生成图像和输入图像之间视觉一致性的显著改进。未来的工作将探索对LLaVA提示进行微调,以更好地控制创造过程。通过在提示中提供更具体的细节,我们旨在在生成的输出中实现对原始图像的忠实性和艺术表现之间的微妙平衡。