基于风格图标生成的稳定扩散XL微调方法:字幕尺寸的比较
利用基于文本的生成式模型生成高保真度图像的表现十分引人注目。然而,通过微调输入来实现对图像的高度控制仍然有很大的挑战。为了解决这一问题,研究者提出了一种称为稳定艺术家的图像编辑方法,它利用语义引导来沿着语义方向控制扩散过程中的不同变量数量,从而实现对图像的微调。通过这种方法,可以灵活地调整图像的构图、样式和整体艺术概念,并深入了解模型所学概念的表现,包括复杂的概念,如“碳排放”。研究结果表明,在多项任务中,该方法能实现高质量的图像编辑和构图。
Dec, 2022
本文介绍了一种基于Mixture-of-Experts的文本条件化图像扩散模型(RAPHAEL),其在图像质量和美感上优于现有的一些先进模型(包括Stable Diffusion、ERNIE-ViLG 2.0、DeepFloyd和DALL-E 2)
May, 2023
利用大型视觉语言模型来评估生成图像与输入文本之间的对齐,在此基础上,通过细调扩散模型来提升其对齐能力。实验证明,该方法显著改善了构图图像生成中的文本-图像对齐,特别在物体数量、属性绑定、空间关系和审美质量方面。
Oct, 2023
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的T2I扩散模型的新型训练目标,称为“直接一致性优化”。我们的方法不仅简单而且显著提高了个性化T2I模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在T2I主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
该研究论文介绍了一种名为Single-StyleForge的新方法,用于将预训练的文本到图像扩散模型进行个性化训练,从文本提示中生成指定风格的多样化图像。此外,研究还提出了一种名为Multi-StyleForge的改进方法,通过学习多个标记来改善风格和文本-图像对齐的质量,在六种不同的艺术风格上实验评估表明,在生成的图像质量和感知保真度指标(如FID、KID和CLIP分数)方面取得了显着的改善。
Apr, 2024
通过一对图像的样式差异来定制生成模型,我们提出了一种名为“Pair Customization”的方法,能够捕捉到样式差异并将其应用于生成过程,以实现对样式的定制化。这种方法能够避免对样例中特定图像内容的过度拟合,通过将样式和内容分割为不同的权重空间,并在优化过程中鼓励它们的正交性。实验结果表明,我们的方法能够有效学习样式而不过拟合图像内容,展示了通过单个图像对建模样式差异的潜力。
May, 2024
通过使用SDXL,我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性,并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。
Jun, 2024