强大而灵活:通过强化学习实现个性化文本到图像生成
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
本文提出一种新的图像生成方法ProSpect,结合Prompt Spectrum Space P*和per-stage prompts编码图像,使图像的特定视觉属性比如材质、风格和布局可以更容易地被嵌入和编辑,进而应用于图像转换和编辑中,通过个性化条件实现单幅图像的多种表现形式和特性。
May, 2023
使用有限的图像集对文本-图像模型进行个性化处理,通过引入InstructBooth方法,使用特定对象的少量特定图像来增强图像-文本对齐,最终实现了优于基准线的图像-文本对齐效果。
Dec, 2023
通过人类反馈信号提高图像生成质量,结合文本到图像生成模型和基于强化学习的人类反馈,标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词,使用多模态变换器自动预测反馈,进一步改进图像生成方法。
Dec, 2023
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的T2I扩散模型的新型训练目标,称为“直接一致性优化”。我们的方法不仅简单而且显著提高了个性化T2I模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在T2I主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
通过引入Prompt Auto-Editing (PAE)方法,我们改进了文本生成图像的初衷,进一步采用在线加强学习策略来探索每个词的权重和注入时间步长,从而实现了动态的精细控制提示。实验结果表明,我们的方法在改善原始提示的同时生成了视觉更吸引人的图像,并保持了语义的一致性。
Apr, 2024
近年来生成模型的发展对内容创作产生了重大影响,引发了个性化内容合成(PCS)的出现。本文以扩散模型为重点,全面调研PCS,并介绍了PCS研究的通用框架,即基于优化和基于学习的方法。文中进一步分析这些方法的分类及技术,并讨论了其优势、局限性以及关键技术。此外,还深入探讨了领域内的特殊任务,如个性化对象生成、人脸合成和风格个性化,并突出了它们面临的独特挑战和创新。尽管进展令人鼓舞,但我们还对过拟合、主题忠实度和文本对齐之间的权衡等挑战进行了分析。通过这一详细的概述和分析,我们提出了促进PCS发展的未来方向。
May, 2024
PaRa是一种用于T2I模型个性化的参数等级减少方法,通过显式控制扩散模型参数的等级来限制其初始的多样化生成空间为一个小而平衡的目标空间,通过全面实验证明,PaRa在单/多主题生成以及单图像编辑方面相比现有的微调方法具有更好的参数效率(2倍更少的可学习参数)和更好的目标图像对齐效果。
Jun, 2024