文本到图片生成的定制助手

Dec, 2023

Customization Assistant for Text-to-image Generation

Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Tong Sun

TL;DR建立基于预训练大型语言模型和扩散模型的定制助手，能够在无需微调的情况下进行自定义生成，实现与用户的更友好交互。

Abstract

Customizing pre-trained text-to-image generation model has attracted massive research interest recently, due to its huge potential in real-world applications. Although existing methods are able to generate creative content for a novel concept contained in single user-input image, their

customization assistant pre-trained model text-to-image generation user-friendly interactions training strategy

发现论文，激发创造

多模式提示下的用户友好定制生成

本文提出了一种方法，用户只需提供每个定制主题的图像和文本，而不需要提供多张图像，通过引入 “多模态提示” 概念，将文本和图像相结合，简化用户交互，实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。

May, 2024

使用定制扩散模型进行文本引导的图像编辑

该研究提出了一种名为 Custom-Edit 的文本导向图像编辑方法，使用少量参考图像进行模型自定义，可以显著提高引用相似性同时保持源相似性，适用于各种数据集。

May, 2023

定制化文本到图像生成的细节保留增强：一种无正则化方法

通过建立一个包含编码器网络和新型的采样方法的框架，该文提出了一种用于文本到图像生成的自定义方法，无需使用规范化方法来解决过拟合问题且可以在很短的时间内自定义大规模的文本到图像生成模型。实验证明，该方法优于现有的方法，并保留更多的细节信息。

May, 2023

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

基于扩散模型的个性化文本图像生成

本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText，利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了 ControlNet 模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能，并展示出优越的结果。

May, 2024

个性化的改写提示增强文本生成图像

我们提出了一种将大型预训练模型视为搜索引擎的新视角，从而使以前用于提高搜索引擎性能的技术得以重新应用。通过个性化查询重写技术的示例，我们在文本到图像生成领域使用了这种视角。尽管该领域取得了显著进展，但仍然很难创建与个体用户的期望和偏好密切对齐的个性化视觉表示。这个过程需要用户用对模型理解且准确捕捉他们的愿景的文字来表达，这对许多用户来说很困难。在本文中，我们通过利用用户与系统的历史互动来提高用户提示的质量来解决这个挑战。我们提出了一种基于具有超过 300k 个提示的 3115 个用户的新大规模文本到图像数据集的用户提示重写方法。我们的重写模型增强了用户提示与其预期视觉输出之间的表达和对齐。实验证明了我们方法的优越性，这在我们的新离线评估方法和在线测试中得到了证明。我们的方法为应用更多搜索引擎技术来构建真正个性化的大型预训练模型打开了令人兴奋的可能性。

Oct, 2023

自适应文本到图像生成的提示扩展

本论文介绍了一种 Prompt Expansion 框架，它帮助用户生成高质量多样化的图像，通过优化扩展了的文本提示，以便生成更吸引人的图像，并通过人类评估研究证明，使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。

Dec, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

基于图像和文本引导的无需调参图像定制

通过无需调整的方法，本文提出了一种同时利用文本和图像指导的图像定制方法，允许在几秒钟内精确编辑特定图像区域，通过创新的注意力混合策略，本方法在图像定制中表现优异，是一种高效的解决方案。

Mar, 2024

文本到图像生成的提示优化

该研究提出了一种文本生成图像的自适应提示适配框架，该框架使用预训练语言模型进行有监督的微调，再使用强化学习探索更好的提示，通过奖励函数鼓励策略生成更具美感的图像，实验结果表明，自适应提示适配方法优于手动人工优化提示工程，预训练检查点已经公开发布。

Dec, 2022