文本到图片生成的定制助手
本文提出了一种方法,用户只需提供每个定制主题的图像和文本,而不需要提供多张图像,通过引入 “多模态提示” 概念,将文本和图像相结合,简化用户交互,实现对对象和场景的精确定制。该方法在用户友好性和使用友好输入定制复杂对象方面超过了现有的基于微调方法。
May, 2024
该研究提出了一种名为 Custom-Edit 的文本导向图像编辑方法,使用少量参考图像进行模型自定义,可以显著提高引用相似性同时保持源相似性,适用于各种数据集。
May, 2023
通过建立一个包含编码器网络和新型的采样方法的框架,该文提出了一种用于文本到图像生成的自定义方法,无需使用规范化方法来解决过拟合问题且可以在很短的时间内自定义大规模的文本到图像生成模型。实验证明,该方法优于现有的方法,并保留更多的细节信息。
May, 2023
我们提出了一种有效且快速的方法,可在不进行任何微调的情况下生成个性化图像,并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层,将自定义概念合并到生成图像中,以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。
Mar, 2024
本文旨在提高高质量图像的合成与精确文字自定义,为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText,利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战,我们训练了 ControlNet 模型用于一致性解码,从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能,并展示出优越的结果。
May, 2024
我们提出了一种将大型预训练模型视为搜索引擎的新视角,从而使以前用于提高搜索引擎性能的技术得以重新应用。通过个性化查询重写技术的示例,我们在文本到图像生成领域使用了这种视角。尽管该领域取得了显著进展,但仍然很难创建与个体用户的期望和偏好密切对齐的个性化视觉表示。这个过程需要用户用对模型理解且准确捕捉他们的愿景的文字来表达,这对许多用户来说很困难。在本文中,我们通过利用用户与系统的历史互动来提高用户提示的质量来解决这个挑战。我们提出了一种基于具有超过 300k 个提示的 3115 个用户的新大规模文本到图像数据集的用户提示重写方法。我们的重写模型增强了用户提示与其预期视觉输出之间的表达和对齐。实验证明了我们方法的优越性,这在我们的新离线评估方法和在线测试中得到了证明。我们的方法为应用更多搜索引擎技术来构建真正个性化的大型预训练模型打开了令人兴奋的可能性。
Oct, 2023
本论文介绍了一种 Prompt Expansion 框架,它帮助用户生成高质量多样化的图像,通过优化扩展了的文本提示,以便生成更吸引人的图像,并通过人类评估研究证明,使用 Prompt Expansion 生成的图像比基准方法生成的图像更美观多样。
Dec, 2023
通过无需调整的方法,本文提出了一种同时利用文本和图像指导的图像定制方法,允许在几秒钟内精确编辑特定图像区域,通过创新的注意力混合策略,本方法在图像定制中表现优异,是一种高效的解决方案。
Mar, 2024
该研究提出了一种文本生成图像的自适应提示适配框架,该框架使用预训练语言模型进行有监督的微调,再使用强化学习探索更好的提示,通过奖励函数鼓励策略生成更具美感的图像,实验结果表明,自适应提示适配方法优于手动人工优化提示工程,预训练检查点已经公开发布。
Dec, 2022