一张图抵一千言:使用文本反演个性化文本到图像生成
本研究介绍了一种基于语言的图像生成方法,可以根据单词嵌入语义内容生成自然图像,并且采用两个映射函数实现,该方法在几个用户研究中证明其产生的图像可以捕捉编码在单词嵌入中的概念的一般视觉特性,例如颜色或典型环境,足以区分对象的一般类别。
Jun, 2015
使用大型文本到图像模型生成图像的能力已经引起了巨大的变革,但是对于特定独特或个人化的视觉概念,如您的宠物、屋内物品等,并不能被原始模型捕捉到。本文通过采用数据为中心的方法,提出了一种新颖的正则化数据集生成策略,旨在解决文本连贯性丧失和身份保留问题,进一步提高图像质量,并能生成符合输入文本提示的多样样本。实验证明,我们的数据为中心的方法在图像质量方面具有新的技术实力,在身份保留、多样性和文本对齐之间取得了最佳的平衡。
Nov, 2023
本文提出了一种通过生成特定概念并将其用于多个图像来提高控制能力的方法,通过仅使用文本就可以生成概念而无需从输入数据复制可视化,并通过一组比较发现我们的方法是超越仅使用文本提示的重要改进。
Mar, 2023
本研究将文本反转技术扩展到不同分辨率,学习生成代表概念的伪词,并利用语言进行不同分辨率图像的生成和处理,允许用户根据需要生成不同分辨率的图像,可用于图像生成的多个方面,开源代码位于指定 URL。
Nov, 2022
提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先进的结果。
Jul, 2023
我们提出了一种有效的方法来在文本子空间中探索目标嵌入,借鉴了自我表现性特性,并提出了一种有效的选择策略来确定文本子空间的基向量。实验评估表明,所学习的嵌入不仅能够忠实地重构输入图像,还能显著改善其与新的输入文本提示的对齐性。此外,我们观察到在文本子空间中优化能够显著提高对初始词的鲁棒性,从而放宽了用户需要输入最相关初始词的约束。我们的方法为个性化文本到图像生成的更高效的表示学习打开了大门。
Jun, 2024
本文介绍了一种基于无监督学习的方法,探讨反向问题 —— 如何从图像集合中发现代表每个图像的生成概念,进一步利用这些生成概念生成新的艺术和混合图像,并将其用作下游分类任务的一种表示。
Jun, 2023
通过利用三层艺术理论的建议,我们提出了一种用于抽象概念的文本到图像生成的框架,该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。
Sep, 2023
利用文本与图像模型生成个性化网页横幅,基于用户的互动行为生成动态内容的横幅,通过大型语言模型系统地提取项目元信息的属性,并通过提示工程将属性传递给文本与图像模型生成横幅的图像,结果表明该方法可以为用户创建高质量的个性化横幅。
Feb, 2024