一张图抵一千言：使用文本反演个性化文本到图像生成

Aug, 2022

一张图抵一千言：使用文本反演个性化文本到图像生成

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano...

TL;DR使用 3-5 张用户提供的概念图片，在文本到图像模型的嵌入空间中学习表示之后，将其转化成新的 “单词”，从而达到自由创造。

Abstract

text-to-image models offer unprecedented freedom to guide creation through natural language. Yet, it is unclear how such freedom can be exercised to generate images of specific →

text-to-image models natural language creative freedom embedding space unique concepts

发现论文，激发创造

文本倒装用于概念审查的后门技术

通过在 Textual Inversion 嵌入式中注入后门技术，实现概念审查，以防止个人化技术被恶意用户滥用。

Aug, 2023

揭示词嵌入的梦想：走向语言驱动的图像生成

本研究介绍了一种基于语言的图像生成方法，可以根据单词嵌入语义内容生成自然图像，并且采用两个映射函数实现，该方法在几个用户研究中证明其产生的图像可以捕捉编码在单词嵌入中的概念的一般视觉特性，例如颜色或典型环境，足以区分对象的一般类别。

Jun, 2015

增强身份保护对于扩散个性化的数据观点

使用大型文本到图像模型生成图像的能力已经引起了巨大的变革，但是对于特定独特或个人化的视觉概念，如您的宠物、屋内物品等，并不能被原始模型捕捉到。本文通过采用数据为中心的方法，提出了一种新颖的正则化数据集生成策略，旨在解决文本连贯性丧失和身份保留问题，进一步提高图像质量，并能生成符合输入文本提示的多样样本。实验证明，我们的数据为中心的方法在图像质量方面具有新的技术实力，在身份保留、多样性和文本对齐之间取得了最佳的平衡。

Nov, 2023

嵌入空间中的命名概念

本文提出了一种通过生成特定概念并将其用于多个图像来提高控制能力的方法，通过仅使用文本就可以生成概念而无需从输入数据复制可视化，并通过一组比较发现我们的方法是超越仅使用文本提示的重要改进。

Mar, 2023

多分辨率文本反演

本研究将文本反转技术扩展到不同分辨率，学习生成代表概念的伪词，并利用语言进行不同分辨率图像的生成和处理，允许用户根据需要生成不同分辨率的图像，可用于图像生成的多个方面，开源代码位于指定 URL。

Nov, 2022

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

通过利用文本子空间提高高效个性化文本到图像生成

我们提出了一种有效的方法来在文本子空间中探索目标嵌入，借鉴了自我表现性特性，并提出了一种有效的选择策略来确定文本子空间的基向量。实验评估表明，所学习的嵌入不仅能够忠实地重构输入图像，还能显著改善其与新的输入文本提示的对齐性。此外，我们观察到在文本子空间中优化能够显著提高对初始词的鲁棒性，从而放宽了用户需要输入最相关初始词的约束。我们的方法为个性化文本到图像生成的更高效的表示学习打开了大门。

Jun, 2024

文本与图像生成模型实现无监督组合概念发现

本文介绍了一种基于无监督学习的方法，探讨反向问题 —— 如何从图像集合中发现代表每个图像的生成概念，进一步利用这些生成概念生成新的艺术和混合图像，并将其用作下游分类任务的一种表示。

Jun, 2023

抽象概念的文本到图像生成

通过利用三层艺术理论的建议，我们提出了一种用于抽象概念的文本到图像生成的框架，该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。

Sep, 2023

文本到图像与大型语言模型的链式生成：一种新方法用于生成个性化电子商务横幅

利用文本与图像模型生成个性化网页横幅，基于用户的互动行为生成动态内容的横幅，通过大型语言模型系统地提取项目元信息的属性，并通过提示工程将属性传递给文本与图像模型生成横幅的图像，结果表明该方法可以为用户创建高质量的个性化横幅。

Feb, 2024