多分辨率文本反演

Nov, 2022

Multiresolution Textual Inversion

Giannis Daras, Alexandros G. Dimakis

TL;DR本研究将文本反转技术扩展到不同分辨率，学习生成代表概念的伪词，并利用语言进行不同分辨率图像的生成和处理，允许用户根据需要生成不同分辨率的图像，可用于图像生成的多个方面，开源代码位于指定 URL。

Abstract

We extend textual inversion to learn pseudo-words that represent a concept at different resolutions. This allows us to generate images that use the concept with different levels of detail and also to manipulate d

textual inversion pseudo-words image generation concept resolution language manipulation

发现论文，激发创造

一张图抵一千言：使用文本反演个性化文本到图像生成

使用 3-5 张用户提供的概念图片，在文本到图像模型的嵌入空间中学习表示之后，将其转化成新的 “单词”，从而达到自由创造。

Aug, 2022

一幅图像抵得上千言万语：基于多概念提示学习的物体级概念学习

Multi-Concept Prompt Learning introduces a framework to learn multiple object-level concepts simultaneously, enhancing word-concept correlation and enabling the generation of novel synthesised images through Textural Inversion.

Oct, 2023

稳定扩散模型的组合逆转

通过引入核心分布和空间正则化方法，我们的研究提出一种针对合成嵌入图像中过拟合问题的反转过程指导方法，使生成的图像中的概念更加多元和均衡。

Dec, 2023

无梯度文本反演

本文提出了一种基于进化策略的梯度自由框架，用于优化文本反演的过程，试图解决个性化文本生成中因梯度下降算法的内存消耗大、部署复杂等问题。实验结果表明，采用该方法生成的文本图像与采用梯度下降方法生成的相比，性能几乎没有损失，但能够获得更高的计算效率和更广泛的适用性。

Apr, 2023

Lego：在文本到图像扩散模型中学习解耦和反转概念

该研究介绍了一种名为 Lego 的文本反演方法，用于从少量示例图像中反演与主体相关的概念。Lego 通过简单而有效的主体分离步骤以及引导单 / 多嵌入概念反演的上下文损失，成功实现了对这些概念的反演。在深入的用户研究中，与基准方法相比，Lego 生成的概念有超过 70% 的受试者更喜欢。此外，使用大型语言模型进行视觉问题回答的结果表明，Lego 生成的概念与文本描述更加一致。

Nov, 2023

LocInv: 文本指导图像编辑中的定位感知反转

基于 T2I 扩散模型，本研究提出了一种局部感知反演（LocInv）方法，通过利用分割地图或边界框作为额外的定位先验，精确修正扩散过程中的交互关注图，使其与文本提示中的正确名词和形容词单词紧密对齐，从而实现对特定对象的细粒度图像编辑，并防止对其他区域产生不希望的改变。该方法在 COCO 数据集的子集上经过广泛评估，定量和定性地都取得了优秀的结果。

May, 2024

RealCustom: 实时开放领域文本到图像定制的实际文本缩窄

Text-to-image customization using RealCustom disentangles similarity from controllability by limiting subject influence, achieved through a train-inference decoupled framework, resulting in unprecedented similarity of given subjects and controllability of given text.

Mar, 2024

文本反转与自监督精炼的放射学报告生成

此篇论文提出了基于文本反转和自监督改进 (TISR) 的方法，通过解决编码器和解码器网络结构的问题，克服了模态差异和报告内容限制，实现了文本和图像在同一空间中的表示，通过对图像和文本之间的对比损失计算来改进生成的报告的准确性。该方法与现有方法独立且易于使用，通过在两个常用公开数据集上的实验，取得了显著的改进效果，展示了 TISR 的有效性和普适性。

May, 2024

十的生成力

使用文本到图像模型生成一致的多尺度内容，实现从广角景观到细节的极端语义缩放，通过联合多尺度扩散采样方法，保持不同尺度之间的一致性，并与传统的超分辨率方法进行对比，显示出在生成一致的多尺度内容方面，该方法最为有效。

Dec, 2023

文本倒装用于概念审查的后门技术

通过在 Textual Inversion 嵌入式中注入后门技术，实现概念审查，以防止个人化技术被恶意用户滥用。

Aug, 2023