InstantStyle-Plus: 文本到图像生成中保留内容的风格转换

Jun, 2024

InstantStyle-Plus: 文本到图像生成中保留内容的风格转换

InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation

Haofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang...

TL;DR通过将风格转移任务分解为风格、空间结构和语义内容三个核心元素，本研究提出了InstantStyle-Plus，一种注重原始内容完整性同时无缝整合目标风格的方法。通过有效的、轻量级的风格注入过程，并利用先进的InstantStyle框架，实现风格注入。为了增强内容保护，我们使用倒置的内容潜噪声和多功能的接插件式 ControlNet 来保持原始图像的内在布局。此外，还引入了全局语义适配器以增强语义内容的保真度，并使用风格提取器作为鉴别器提供辅助风格引导。

Abstract

style transfer is an inventive process designed to create an image that maintains the essence of the original while embracing the visual style of another. Although diffusion models have demonstrated impressive ge

发现论文，激发创造

通过松弛最优输运和自相似性进行风格迁移

提出基于最优输运和自相似性的风格转移算法STROTSS，扩展了算法以允许用户对风格图像和输出之间的视觉相似性进行点对点或区域对区域的控制，实验结果表明在保留一定的内容情况下，该算法可提供高质量的样式化效果。

Apr, 2019

CLIPstyler：使用单一文本条件进行图像风格转移

提出了一种全新的神经风格迁移框架，使用户能够使用文本描述而非参考图像来实现图像的风格迁移，在实验中证实了通过使用多视图扩充的补丁式文本-图像匹配Loss来实现对内容图像的样式转移，从而实现了具有语义相似性的现实纹理风格转移。

Dec, 2021

StyleAdapter：一种适用于风格化图像生成的单通道无LORA模型

该研究提出了一种无需LoRA的方法，用于风格化图像生成，通过使用文本提示和风格参考图像作为输入，以单次传递生成输出图像。使用统一模型，该方法能够适应多种风格，但面临两个挑战：1）提示在生成内容上失去可控性，2）输出图像同时继承了风格参考图像的语义和风格特征，从而损害其内容的保真度。为解决这些挑战，作者提出了StyleAdapter，该模型由两个组件组成：双路径交叉注意力模块（TPCA）和三个解耦策略。这些组件使模型能够分别处理提示和风格参考特征，并减少风格参考中语义和风格信息之间的强耦合。StyleAdapter能够以单次传递生成与提示内容匹配且采用参考的风格的高质量图像，相比以前的方法更灵活高效。实验证明了我们方法的优越性。

Sep, 2023

控制样式：使用扩散先验生成基于文本的风格化图像

提出了一种新的任务，文本驱动的风格化图像生成，以进一步增强内容创造中的可编辑性，通过升级经过训练的文本到图像模型与可训练的调制网络，同时引入扩散样式和内容正则化，实现了高质量的风格化文本到图像生成。

Nov, 2023

样式注入在扩散中：适应大规模扩散模型进行风格转换的无训练方法

基于预训练大规模扩散模型的一种新的艺术风格转换方法，通过操作自注意力层的特征作为交叉注意力机制的方式，实现样式的传递和内容的保留，并解决原始内容的破坏和样式颜色不协调的问题，证明在传统和基于扩散的风格转换基准测试中超越了现有方法。

Dec, 2023

DiffStyler：基于扩散的局部图像风格转移

DiffStyler是一种新方法，通过利用基于LoRA的文本到图像扩散模型来实现高效且精确的任意图像风格转移，该方法结合了跨LoRA特征和注意注入的策略，旨在在内容保持和风格整合之间取得更和谐的平衡。

Mar, 2024

InstantStyle：文本到图像生成中面向保留风格的免费午餐

Tuning-free diffusion-based models have achieved promising results in image personalization and customization, but still face challenges in style-consistent image generation. This paper introduces InstantStyle, a framework that addresses these challenges by decoupling style and content, and injecting reference image features into style-specific blocks to achieve superior visual stylization outcomes.

Apr, 2024

结构一致的文本驱动风格迁移中的自适应风格融合

本研究提出了一种创新的文本驱动风格转移任务解决方案，名为自适应风格融合（ASI），通过Siamese Cross-Attention（SiCA）、Adaptive Content-Style Blending（AdaBlending）模块来实现细粒度的特征级风格融合，并在结构保持和风格化效果方面展现出更好的性能。

Apr, 2024

StyleMaster：面向灵活样式化图像生成的扩散模型

Stylized Text-to-Image Generation paper proposes StyleMaster, a framework utilizing pretrained Stable Diffusion for generating images from text prompts, overcoming previous issues with insufficient style and inconsistent semantics. It introduces a multi-source style embedder and dynamic attention adapter to provide improved style embeddings and adaptability, and evaluates the model using objective functions and denoising loss, demonstrating its superior performance in achieving variable target styles while maintaining semantic information.

May, 2024

StyleTokenizer：通过单一实例定义图像风格以控制扩散模型

本研究解决了在文本到图像生成中有效控制图像风格的难题。我们提出了StyleTokenizer，一种无须预先训练的风格控制生成方法，通过风格标记器将风格表示与文本表示对齐，从而减少对文本提示有效性的影响。实验结果表明，该方法能够准确捕捉参考图像的风格特征，同时生成与目标图像风格和文本提示一致的美观图像。

Sep, 2024