InstantStyle-Plus: 文本到图像生成中保留内容的风格转换
提出基于最优输运和自相似性的风格转移算法STROTSS,扩展了算法以允许用户对风格图像和输出之间的视觉相似性进行点对点或区域对区域的控制,实验结果表明在保留一定的内容情况下,该算法可提供高质量的样式化效果。
Apr, 2019
提出了一种全新的神经风格迁移框架,使用户能够使用文本描述而非参考图像来实现图像的风格迁移,在实验中证实了通过使用多视图扩充的补丁式文本-图像匹配Loss来实现对内容图像的样式转移,从而实现了具有语义相似性的现实纹理风格转移。
Dec, 2021
该研究提出了一种无需LoRA的方法,用于风格化图像生成,通过使用文本提示和风格参考图像作为输入,以单次传递生成输出图像。使用统一模型,该方法能够适应多种风格,但面临两个挑战:1)提示在生成内容上失去可控性,2)输出图像同时继承了风格参考图像的语义和风格特征,从而损害其内容的保真度。为解决这些挑战,作者提出了StyleAdapter,该模型由两个组件组成:双路径交叉注意力模块(TPCA)和三个解耦策略。这些组件使模型能够分别处理提示和风格参考特征,并减少风格参考中语义和风格信息之间的强耦合。StyleAdapter能够以单次传递生成与提示内容匹配且采用参考的风格的高质量图像,相比以前的方法更灵活高效。实验证明了我们方法的优越性。
Sep, 2023
提出了一种新的任务,文本驱动的风格化图像生成,以进一步增强内容创造中的可编辑性,通过升级经过训练的文本到图像模型与可训练的调制网络,同时引入扩散样式和内容正则化,实现了高质量的风格化文本到图像生成。
Nov, 2023
基于预训练大规模扩散模型的一种新的艺术风格转换方法,通过操作自注意力层的特征作为交叉注意力机制的方式,实现样式的传递和内容的保留,并解决原始内容的破坏和样式颜色不协调的问题,证明在传统和基于扩散的风格转换基准测试中超越了现有方法。
Dec, 2023
DiffStyler是一种新方法,通过利用基于LoRA的文本到图像扩散模型来实现高效且精确的任意图像风格转移,该方法结合了跨LoRA特征和注意注入的策略,旨在在内容保持和风格整合之间取得更和谐的平衡。
Mar, 2024
Tuning-free diffusion-based models have achieved promising results in image personalization and customization, but still face challenges in style-consistent image generation. This paper introduces InstantStyle, a framework that addresses these challenges by decoupling style and content, and injecting reference image features into style-specific blocks to achieve superior visual stylization outcomes.
Apr, 2024
本研究提出了一种创新的文本驱动风格转移任务解决方案,名为自适应风格融合(ASI),通过Siamese Cross-Attention(SiCA)、Adaptive Content-Style Blending(AdaBlending)模块来实现细粒度的特征级风格融合,并在结构保持和风格化效果方面展现出更好的性能。
Apr, 2024
Stylized Text-to-Image Generation paper proposes StyleMaster, a framework utilizing pretrained Stable Diffusion for generating images from text prompts, overcoming previous issues with insufficient style and inconsistent semantics. It introduces a multi-source style embedder and dynamic attention adapter to provide improved style embeddings and adaptability, and evaluates the model using objective functions and denoising loss, demonstrating its superior performance in achieving variable target styles while maintaining semantic information.
May, 2024
本研究解决了在文本到图像生成中有效控制图像风格的难题。我们提出了StyleTokenizer,一种无须预先训练的风格控制生成方法,通过风格标记器将风格表示与文本表示对齐,从而减少对文本提示有效性的影响。实验结果表明,该方法能够准确捕捉参考图像的风格特征,同时生成与目标图像风格和文本提示一致的美观图像。
Sep, 2024