通过细分和双重绑定实现任何艺术风格的文本到图像合成

Apr, 2024

通过细分和双重绑定实现任何艺术风格的文本到图像合成

Text-to-Image Synthesis for Any Artistic Styles: Advancements in Personalized Artistic Image Generation via Subdivision and Dual Binding

PDF

Junseo Park, Beomseok Ko, Hyeryung Jang

TL;DR该研究论文介绍了一种名为 Single-StyleForge 的新方法，用于将预训练的文本到图像扩散模型进行个性化训练，从文本提示中生成指定风格的多样化图像。此外，研究还提出了一种名为 Multi-StyleForge 的改进方法，通过学习多个标记来改善风格和文本 - 图像对齐的质量，在六种不同的艺术风格上实验评估表明，在生成的图像质量和感知保真度指标（如 FID、KID 和 CLIP 分数）方面取得了显着的改善。

Abstract

Recent advancements in text-to-image models, such as Stable Diffusion, have demonstrated their ability to synthesize visual images through natural language prompts. One approach of personalizing text-to-image models

text-to-image models personalization art styles single-styleforge multi-styleforge

发现论文，激发创造

DreamStyler：使用文本到图像扩散模型进行风格反演的绘画

DreamStyler 是一种新的框架，用于艺术图像合成，具备文本到图像合成和风格转换的能力，通过多阶段的文本嵌入和上下文感知的文本提示来优化图像质量，并具备适应一系列风格参考的灵活性，实验证明其在多种场景下的卓越性能，显示出在艺术产品创作方面的潜在优势。

Sep, 2023

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

样式生成：基于粗略匹配的图像合成

使用粗略匹配的文本作为引导，本研究介绍了一种新颖的基于文本的风格生成方法，通过两阶段的生成对抗网络生成与细化图像风格，并通过实验证实了该方法的有效性和实际应用价值。

Sep, 2023

StyleDrop: 任何风格的文本到图像生成

本文介绍了一种基于文本到图像模型的图像综合方法 StyleDrop，可以通过少量的可训练参数学习新的图像风格，并且能够很好地捕捉用户提供的颜色方案、阴影、设计模式、局部和全局效果，而且即使用户只提供一个指定了所需风格的图像，也能够产生令人印象深刻的结果。StyleDrop 实现于 Muse 上对比其他方法表现更优。

Jun, 2023

基于扩散模型的倒置式风格迁移

本文提出了一种基于单张画作的有学习能力的文字描述的艺术风格逆推算法（InST），能够高效地捕捉并转移绘画作品的艺术风格，且经过在多个艺术家和艺术风格的多幅画作上测试验证了其质量和效率。

Nov, 2022

在文本到图像生成模型时代重新思考艺术版权侵权问题

最近的文本到图像生成模型（如稳定扩散）非常擅长模仿和生成受版权保护的内容，这引起了艺术家们的担忧，他们担心自己的独特风格可能会被不当复制。为了解决这个问题，本文将 “艺术版权侵权” 问题重新定义为对图像集进行分类问题，而不是探究图像间的相似性。我们首先介绍了 ArtSavant，这是一个实用的工具，通过与由 WikiArt 策展的 372 位艺术家作品组成的参考数据集进行比较，可以确定艺术家的独特风格，并识别其是否出现在生成的图像中。我们利用两种互补的方法对图像集进行艺术风格分类，包括 TagMatch，这是一种新颖且可解释的方法，更适合非技术相关的利益相关者（艺术家、律师、法官等）广泛使用。利用 ArtSavant 进行大规模实证研究，以量化的方式揭示了三种流行的文本到图像生成模型中艺术风格被复制的普遍情况。在包括许多著名艺术家在内的大量艺术家的数据集中，仅有 20％的艺术家的风格有被当今流行的文本到图像生成模型简单指令提示复制的风险。

Apr, 2024

InstantStyle：文本到图像生成中面向保留风格的免费午餐

Tuning-free diffusion-based models have achieved promising results in image personalization and customization, but still face challenges in style-consistent image generation. This paper introduces InstantStyle, a framework that addresses these challenges by decoupling style and content, and injecting reference image features into style-specific blocks to achieve superior visual stylization outcomes.

Apr, 2024

控制样式：使用扩散先验生成基于文本的风格化图像

提出了一种新的任务，文本驱动的风格化图像生成，以进一步增强内容创造中的可编辑性，通过升级经过训练的文本到图像模型与可训练的调制网络，同时引入扩散样式和内容正则化，实现了高质量的风格化文本到图像生成。

Nov, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

文本到图像合成的双重对抗推理

该论文提出了通过增强当前文本到图像合成框架，使用双重对抗推理机制来学习潜在空间中表示内容和风格的两个变量，从而实现生成更高质量的图像。

Aug, 2019