SketchDreamer：互动的文本增强创意草图构思

Aug, 2023

SketchDreamer：互动的文本增强创意草图构思

SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation

Zhiyu Qu, Tao Xiang, Yi-Zhe Song

TL;DR通过与文本交互的过程，本文提出了一种名为 SketchDreamer 的方法，利用基于像素表示的图像的文本条件扩散模型训练来生成受控素描，并使文本和素描能够相互作用，以实现非专业用户创作素描，并将叙述扩展为故事板。

Abstract

artificial intelligence generated content (AIGC) has shown remarkable progress in generating realistic images. However, in this paper, we take a step "backward" and address AIGC for the most rudimentary visual modality of human →

artificial intelligence generated content sketches interactive process controlled sketches text-driven ideation

发现论文，激发创造

快速概念设计探索与原型制作：基于生成人工智能的 Sketch2Prototype

Sketch2Prototype 是一个基于人工智能的框架，通过手绘草图到文本、文本到图像、图像到 3D 的转换过程，快速生成文本、图像和 3D 模型，用于提升早期设计阶段的探索。研究表明，使用文本作为中间模态可以比直接将草图转换为 3D 模型的基准方法产生更加多样且可制造的 3D 模型。同时，发现了现有图像到 3D 技术的局限性，并强调了文本模态在用户反馈和迭代设计中的价值。

Mar, 2024

DiffSketcher：基于潜在扩散模型的文本引导矢量素描综合

本论文中，我们介绍了一种使用自然语言输入生成矢量手绘素描的创新算法 DiffSketcher，并使用预训练的图像扩散模型进行开发。

Jun, 2023

以你的素描为中心：在扩散模型中实现民主化的素描控制

通过揭示素描在扩散模型中的潜力，解决了生成人工智能直接素描控制的虚假承诺。我们巧妙地实现了专业素描生成精确图片的民主化过程，证实现有模型变形的空间限制性问题。为了纠正这个问题，我们提出了一种意识到抽象的框架，利用素描适配器，自适应时间步骤采样和经过预训练的精细化素描图像检索模型的辨别引导，协同工作以加强细粒度素描照片关联性。我们的方法在推理过程中无缝运行，无需文本提示；一张简单的草图就像你和我都可以创建的草图一样，就足够了！我们欢迎大家查看论文及其附加资料中展示的结果。贡献包括专业素描生成的民主化控制、引入意识到抽象的框架和利用辨别引导，通过大量实验证实。

Mar, 2024

交互式素描填充：多类素描到图像翻译

本文提出了一种交互式的基于 GAN 的草图到图像的翻译方法，能够帮助新手用户创建简单物体的图像，通过引入基于门控机制的分类条件方法，可以在不混合特征的情况下从单个生成器网络中生成不同的类别。

Sep, 2019

创意草图生成

该研究通过引入 Creative Birds 和 Creative Creatures 两个数据集，提出 DoodlerGAN–一种基于部件的生成式对抗网络，用于生成新的部件外观的未见过的构图，并通过定量评估和人类研究证明，与现有方法相比，其生成的草图更具创意和更高的质量。

Nov, 2020

SketchyGAN：多样化逼真的草图到图像合成

本研究提出了一种新的生成对抗网络 (GAN) 方法，利用数据增强及信息流构建模块等技术，在摩托车、马和沙发等 50 类别的草图上合成逼真的图像，并在 Inception 分数上取得显著的改进。

Jan, 2018

SVGDreamer：基于扩散模型的文本引导 SVG 生成

SVGDreamer 是一种新颖的文本引导的矢量图合成方法，通过语义驱动的图像矢量化过程和基于注意力的原语控制，与基线方法相比，在可编辑性、视觉质量和多样性方面表现出更高的优越性。

Dec, 2023

人工智能生成内容的综合调查（AIGC）：从 GAN 到 ChatGPT 的生成式人工智能历史

该研究综述了生成模型的历史和基本组成部分，并从单模态和多模态交互的角度介绍了文本和图像生成任务及相关模型，讨论了人工智能生成内容领域中的开放性问题和未来挑战。

Mar, 2023

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

使用扩散模型进行草图控制图像合成

使用扩散模型进行创意素描到图像的综合，表现为更自由、更精确，不依赖大规模的素描 - 图像数据集，同时也具有图像编辑和插值的应用。

May, 2023