Diffutoon: 高分辨率可编辑的 Toon 着色:通过扩散模型实现
本文介绍了 CartoonDiff,一种基于扩散 Transformer 模型的无需训练的采样方法,用于生成图像卡通化效果。通过将扩散模型的逆向过程分解为语义生成和细节生成阶段,并在特定去噪步骤中对噪声图像的高频信号进行归一化,实现了图像卡通化过程。CartoonDiff 不需要任何额外的参考图像,复杂的模型设计或繁琐的参数调整。广泛的实验结果表明了 CartoonDiff 的强大能力。
Sep, 2023
提出了一种新颖的从草图到漫画的框架,通过色彩向导生成彩色插图,然后根据强度引导生成带有阴影高频晕点的漫画,并在生成高质量的漫画方面显著优于现有方法。
Mar, 2024
通过结合 CLIP 和 2D Diffusion 模型,我们提出了一种新的 3DStyle-Diffusion 模型,能够在文本驱动的几何和外观引导下,实现对 3D 网格的细粒度样式化。
Nov, 2023
本文提出了 RenderDiffusion,这是第一个用于 3D 生成和推断的扩散模型,使用仅有的单眼 2D 监督进行训练,并采用新颖的图像去噪架构进行中间的三维表示,以提供强烈归纳结构,同时仅需要 2D 监督。我们在 FFHQ、AFHQ、ShapeNet 和 CLEVR 数据集上评估了 RenderDiffusion,展示了生成 3D 场景和从 2D 图像中推理 3D 场景的竞争性表现。此外,我们的扩散型方法还使我们能够使用 2D 修复来编辑 3D 场景。
Nov, 2022
通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
Dec, 2023
扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架,其中包含一个修正模块,用残差特征调节扩散模型权重,以填补编辑过程中准确性的差距。此外,我们引入了一种新的学习范式,旨在在编辑过程中最小化错误传播。通过大量实验证明,我们的提议框架和训练策略在各种去噪步骤下实现了高保真的重建和编辑结果,并在定量指标和质量评估方面表现出色。此外,我们还通过图像到图像的转换和跨领域图像编辑等多个应用探索了模型的泛化能力。
Dec, 2023
本文提出了一种基于草图向量的条件扩散模型(SketchFFusion),用于实现基于用户提供的草图信息进行局部细节微调的图像编辑,并展示了其优于现有方法的生成性能。
Apr, 2023
ToddlerDiffusion 是一种可解释的 2D 扩散图像合成框架,受到人类生成系统的启发,它将生成过程分解成简单且可解释的阶段,生成轮廓、调色板和详细彩色图像,不仅提高了整体性能,还实现了强大的编辑和交互能力。通过在像 LSUN-Churches 和 COCO 这样的数据集上进行广泛实验验证,我们的方法始终优于现有方法。ToddlerDiffusion 在 LSUN-Churches 上与 LDM 性能相匹配,同时以三倍速且架构大小减少 3.76 倍的速度运行。附加材料中提供了我们的源代码,并将公开访问。
Nov, 2023
本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion},它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。
Apr, 2023
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024