康定斯基 3.0 技术报告

Dec, 2023

Kandinsky 3.0 Technical Report

Vladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov...

TL;DRKandinsky 3.0 是一种基于潜在扩散的大规模文本到图像生成模型，通过两倍更大的 U-Net 主干网、十倍更大的文本编码器和去除扩散映射等关键组件的改进，取得了与其他模型相比更高质量和真实感的图像生成效果。

Abstract

We present kandinsky 3.0, a large-scale text-to-image generation model based on latent diffusion, continuing the series of text-to-image K

kandinsky 3.0 text-to-image generation latent diffusion u-net backbone text encoder

发现论文，激发创造

Kandinsky：带有图像先验和潜在扩散的改进文本到图像合成

Kandinsky1 是一种使用潜在扩散架构的文本到图像生成模型，与图像先验模型的原则结合，并通过修改的 MoVQ 实现作为图像自编码器组件，支持多样化的生成模式，有 8.03 的 FID 得分和可测量的图像生成质量。

Oct, 2023

利用生成重绘为 3D 资产注入新生命

基于扩散的文本到图像模型引起了视觉社区、艺术家和内容创作者的极大关注。通过将预训练的 2D 扩散模型和标准的 3D 神经辐射场作为独立的工具结合起来，我们展示了它们在非学习的方式上相互配合的能力。

Sep, 2023

VolumeDiffusion: 灵活的文本到 3D 生成，配备高效的容积编码器

该研究介绍了一种创新的 3D 体积编码器，旨在用于文字到 3D 生成。为了扩大扩散模型的训练数据，该研究开发了一种轻量级网络，能够有效地从多视图图像中获取特征体积。然后，使用 3D U-Net 在扩散模型上对 3D 体积进行训练，用于文字到 3D 生成。该研究进一步解决了不准确的物体标题和高维特征体积的挑战。该模型在公共 Objaverse 数据集上训练，展示了从文本提示生成多样且可识别的样本的有希望结果。值得注意的是，它通过文本线索在物体的部分特征上赋予了更好的控制能力，通过将多个概念无缝结合在单个物体中，促进了模型的创造力。这项研究通过引入一种高效、灵活和可扩展的表示方法，对 3D 生成的进展有着显著贡献。可在此 https URL 找到代码。

Dec, 2023

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

DreamFusion: 使用 2D 扩散进行文本到 3D 转换

本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法，该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制，将 2D 的扩散模型作为先验，通过梯度下降优化 3D 模型（Neural Radiance Field），并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据，也不需要修改图像扩散模型，证明了使用预训练的图像扩散模型作为先验的有效性。

Sep, 2022

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

CogView3：通过中继扩散实现更精细和更快速的文本到图像生成

CogView3 是一种基于级联框架的文本到图像生成模型，通过实现中继扩散和超分辨率技术来提升性能，在人工评估中比当前开源文本到图像扩散模型 SDXL 表现优秀 77.0%，同时只需约 1/2 的推理时间。

Mar, 2024

Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成

我们提出了 Dual3D，一种新颖的文本到 3D 生成框架，仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型，通过单个潜在去噪网络可以有效去噪多视图潜在，在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块，避免了从头训练的昂贵代价。同时，我们提出了双模态切换推理策略，仅使用 1/10 的去噪步骤和 3D 模式，在仅 10 秒的时间内成功生成高质量的 3D 资产，同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理，大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。

May, 2024

SDXL：提高高分辨率图像合成的潜在扩散模型

SDXL 是一种潜在扩散模型，用于文本到图像的合成，其使用更大的 UNet 骨干网络以及多重新颖的调制方式和改进模型，且其结果竞争力与黑箱最先进的图像生成器相比具有显著提高。

Jul, 2023