4D-fy: 使用混合分数蒸馏抽样实现文本到 4D 生成
通过定量评估指标、交叉验证人类评级以及分析 SDS 技术的失败案例,我们提出了一种新的计算效率基准模型,以解决生成模型中的艺术问题,包括 3D 模型准确性和文本提示之间的错位问题,并在所提出的评估指标上达到了最先进的性能。
Feb, 2024
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023
本研究提出了一种名为 DreamPortrait 的算法,它可以在一个前向传递中生成文本引导下的 3D 感知画像,通过 Score Distillation Sampling 和 GAN 损失正则化方法来优化分布,进一步设计了 3D 感知门控交叉关注机制,生成高效且具有鲁棒的多视图语义一致性的人像。
Jun, 2023
通过 DDIM 生成过程的类似 SDS 损失的表达方式,本论文发现 SDS 可以看作是一种广义的 DDIM 生成过程,结合创新的噪声抽样方法和流分数蒸馏(FSD)方法,实验证明 FSD 方法显著增强了生成的多样性而不损害质量。
May, 2024
提出了一种基于姿态相关性蒸馏采样(PCDS)的扩散式三维生成任务的新目标,其通过最小采样步骤(1-3)建立了在扩散轨迹内的姿态相关性函数,以近似真实梯度,并通过粗到细的优化策略实现高质量的三维物体生成。
Jun, 2024
通过利用预训练的 T2I 扩散模型,借助预定时间步长安排,将文本到 3D 优化提升为多视角图像到图像转换问题,我们提出了一种新的优化算法和实用的三阶段粗到精的文本到 3D 优化框架 DreamFlow,实现快速生成高质量、高分辨率(1024x1024)的 3D 内容。
Mar, 2024
4DGen 是一种新颖的综合框架,将 4D 内容创建任务拆分为多个阶段,利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分,使用动态 3D Gaussians 构建 4D 表示,在训练期间利用渲染进行高分辨率监督,从而实现了高质量的 4D 生成,并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验,相比现有基线方法,在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果,最重要的是,我们的方法支持基于实际场景的生成,为用户提供了增强控制,这是以前方法难以实现的特点。
Dec, 2023
通过分析分数蒸馏抽样(SDS)及其变体,我们发现其蒸馏抽样过程实际上对应于随机微分方程(SDE)的轨迹抽样,这启发我们提出了一种新颖有效的 “Consistent3D” 方法,该方法通过确定性抽样先验来进行文本到三维生成。实验结果表明,Consistent3D 在生成高保真度和多样性的三维物体和大规模场景方面具有很高的效能。
Jan, 2024
在本文中,我们通过考虑视频生成器,使用高斯喷洒的 3D 重建算法,减少 2D 生成器网络的评估次数 10-100 倍,实现更高效的处理管道,提供更高质量、更少几何不一致性和更多可用的 3D 资源。
Feb, 2024
本文提出了一种新的面向文本到三维立体生成的方法,即基于随机变量的粒子变分打分抽样,通过此方法在保证样本质量和多样性的同时避免了过饱和、过平滑和低多样性等问题,并在 NeRF 算法基础上生成了高保真渲染效果的三维网格。
May, 2023